提升音乐推荐系统性能构想探讨

2018-07-17 15:22:52

　　摘要：本文从用户的听歌数据入手，通过数据预处理技术提取相关特征，利用FP-tree算法得到歌曲之间的关联规则；在此基础上，利用DBSCAN聚类算法将歌曲根据其本身属性进行聚类，找到同类歌曲。最终把两者有机结合，互相补充，使新的推荐系统发挥更加理想的功能。

　　关键词：歌曲；FP-tree；关联规则；聚类；推荐系统；DBSCAN

　　一、推荐系统简介

　　谈起推荐系统首先要从个性化推荐谈起。个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐其感兴趣的商品和服务。随着电子商务规模迅速扩大，商品数量和种类急速增长，顾客需要花费大量时间才能找到自己想买的商品。这种浏览大量无关信息和产品的过程会给用户带来极大的不便，从而导致消费者不断流失。为了解决这些问题，个性化推荐系统应运而生。本文主要研究大数据在音乐推荐系统中的应用。通过一些挖掘算法，发现数据之间的相关性，预测用户喜欢的歌曲类别以及更加具体的特点构建用户画像，快速准确推测使用者的喜好，及时为用户推荐更多感兴趣的信息、数据及链接，以达到方便用户吸引消费者的目的。

　　（一）推荐系统现状和弊端

　　现在商业智能平台上信息量呈爆炸式发展，但数据本身所具有的规模巨大和不稳定性，对人们如何准确迅速提取出有价值的信息，仍具有不可忽视的制约作用。比如，实际上喜欢听流行歌曲的用户，因参与合唱活动反复听了一些经典革命歌曲，使软件在他结束合唱活动后，仍然继续推荐大量经典老歌，导致出现不符合用户需求的情况。这就是由于推荐系统数据处理系统过于僵化造成的不良后果。所以，推荐系统还有很多方面的技术需要优化升级。

　　（二）优化升级推进系统的创新点

　　在设计推荐系统过程中，如果强化数据预处理技术，并采用关联规则与聚类算法相结合的方法，则会尽最大可能地避免推荐系统僵化的问题。1、强化优化数据预处理功能。在用户选择的歌曲中，并非都是用户所喜爱的，所以，需要将数据先进行简单处理。在用户选择过的歌曲中，将播放时间短于总歌曲时长60%的歌曲剔除；2、采用关联规则与聚类算法相结合的方法。听歌是一种较为个性的行为，单使用关联规则推荐，会导致推荐范围过于宽泛，没有针对性；单使用同属性歌曲推荐，会使用户永远无法尝试新的歌曲，无法了解与自己类似爱好用户的选择。所以把两者有机结合，互相补充，才能使新的推荐系统发挥更加理想的功能。使用关联规则是从每一位用户出发，挖掘听了“a”歌曲的人同时听的其它相关歌曲，形成“a”的关联规则。这样就可以在后续推荐中，为听了“a”歌曲的人推荐与“a”相关的其他歌曲。使用聚类算法是对歌曲的各项属性进行区别。各项属性包括节奏、发行时间、语言和情感等。在实际情况中，用户的喜好都是独特的，不能单纯的依靠其他用户的选择来推测，这样就可以做到，为听过“a”歌曲的用户推荐与其属于同一类别的歌曲。

　　二、实际应用

　　（一）关联规则FP-tree的应用

　　在进行关联规则分析时，以每个用户在一个时间段的听歌情况为一个元组。值得注意的是，用户点击的歌曲并非都是他喜欢的，首先需要对其进行预处理，把用户听了一小部分就直接跳过的歌曲直接清除，进而排除异常值对最终结果的影响。首先，设定最小支持度阈值为50%，最小置信度阈值为75%，将每一位用户的每一首歌按照递减的支持度排序，并构造FP-tree。从树根处的节点向上寻找路径，挖掘频繁项集。例如，从h处向上的路径只有一条且支持度小于最小支持度阈值，所以没有包含歌曲h的频繁项集。在歌曲h挖掘完成后对其它歌曲用此方式挖掘FP-tree。从d向上两条路径中发现{c，d}支持度为50%和在歌曲c中置信度75%，满足条件。从歌曲c向上寻找路径，可发现{a，c}也为频繁项集，支持度为75%，歌曲c中置信度为75%。通过FP-tree算法，我们得到频繁项集{a,d},{a,c}。