来源: 2018-07-17 15:22:52
摘要:本文从用户的听歌数据入手,通过数据预处理技术提取相关特征,利用FP-tree算法得到歌曲之间的关联规则;在此基础上,利用DBSCAN聚类算法将歌曲根据其本身属性进行聚类,找到同类歌曲。最终把两者有机结合,互相补充,使新的推荐系统发挥更加理想的功能。
关键词:歌曲;FP-tree;关联规则;聚类;推荐系统;DBSCAN
一、推荐系统简介
谈起推荐系统首先要从个性化推荐谈起。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐其感兴趣的商品和服务。随着电子商务规模迅速扩大,商品数量和种类急速增长,顾客需要花费大量时间才能找到自己想买的商品。这种浏览大量无关信息和产品的过程会给用户带来极大的不便,从而导致消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。本文主要研究大数据在音乐推荐系统中的应用。通过一些挖掘算法,发现数据之间的相关性,预测用户喜欢的歌曲类别以及更加具体的特点构建用户画像,快速准确推测使用者的喜好,及时为用户推荐更多感兴趣的信息、数据及链接,以达到方便用户吸引消费者的目的。
(一)推荐系统现状和弊端
现在商业智能平台上信息量呈爆炸式发展,但数据本身所具有的规模巨大和不稳定性,对人们如何准确迅速提取出有价值的信息,仍具有不可忽视的制约作用。比如,实际上喜欢听流行歌曲的用户,因参与合唱活动反复听了一些经典革命歌曲,使软件在他结束合唱活动后,仍然继续推荐大量经典老歌,导致出现不符合用户需求的情况。这就是由于推荐系统数据处理系统过于僵化造成的不良后果。所以,推荐系统还有很多方面的技术需要优化升级。
(二)优化升级推进系统的创新点
在设计推荐系统过程中,如果强化数据预处理技术,并采用关联规则与聚类算法相结合的方法,则会尽最大可能地避免推荐系统僵化的问题。1、强化优化数据预处理功能。在用户选择的歌曲中,并非都是用户所喜爱的,所以,需要将数据先进行简单处理。在用户选择过的歌曲中,将播放时间短于总歌曲时长60%的歌曲剔除;2、采用关联规则与聚类算法相结合的方法。听歌是一种较为个性的行为,单使用关联规则推荐,会导致推荐范围过于宽泛,没有针对性;单使用同属性歌曲推荐,会使用户永远无法尝试新的歌曲,无法了解与自己类似爱好用户的选择。所以把两者有机结合,互相补充,才能使新的推荐系统发挥更加理想的功能。使用关联规则是从每一位用户出发,挖掘听了“a”歌曲的人同时听的其它相关歌曲,形成“a”的关联规则。这样就可以在后续推荐中,为听了“a”歌曲的人推荐与“a”相关的其他歌曲。使用聚类算法是对歌曲的各项属性进行区别。各项属性包括节奏、发行时间、语言和情感等。在实际情况中,用户的喜好都是独特的,不能单纯的依靠其他用户的选择来推测,这样就可以做到,为听过“a”歌曲的用户推荐与其属于同一类别的歌曲。
二、实际应用
(一)关联规则FP-tree的应用
在进行关联规则分析时,以每个用户在一个时间段的听歌情况为一个元组。值得注意的是,用户点击的歌曲并非都是他喜欢的,首先需要对其进行预处理,把用户听了一小部分就直接跳过的歌曲直接清除,进而排除异常值对最终结果的影响。首先,设定最小支持度阈值为50%,最小置信度阈值为75%,将每一位用户的每一首歌按照递减的支持度排序,并构造FP-tree。从树根处的节点向上寻找路径,挖掘频繁项集。例如,从h处向上的路径只有一条且支持度小于最小支持度阈值,所以没有包含歌曲h的频繁项集。在歌曲h挖掘完成后对其它歌曲用此方式挖掘FP-tree。从d向上两条路径中发现{c,d}支持度为50%和在歌曲c中置信度75%,满足条件。从歌曲c向上寻找路径,可发现{a,c}也为频繁项集,支持度为75%,歌曲c中置信度为75%。通过FP-tree算法,我们得到频繁项集{a,d},{a,c}。
相关推荐:
小升初试题、期中期末题、小学奥数题
尽在奥数网公众号
欢迎使用手机、平板等移动设备访问 ,幼儿教育我们一路陪伴同行!>>点击查看