代码拉取完成,页面将自动刷新
基于spark编写的音乐推荐大数据作业,使用scala编程,使用python的flash框架作为可视化展示。 Audioscrobbler数据集有趣地方在于仅仅记录播放的历史:“某某某 播放了 什么”。一个播放记录带来的信息量远远小于一个评分数据带来的信息量,但是评分数据总量肯定没有播放历史记录的数据多,当大量播放历史记录放在一起的时候,比评分数据将更有价值。 由这个网站公布的一个2005年的数据集合可以http://www-etud.iro.umontreal.ca/bergstrj/audioscrobbler_data.html上面下载。主要的数据集是 user_artist_data.txt 文件,里面大约包含 141000 唯一的用户和 1.6 百万唯一的artist艺术家,大约 24.2 百万用户播放记录。
软件架构说明 hadoop为分布式 + spark +hive
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。