# 第五周作业 **Repository Path**: lxlpfff/fifth_weeks_homework ## Basic Information - **Project Name**: 第五周作业 - **Description**: 问题描述数据:Million Song Dataset(MSD) https://labrosa.ee.columbia.edu/millionsong/ 作业使用的数据集是公开音乐数据集 Million Song Dataset(MSD) , 它 包 含 来 自 SecondHandSongs dataset 、 musiXmatch dataset、Last.fm dataset、Taste Profile subset、 thisismyjam-to-MSD mapping、tagtraum genre annotations 和 Top MAGD dataset 七个知名音乐社区的数据。 原始数据集包括: 1. train_triplets.txt:三元组数据(用户、歌曲、播放次数) 2. track_metadata.db:每个歌曲的元数据 由于原始数据太大,作业用的数据集只是其中的子集(播放次数最多的10万个用户、播放次数最多的3万首歌曲。 数据预处理过程请见DataProcessing.ipynb文件,最后得到的数据文件为:triplet_datase - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 5 - **Forks**: 0 - **Created**: 2018-12-04 - **Last Updated**: 2025-12-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 第五周作业 #### 项目介绍 问题描述 数据:Million Song Dataset(MSD) https://labrosa.ee.columbia.edu/millionsong/ 作业使用的数据集是公开音乐数据集 Million Song Dataset(MSD) , 它 包 含 来 自 SecondHandSongs dataset 、 musiXmatch dataset、Last.fm dataset、Taste Profile subset、 thisismyjam-to-MSD mapping、tagtraum genre annotations 和 Top MAGD dataset 七个知名音乐社区的数据。 原始数据集包括: 1. train_triplets.txt:三元组数据(用户、歌曲、播放次数) 2. track_metadata.db:每个歌曲的元数据 由于原始数据太大,作业用的数据集只是其中的子集(播放次数最多的10万个用户、播放次数最多的3万首歌曲。 数据预处理过程请见DataProcessing.ipynb文件,最后得到的数据文件为:triplet_datase #### 软件架构 软件架构说明 #### 安装教程 1. xxxx 2. xxxx 3. xxxx #### 使用说明 1. xxxx 2. xxxx 3. xxxx #### 参与贡献 1. Fork 本项目 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 码云特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. 码云官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解码云上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目 5. 码云官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. 码云封面人物是一档用来展示码云会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)