# MusicSpider
**Repository Path**: wizardrobot/MusicSpider
## Basic Information
- **Project Name**: MusicSpider
- **Description**: 一个获取网易云音乐歌手、专辑、歌曲、评论、歌词等数据的Python爬虫
- **Primary Language**: Unknown
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 1
- **Forks**: 1
- **Created**: 2020-05-18
- **Last Updated**: 2025-12-30
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README

# 163MusicSpider
一个获取网易云音乐歌手、专辑、歌曲、评论、歌词等数据的Python爬虫
会将获取的数据存储至`mysql`,并通过将url保存至 `redis` 做防重复爬取处理(网易云OS:你不要过来啊.jpg)
---
本爬虫未使用Scrapy框架,适合初学者查看使用
> 作者也是一名python初学者
文件信息
1. 爬取所有的歌手信息 [artists.py](src/artists.py)
2. 爬取专辑信息 [album_by_artist.py](src/album_by_artist.py)
3. 爬取歌曲信息 [music_by_album.py](src/music_by_album.py)
> 爬的多了可能被禁
4. 爬取歌词信息 [lyric_by_music.py](src/lyric_by_music.py)
5. 爬取评论信息(热评+前1000条) [comments_by_music.py](src/comments_by_music.py)
6. 建表sql [db.sql](src/db.sql)
7. 评论词云分析 [word_cloud_by_comment.py](src/analyse/word_cloud_by_comment.py)
8. 评论词云分析结果 [commentCloud.png](src/analyse/commentCloud.png)
### 使用方法
* 爬取所有数据
###### 运行main.py
* 爬取单独数据
###### 到src目录下 找到 【[文件信息](#file)】 里的相应文件,解开最后两行的注释,运行
* 线程数设置
###### 每个文件都有一个 `pool = ProcessPoolExecutor(5)` 这个数字就是并发线程数,如果设置的过大会引起网易云的发爬虫机制,导致爬取失败
> *****爬取的时候注意下并发数,给网易云减少些服务器压力*****
### 更新计划
1. 爬取评论信息里的关联评论,能够使评论形成关联的故事
2. 爬取歌单信息,及歌单里包含的音乐
3. 形成数据分析报表,如:歌手歌曲排行、热门评论排行、用户评论排行、热门词汇、歌曲/歌手评论排行榜
---
### 参考
[RitterHou/music-163](https://github.com/RitterHou/music-163)
[python教程](https://www.liaoxuefeng.com/wiki/1016959663602400)
[Archiewyq/music_163](https://github.com/Archiewyq/music_163)
#### 感谢以上对本工程的帮助和支持
### 统计信息
> 截止2019-09-11
>> 已爬取33439歌手信息 ,290772专辑信息 , 1802483歌曲信息 ,622398评论信息 ,2W+歌词信息
#### 更新记录
| 时间 | 内容 | 备注 |
| ----- | ---- | ---- |
| 2019-08-28 | 增加redis,防重复爬取,增加网易云api文档 | |
| 2019-09-11 | 增加评论词云分析,及60W+评论分析结果 ||
| | | |