1 Star 0 Fork 1

topmy/Python3_WebSpider

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

Youku DanMu

弹幕爬取01 - 网页版优酷视频《我不是药神》的弹幕数据并制作词云图。

Explain

  首先,播放影片并打开Chrome开发者工具,选择Network。逐步拖动进度条并观察本地与服务器的请求规律,如图: danmu_request_url_png

  然后,确定弹幕数据来自JS实时加载而非XHR。需要注意的是,弹幕的请求数据不是规范的JSON格式。如图:
danmu_json_content

Other

  1. 请求链接的最后一个参数类似时间戳,去掉后不会影响数据的获取。
  2. 不要使用urllib.parse.urlencode()函数构造GET请求的链接,否则获取的数据为空,亲测。

Demo

wordcloud

  从词云图可以看出,"会员、电影票、五星力荐、王传君、癌症..."等关键字最为突出。

马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/topmy/Python3_WebSpider.git
git@gitee.com:topmy/Python3_WebSpider.git
topmy
Python3_WebSpider
Python3_WebSpider
master

搜索帮助

371d5123 14472233 46e8bd33 14472233