# js可视爬取 **Repository Path**: baihaowen/javascript-visual-crawling ## Basic Information - **Project Name**: js可视爬取 - **Description**: 使用puppeteer爬取b站数据,进行词云图分析,可看到当前的热点词汇,热门词汇 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-04-10 - **Last Updated**: 2024-04-11 ## Categories & Tags **Categories**: Uncategorized **Tags**: puppeteer ## README # 介绍 - index.js - 使用 Puppeteer 爬取 bilibili一个页面的63448评论条数据。 - start.py - Python 脚本用于生成词云图 # 环境 - node # 运行 - 使用 `node index.js` 运行爬虫脚本 ```js let h = 50;//内容循环次数 定义你要循环的次数,用于页面数据更新,值越大获取的数据越多,取决于当前页面数据量 ``` ```js // 填写你要爬的网络地址 await page.goto( "https://www.bilibili.com/video/BV1ym42177Hy/?spm_id_from=333.1007.top_right_bar_window_dynamic.content.click&vd_source=3fb379bdd5d3e5bd63fada6189f6d4b6" ); ``` ``` 下面是填写自己寻找到的标签 "div > div > div > div.reply-warp > div.reply-list > div > div.root-reply-container > div.content-warp > div.root-reply > span > span" ``` - 数据将保存在 `data.json` 文件下 # 生成词云图 - 使用 `pip install WordCloud -i https://mirrors.aliyun.com/pypi/simple/` 安装依赖 - 运行`start.py` - 生成的词云图将保存为 `word-cloud.png`