# js可视爬取

**Repository Path**: baihaowen/javascript-visual-crawling

## Basic Information

- **Project Name**: js可视爬取
- **Description**: 使用puppeteer爬取b站数据，进行词云图分析，可看到当前的热点词汇，热门词汇
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-04-10
- **Last Updated**: 2024-04-11

## Categories & Tags

**Categories**: Uncategorized

**Tags**: puppeteer

## README

# 介绍

- index.js - 使用 Puppeteer 爬取 bilibili一个页面的63448评论条数据。
- start.py - Python 脚本用于生成词云图

# 环境

- node

# 运行

- 使用 `node index.js` 运行爬虫脚本
```js
let h = 50;//内容循环次数 定义你要循环的次数,用于页面数据更新,值越大获取的数据越多,取决于当前页面数据量
```
```js
// 填写你要爬的网络地址
 await page.goto(
    "https://www.bilibili.com/video/BV1ym42177Hy/?spm_id_from=333.1007.top_right_bar_window_dynamic.content.click&vd_source=3fb379bdd5d3e5bd63fada6189f6d4b6"
  );
```
```
下面是填写自己寻找到的标签
"div > div > div > div.reply-warp > div.reply-list > div > div.root-reply-container > div.content-warp > div.root-reply > span > span"
```
- 数据将保存在 `data.json` 文件下

# 生成词云图

- 使用 `pip install WordCloud -i https://mirrors.aliyun.com/pypi/simple/` 安装依赖
- 运行`start.py`
- 生成的词云图将保存为 `word-cloud.png`