# TiebaKeywordsSpider

**Repository Path**: zzliux/TiebaKeywordsSpider

## Basic Information

- **Project Name**: TiebaKeywordsSpider
- **Description**: 一个贴吧的关键词爬虫，可以爬取每个吧的第一页所有帖子内容再进行分词统计频率的工具
- **Primary Language**: JavaScript
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2016-10-15
- **Last Updated**: 2022-02-04

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 贴吧关键词爬虫

[DEMO](http://source.zzliux.cn/TiebaKeywords/demo.html)

异步队列爬虫  
爬取单层楼后会根据非中文字符进行分割，一个分割块内的多个关键词仅统计一次


### 配置
```js
module.exports = {
    kw: ['湖南商学院'], // 可以一次性爬多个贴吧
    save_path: '', // 文件输出路径
    pMaxPage: 1, // 单个贴子最大翻页数
    kwMaxPage: 1, // 如果查非大型贴吧最好仅爬1页，不然可能会因为到了最后一页有重复爬取的可能性
    requestDelay: 500, // 请求延时，每两个请求之间的延时，以实际带宽来定大小
    timeout: 3000, // 超时时间，以防出现忙等待的情况
}
```


### 安装
> npm install


### 运行
> node spider

也可以通过控制台传入参数，所有参数均可选，没有传入的参数默认使用配置文件的参数
> node spider kw 李毅 timeout 1000 save_path 李毅.json

不过指令传参数的话仅允许传一个贴吧

#### 运行效果
可能等待时间会非常久
![](img/screenshoot-1.jpg)


### crontab
可以通过定时任务来执行指令爬贴吧，输出文件到站点的静态文件的目录下

值得注意的是node指令要使用绝对路径，不然可能会报无该指令的错误