1 Star 0 Fork 1

zzliux / TiebaKeywordsSpider

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

贴吧关键词爬虫

DEMO

异步队列爬虫
爬取单层楼后会根据非中文字符进行分割,一个分割块内的多个关键词仅统计一次

配置

module.exports = {
    kw: ['湖南商学院'], // 可以一次性爬多个贴吧
    save_path: '', // 文件输出路径
    pMaxPage: 1, // 单个贴子最大翻页数
    kwMaxPage: 1, // 如果查非大型贴吧最好仅爬1页,不然可能会因为到了最后一页有重复爬取的可能性
    requestDelay: 500, // 请求延时,每两个请求之间的延时,以实际带宽来定大小
    timeout: 3000, // 超时时间,以防出现忙等待的情况
}

安装

npm install

运行

node spider

也可以通过控制台传入参数,所有参数均可选,没有传入的参数默认使用配置文件的参数

node spider kw 李毅 timeout 1000 save_path 李毅.json

不过指令传参数的话仅允许传一个贴吧

运行效果

可能等待时间会非常久

crontab

可以通过定时任务来执行指令爬贴吧,输出文件到站点的静态文件的目录下

值得注意的是node指令要使用绝对路径,不然可能会报无该指令的错误

空文件

简介

一个贴吧的关键词爬虫,可以爬取每个吧的第一页所有帖子内容再进行分词统计频率的工具 展开 收起
JavaScript
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
JavaScript
1
https://gitee.com/zzliux/TiebaKeywordsSpider.git
git@gitee.com:zzliux/TiebaKeywordsSpider.git
zzliux
TiebaKeywordsSpider
TiebaKeywordsSpider
master

搜索帮助