代码拉取完成,页面将自动刷新
异步队列爬虫
爬取单层楼后会根据非中文字符进行分割,一个分割块内的多个关键词仅统计一次
module.exports = {
kw: ['湖南商学院'], // 可以一次性爬多个贴吧
save_path: '', // 文件输出路径
pMaxPage: 1, // 单个贴子最大翻页数
kwMaxPage: 1, // 如果查非大型贴吧最好仅爬1页,不然可能会因为到了最后一页有重复爬取的可能性
requestDelay: 500, // 请求延时,每两个请求之间的延时,以实际带宽来定大小
timeout: 3000, // 超时时间,以防出现忙等待的情况
}
npm install
node spider
也可以通过控制台传入参数,所有参数均可选,没有传入的参数默认使用配置文件的参数
node spider kw 李毅 timeout 1000 save_path 李毅.json
不过指令传参数的话仅允许传一个贴吧
可能等待时间会非常久
可以通过定时任务来执行指令爬贴吧,输出文件到站点的静态文件的目录下
值得注意的是node指令要使用绝对路径,不然可能会报无该指令的错误
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。