74 Star 116 Fork 42

calvinwilliams / simspider

 / 详情

有没有可能让爬虫暂停以及断点续传?

待办的
创建于  
2015-03-15 13:46

有没有可能让爬虫暂停以及断点续传?
断点续传不是指单个文件断点续传,而是指从上次停止的url开始继续爬,而不是从头来过.
暂停的功能有没有可能传进一个bool型的指针或全局变量进行检查,如果为true就暂停?

评论 (2)

关于暂停,你设个全局标志,在某个回调函数里暂停好了。
关于断点续传,等请求队列里所有url都爬完后,调用函数MoveUnsuccessfulDoneQueueUnitsToRequestQueue,就能吧完成队列里非HTTP结果状态200的url重新移回到请求队列中,再次调用SimSpiderGo爬一遍。下一版会增加在SimSpiderGo内尝试多次机制。

默认队列是基于内存的,你得通过钩子函数同步到外面(数据库等),建议配合simspider-redis使用,实现持久化和续传,也能快速搭建分布式架构。

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(2)
C
1
https://gitee.com/calvinwilliams/simspider.git
git@gitee.com:calvinwilliams/simspider.git
calvinwilliams
simspider
simspider

搜索帮助