代码拉取完成,页面将自动刷新
有没有可能让爬虫暂停以及断点续传?
断点续传不是指单个文件断点续传,而是指从上次停止的url开始继续爬,而不是从头来过.
暂停的功能有没有可能传进一个bool型的指针或全局变量进行检查,如果为true就暂停?
关于暂停,你设个全局标志,在某个回调函数里暂停好了。
关于断点续传,等请求队列里所有url都爬完后,调用函数MoveUnsuccessfulDoneQueueUnitsToRequestQueue,就能吧完成队列里非HTTP结果状态200的url重新移回到请求队列中,再次调用SimSpiderGo爬一遍。下一版会增加在SimSpiderGo内尝试多次机制。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
默认队列是基于内存的,你得通过钩子函数同步到外面(数据库等),建议配合simspider-redis使用,实现持久化和续传,也能快速搭建分布式架构。
登录 后才可以发表评论