1.2K Star 4.8K Fork 1.9K

GVP黄亿华 / webmagic

 / 详情

下载失败后,流程/逻辑不正确。

待办的
创建于  
2020-07-14 18:00

Spider的run()方法。

try {
    processRequest(request);
    onSuccess(request);
} catch (Exception e) {
    onError(request);
    logger.error("process request " + request + " error", e);
} finally {
    pageCount.incrementAndGet();
    signalNewUrl();
}

其中的processRequest方法中通过Page的downloadSuccess来判断下载是否成功。

private void processRequest(Request request) {
    Page page = downloader.download(request, this);
    if (page.isDownloadSuccess()){
        onDownloadSuccess(request, page);
    } else {
        onDownloaderFail(request);
    }
}

这一属性,只在HttpClientDownloader中设置了。但PhantomJSDownloader并没有修改(始终为true)。

Downloader下载失败后,pageCount也会增加,显示Spider xxx closed! N pages downloaded.其中,N=cycleRetryTimes。

同时,RedisScheduler中已有标记,导致再次启动同一任务后,会被去重(失败的任务,应当消除标记)。

评论 (0)

Sel 创建了任务
Sel 关联仓库设置为黄亿华/webmagic
Sel 修改了描述
Sel 修改了描述
Sel 修改了描述
展开全部操作日志

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(1)
380864 sel 1578922096
Java
1
https://gitee.com/flashsword20/webmagic.git
git@gitee.com:flashsword20/webmagic.git
flashsword20
webmagic
webmagic

搜索帮助