1.2K Star 4.9K Fork 1.9K

GVP黄亿华/webmagic

 / 详情

爬去的网页里有 如何去掉呢?替换空格或正则均没能成功去除

待办的
创建于  
2017-06-21 11:03

输入图片说明
比如这个

评论 (2)

焉知丧失 创建了任务

这种直接正则替换```我一直都这样干
这里输入代 cleanRegexList.add("<(\s)\/?font[^>]?>"); //清除...
cleanRegexList.add("<(\s)\/?o:p(\s)>");
cleanRegexList.add("<(\s)\/?b(\s)>");
cleanRegexList.add(" ");
cleanRegexList.add("

<br/?>

");
cleanRegexList.add("
<br/?>
");
cleanRegexList.add("

");码

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(2)
Java
1
https://gitee.com/flashsword20/webmagic.git
git@gitee.com:flashsword20/webmagic.git
flashsword20
webmagic
webmagic

搜索帮助

A270a887 8829481 3d7a4017 8829481