Metrics
0
Watch 1K Star 2.7K Fork 1.1K

GVP黄亿华 / webmagicJavaApache-2.0

爬去的网页里有 如何去掉呢?替换空格或正则均没能成功去除

Open
焉知丧失  Created at

输入图片说明
比如这个

total 2 participants

Comments (2)

clive_hua 2017-09-01 12:02

这种直接正则替换```我一直都这样干
这里输入代 cleanRegexList.add("<(\s)\/?font[^>]?>"); //清除...
cleanRegexList.add("<(\s)\/?o:p(\s)>");
cleanRegexList.add("<(\s)\/?b(\s)>");
cleanRegexList.add(" ");
cleanRegexList.add("

<br/?>

");
cleanRegexList.add("
<br/?>
");
cleanRegexList.add("

");码

clive_hua 2017-09-01 12:04

输入图片说明

Sign in and comment

Assignee
Labels
Not set
Project
Milestone
Branch
Scheduled start
Not set
Scheduled end
Not set
Top level
Priority

Help Search

183227_9af5e6a8_1826025 111910_4d91f001_1826025