代码拉取完成,页面将自动刷新
public static void main(String[] args) throws IOException {
String pageUrl = "https://space.bilibili.com/241747323";
//创建一个提取规则
//该提取规则标识使用 XPATH提取器进行提取,
//该XPATH提取器的XPATH表达式为 //h1[@class='topic-_XJ6ViSR']/text() , 该提取提取器的作用顺序是0
FieldExtractRule extractRule = new FieldExtractRule(Rule.XPATH, "//span[@id='h-name']/text()", "", 0);
//创建一个提取项
ContentItem contentItem = new ContentItem();
contentItem
.setFiledName("username") //提取项代码,不能为空
.setName("用户名") //提取项名字,可以不设置
.setRules(Arrays.asList(extractRule)); //设置提取规则
//创建一个风铃虫实例
Crawler crawler = CrawlerBuilder.create()
.startUrl(pageUrl) //风铃虫的起始链接
// 风铃虫会将每次请求的网页的内容中的URL先全部提取出来,然后将完全匹配此规则的链接放入链接池
// 如果不设置则表示提取链接中所有包含域名关键字(例如此例中的ifeng)的链接放入链接池
//链接池里的链接会作为下次抓取请求的种子链接
//.addLinkRule("http[s]?://news\\.ifeng\\.com/.*")//链接提取规则,多以添加多个链接提取规则,
//可以设置多个内容页的规则,多个内容页规则之间用半角逗号隔开
//只要内容页URL中完全匹配此规则就进行内容提取,如果不设置标识提取域名下所有的链接
//.extractUrl("https://news\\.ifeng\\.com/c/[A-Za-z0-9]+") //内容页的规则,
//风铃虫可以设置多个提取项,这里为了演示只设置了一个提取项
.addExtractItem(contentItem) //增加一个提取项
//如果不设置则使用默认时间10秒,此值是为了防止抓取频率太高被服务器封杀
.interval(3000)//每次进行爬取时的平均间隔时间,单位为毫秒,
.creatCrawler();
//启动爬虫实例
crawler.start();
// 这里没有设置信息输出器,表示使用默认的信息输出器
//默认的信息输出器使用的logback日志输出方法,因此需要看控制台信息
//由于风铃虫时异步运行的,所以演示时这里加入循环
while (Statu.STOP != crawler.getStatu()) {
try {
Thread.sleep(1000 * 20);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
结果为空:
request : https://space.bilibili.com/241747323 , out data : {charset=UTF-8, description=旅途行者欧林林,企鹅群932785922,bilibili是国内知名的视频弹幕网站,这里有最及时的动漫新番,最棒的ACG氛围,最有创意的Up主。大家可以在这里找到许多欢乐。, keywords=旅途行者欧林林,B站,弹幕,字幕,AMV,MAD,MTV,ANIME,动漫,动漫音乐,游戏,游戏解说,ACG,galgame,动画,番组,新番,初音,洛天依,vocaloid, title=旅途行者欧林林的个人空间 - 哔哩哔哩 ( ゜- ゜)つロ 乾杯~ Bilibili, username=}
应该是做了什么限制了:
<!DOCTYPE html><html><head><meta name="spm_prefix" content="333.999"><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta name="renderer" content="webkit|ie-comp|ie-stand"><script type="text/javascript">window.__BILI_CONFIG__={"show_bv":false}</script><script type="text/javascript">var ua=window.navigator.userAgent,agents=["Android","iPhone","SymbianOS","Windows Phone","iPod"],pathname=/\d+/.exec(window.location.pathname),getCookie=function(e){return decodeURIComponent(document.cookie.replace(new RegExp("(?:(?:^|.*;)\\s*"+encodeURIComponent(e).replace(/[\-\.\+\*]/g,"\\$&")+"\\s*\\=\\s*([^;]*).*$)|^.*$"),"$1"))||null},DedeUserID=getCookie("DedeUserID"),mid=pathname?+pathname[0]:null===DedeUserID?0:+DedeUserID;if(mid<1)window.location.href="https://passport.bilibili.com/login?gourl=https://space.bilibili.com";else{window._bili_space_mid=mid,window._bili_space_mymid=null===DedeUserID?0:+DedeUserID;for(var prefix=/^\/v/.test(pathname)?"/v":"",i=0;i<agents.length;i++)if(-1<ua.indexOf(agents[i])){window.location.href="https://m.bilibili.com/space/"+mid;break}}</script><link rel="prefetch" as="script" href="//s1.hdslb.com/bfs/static/player/main/video.js?v=20191227"><script type="text/javascript" src="//s1.hdslb.com/bfs/static/jinkela/long/js/sentry/sentry-5.2.1.min.js"></script><script type="text/javascript" src="//s1.hdslb.com/bfs/static/jinkela/long/js/sentry/sentry.vue.js"></script><link href="//s1.hdslb.com/bfs/static/jinkela/space/css/space.4.8ff56c3182a7ca0ee61bf2e290594124315de2b3.css" rel="stylesheet"><link href="//s1.hdslb.com/bfs/static/jinkela/space/css/space.3.8ff56c3182a7ca0ee61bf2e290594124315de2b3.css" rel="stylesheet">
<title>旅途行者欧林林的个人空间 - 哔哩哔哩 ( ゜- ゜)つロ 乾杯~ Bilibili</title><meta name="keywords" content="旅途行者欧林林,B站,弹幕,字幕,AMV,MAD,MTV,ANIME,动漫,动漫音乐,游戏,游戏解说,ACG,galgame,动画,番组,新番,初音,洛天依,vocaloid"/>
<meta name="description" content="旅途行者欧林林,企鹅群932785922,bilibili是国内知名的视频弹幕网站,这里有最及时的动漫新番,最棒的ACG氛围,最有创意的Up主。大家可以在这里找到许多欢乐。"/>
</head><body><div id="biliMainHeader" style="height:56px"></div><!--[if lt IE 9]><div id="browser-version-tip">
<div class="wrapper">
抱歉,您正在使用不支持的浏览器访问个人空间。推荐您<a href="//www.google.cn/chrome/browser/desktop/index.html">安装 Chrome 浏览器</a>以获得更好的体验 ヾ(o◕∀◕)ノ
</div>
</div><![endif]--><div id="space-app"></div><script type="text/javascript">window.spaceReport={},window.reportConfig={sample:1,scrollTracker:!0,msgObjects:"spaceReport"};var reportScript=document.createElement("script");reportScript.src="//s1.hdslb.com/bfs/seed/log/report/log-reporter.js",document.getElementsByTagName("body")[0].appendChild(reportScript),reportScript.onerror=function(){console.warn("log-reporter.js加载失败,放弃上报");var r=function(){};window.reportObserver={sendPV:r,forceCommit:r}}</script><script src="//s1.hdslb.com/bfs/static/jinkela/long/js/jquery/jquery1.7.2.min.js"></script><script type="text/javascript" src="//s1.hdslb.com/bfs/seed/jinkela/header-v2/header.js" defer="defer"></script><script type="text/javascript" src="//s1.hdslb.com/bfs/static/jinkela/space/4.space.8ff56c3182a7ca0ee61bf2e290594124315de2b3.js"></script><script type="text/javascript" src="//s1.hdslb.com/bfs/static/jinkela/space/space.8ff56c3182a7ca0ee61bf2e290594124315de2b3.js"></script></body></html>
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
登录 后才可以发表评论