99 Star 613 Fork 197

易水风萧 / wind-bell

 / 详情

无法抓取哔哩哔哩网站用户详细信息页面

已完成
创建于  
2020-01-02 10:21
public static void main(String[] args) throws IOException {
        String pageUrl = "https://space.bilibili.com/241747323";
        //创建一个提取规则
        //该提取规则标识使用 XPATH提取器进行提取,
        //该XPATH提取器的XPATH表达式为 //h1[@class='topic-_XJ6ViSR']/text() , 该提取提取器的作用顺序是0
        FieldExtractRule extractRule = new FieldExtractRule(Rule.XPATH, "//span[@id='h-name']/text()", "", 0);

        //创建一个提取项
        ContentItem contentItem = new ContentItem();
        contentItem
                .setFiledName("username") //提取项代码,不能为空
                .setName("用户名") //提取项名字,可以不设置
                .setRules(Arrays.asList(extractRule)); //设置提取规则

        //创建一个风铃虫实例
        Crawler crawler = CrawlerBuilder.create()
                .startUrl(pageUrl) //风铃虫的起始链接
                // 风铃虫会将每次请求的网页的内容中的URL先全部提取出来,然后将完全匹配此规则的链接放入链接池
                // 如果不设置则表示提取链接中所有包含域名关键字(例如此例中的ifeng)的链接放入链接池
                //链接池里的链接会作为下次抓取请求的种子链接
                //.addLinkRule("http[s]?://news\\.ifeng\\.com/.*")//链接提取规则,多以添加多个链接提取规则,
                //可以设置多个内容页的规则,多个内容页规则之间用半角逗号隔开
                //只要内容页URL中完全匹配此规则就进行内容提取,如果不设置标识提取域名下所有的链接
                //.extractUrl("https://news\\.ifeng\\.com/c/[A-Za-z0-9]+") //内容页的规则,
                //风铃虫可以设置多个提取项,这里为了演示只设置了一个提取项
                .addExtractItem(contentItem) //增加一个提取项
                //如果不设置则使用默认时间10秒,此值是为了防止抓取频率太高被服务器封杀
                .interval(3000)//每次进行爬取时的平均间隔时间,单位为毫秒,
                .creatCrawler();
        //启动爬虫实例
        crawler.start();
        // 这里没有设置信息输出器,表示使用默认的信息输出器
        //默认的信息输出器使用的logback日志输出方法,因此需要看控制台信息

        //由于风铃虫时异步运行的,所以演示时这里加入循环
        while (Statu.STOP != crawler.getStatu()) {
            try {
                Thread.sleep(1000 * 20);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }

结果为空:

request : https://space.bilibili.com/241747323 , out data : {charset=UTF-8, description=旅途行者欧林林,企鹅群932785922,bilibili是国内知名的视频弹幕网站,这里有最及时的动漫新番,最棒的ACG氛围,最有创意的Up主。大家可以在这里找到许多欢乐。, keywords=旅途行者欧林林,B站,弹幕,字幕,AMV,MAD,MTV,ANIME,动漫,动漫音乐,游戏,游戏解说,ACG,galgame,动画,番组,新番,初音,洛天依,vocaloid, title=旅途行者欧林林的个人空间 - 哔哩哔哩 ( ゜- ゜)つロ 乾杯~ Bilibili, username=}

评论 (2)

Skqing 创建了任务

应该是做了什么限制了:

<!DOCTYPE html><html><head><meta name="spm_prefix" content="333.999"><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta name="renderer" content="webkit|ie-comp|ie-stand"><script type="text/javascript">window.__BILI_CONFIG__={"show_bv":false}</script><script type="text/javascript">var ua=window.navigator.userAgent,agents=["Android","iPhone","SymbianOS","Windows Phone","iPod"],pathname=/\d+/.exec(window.location.pathname),getCookie=function(e){return decodeURIComponent(document.cookie.replace(new RegExp("(?:(?:^|.*;)\\s*"+encodeURIComponent(e).replace(/[\-\.\+\*]/g,"\\$&")+"\\s*\\=\\s*([^;]*).*$)|^.*$"),"$1"))||null},DedeUserID=getCookie("DedeUserID"),mid=pathname?+pathname[0]:null===DedeUserID?0:+DedeUserID;if(mid<1)window.location.href="https://passport.bilibili.com/login?gourl=https://space.bilibili.com";else{window._bili_space_mid=mid,window._bili_space_mymid=null===DedeUserID?0:+DedeUserID;for(var prefix=/^\/v/.test(pathname)?"/v":"",i=0;i<agents.length;i++)if(-1<ua.indexOf(agents[i])){window.location.href="https://m.bilibili.com/space/"+mid;break}}</script><link rel="prefetch" as="script" href="//s1.hdslb.com/bfs/static/player/main/video.js?v=20191227"><script type="text/javascript" src="//s1.hdslb.com/bfs/static/jinkela/long/js/sentry/sentry-5.2.1.min.js"></script><script type="text/javascript" src="//s1.hdslb.com/bfs/static/jinkela/long/js/sentry/sentry.vue.js"></script><link href="//s1.hdslb.com/bfs/static/jinkela/space/css/space.4.8ff56c3182a7ca0ee61bf2e290594124315de2b3.css" rel="stylesheet"><link href="//s1.hdslb.com/bfs/static/jinkela/space/css/space.3.8ff56c3182a7ca0ee61bf2e290594124315de2b3.css" rel="stylesheet">
  <title>旅途行者欧林林的个人空间 - 哔哩哔哩 ( ゜- ゜)つロ 乾杯~ Bilibili</title><meta name="keywords" content="旅途行者欧林林,B站,弹幕,字幕,AMV,MAD,MTV,ANIME,动漫,动漫音乐,游戏,游戏解说,ACG,galgame,动画,番组,新番,初音,洛天依,vocaloid"/>
  <meta name="description" content="旅途行者欧林林,企鹅群932785922,bilibili是国内知名的视频弹幕网站,这里有最及时的动漫新番,最棒的ACG氛围,最有创意的Up主。大家可以在这里找到许多欢乐。"/>
  </head><body><div id="biliMainHeader" style="height:56px"></div><!--[if lt IE 9]><div id="browser-version-tip">
    <div class="wrapper">
      抱歉,您正在使用不支持的浏览器访问个人空间。推荐您<a href="//www.google.cn/chrome/browser/desktop/index.html">安装 Chrome 浏览器</a>以获得更好的体验 ヾ(o◕∀◕)ノ
    </div>
  </div><![endif]--><div id="space-app"></div><script type="text/javascript">window.spaceReport={},window.reportConfig={sample:1,scrollTracker:!0,msgObjects:"spaceReport"};var reportScript=document.createElement("script");reportScript.src="//s1.hdslb.com/bfs/seed/log/report/log-reporter.js",document.getElementsByTagName("body")[0].appendChild(reportScript),reportScript.onerror=function(){console.warn("log-reporter.js加载失败,放弃上报");var r=function(){};window.reportObserver={sendPV:r,forceCommit:r}}</script><script src="//s1.hdslb.com/bfs/static/jinkela/long/js/jquery/jquery1.7.2.min.js"></script><script type="text/javascript" src="//s1.hdslb.com/bfs/seed/jinkela/header-v2/header.js" defer="defer"></script><script type="text/javascript" src="//s1.hdslb.com/bfs/static/jinkela/space/4.space.8ff56c3182a7ca0ee61bf2e290594124315de2b3.js"></script><script type="text/javascript" src="//s1.hdslb.com/bfs/static/jinkela/space/space.8ff56c3182a7ca0ee61bf2e290594124315de2b3.js"></script></body></html>
易水风萧 任务状态待办的 修改为进行中

@Skqing 可以下载啊,这个网站是js渲染的,不能使用默认的下载器,需要使用 Selenium下载器,你按照这个步骤试下

易水风萧 任务状态进行中 修改为已完成

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(2)
1651 skqing 1578914060 400404 zhiyubujian 1578922729
Java
1
https://gitee.com/zhiyubujian/wind-bell.git
git@gitee.com:zhiyubujian/wind-bell.git
zhiyubujian
wind-bell
wind-bell

搜索帮助