# crawler **Repository Path**: xgpxg/crawler ## Basic Information - **Project Name**: crawler - **Description**: java版的爬虫工具 - **Primary Language**: Java - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2017-10-15 - **Last Updated**: 2023-09-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 爬虫工具包 ---- ## 微信文章爬虫 ### 使用方法：导入lib及jar文件夹下的jar包即可。 ### 示例： public static void main(String[] args) throws IOException { //获取文章内容 WechartArticles wa = new WechartArticles(); WechartArticle w = wa.getArticle("微信", 1, 0); //结果转为json System.out.println(JSONObject.fromObject(w)); } > getArticle(String query,int page,int index) > > query : 搜索内容 > > page : 分页 > > index : 结果列表索引 ### 结果(json格式)： { "publicSign":"华人生活网",//公众号名称 "author":"人民日报",//作者 "contentText":"文章文本内容（太长了，省略）"//纯文本内容 "time":"2017-09-25",//发布时间 "content":"文章内容(html格式,保持原来的布局样式，太长了省略)",//带html的文章内容 "tittle":"微信，变脸了！"//标题 } ---- ## CSDN爬虫（新版CSDN） ### 使用方法：导入lib及jar文件夹下的jar包即可。 ### 示例： #### 1.获取博文列表 List sle = csdn.getSearchList("java", 1, 0); JSONObject jo = JSONObject.fromObject(sle.get(0)); System.out.println(jo); > getSearchList(String query,int page,int index) > > query : 搜索内容 > > page : 分页 > > index : 结果列表索引 ### 结果(json格式)： { "summary":"1 java中方法的参数传递是值传递（基本数据类型），对于自定义对象是引用传递。 2 作用域： public class iotest { public static void main(String[] args) { int a =0; { int a=3;//非法 } } } 3变量初始化",//摘要 "imgurl":"", "author":"jiubafangxing",//作者 "time":"2017-07-26 10:39:33 ",//发表时间 "viewTimes":"190",//浏览次数 "tittle":"java基础知识",//标题 "url":"http://blog.csdn.net/jiubafangxing/article/details/76127485"//文章url } #### 2.获取博文 //获取博文 ArticleEntity article = csdn.getArticle(sle.get(0).getUrl()); > getArticle(String url) > > url : 博文地址 ### 结果(json格式)： { "original":"",//是否原创 "author":"",//作者 "contentText":""//纯文本内容 "time":"",//发表时间 "content":"",//带Html的博文内容 "tittle":"",//标题 "tags":""//标签 } 注：对于老版本的CSDN`getArticle(String url)` 只能获取到博文内容，要获取标题等信息可以在获取博文列表时获取 <<<<<<< HEAD ## cnblogs(博客园)博文虫 ### 示例： #### 1. 获取新闻列表 Cnblogs cnblogs = new Cnblogs(); //获取前两页的列表 for (int i = 1; i <= 2; i++) { List list = cnblogs.getNewsList(CnblogsSearchType.NEWS_HOT, i); System.out.println(JSONArray.fromObject(list)); } #### 结果： [ { "summary":新闻简介, "imgurl":新闻图片, "author":作者, "time":发布时间, "viewTimes":浏览次数, "tittle":标题, "url":新闻url }, ... ] ### 2. 获取新闻内容 List list = cnblogs.getNewsList(CnblogsSearchType.NEWS_HOT, 1); String articleUrl = list.get(2).getUrl(); ArticleEntity art = cnblogs.getArticle(articleUrl); System.out.println(JSONObject.fromObject(art)); ## 4. pconline(太平洋电脑网)新闻爬虫 ### 示例： #### 1. 获取新闻列表 Pconline pc = new Pconline(); //获取第2页新闻资讯列表 List sl = pc.getNewsList(NewsType.NEWS_NEWSEST, 2); System.out.println(JSONArray.fromObject(sl)); #### 结果(json格式) [ { "summary":新闻简介, "imgurl":新闻图片, "author":作者, "time":发布时间, "viewTimes":浏览次数, "tittle":标题, "url":新闻url }, ... ] ### 2. 获取新闻内容： Pconline pc = new Pconline(); //获取第二页列表 List sl = pc.getNewsList(NewsType.NEWS_NEWSEST, 2); //获取第二页列表中的第一条新闻 ArticleEntity art = pc.getNewsEntity(sl.get(1).getUrl()); System.out.println(JSONObject.fromObject(art)); "original":来源, "author":作者, "contentText":内容（纯文本）", "time":发布时间, "viewTimes":浏览次数, "content":内容, "tittle":标题, "url":新闻链接, "tags":标签 } ======= >>>>>>> branch 'master' of https://gitee.com/xgpxg/crawler.git