# crawler **Repository Path**: xgpxg/crawler ## Basic Information - **Project Name**: crawler - **Description**: java版的爬虫工具 - **Primary Language**: Java - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2017-10-15 - **Last Updated**: 2023-09-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 爬虫工具包 ---- ## 微信文章爬虫 ### 使用方法: 导入lib及jar文件夹下的jar包即可。 ### 示例: public static void main(String[] args) throws IOException { //获取文章内容 WechartArticles wa = new WechartArticles(); WechartArticle w = wa.getArticle("微信", 1, 0); //结果转为json System.out.println(JSONObject.fromObject(w)); } > getArticle(String query,int page,int index) > > query : 搜索内容 > > page : 分页 > > index : 结果列表索引 ### 结果(json格式): {     "publicSign":"华人生活网",//公众号名称     "author":"人民日报",//作者     "contentText":"文章文本内容(太长了,省略)"//纯文本内容 "time":"2017-09-25",//发布时间     "content":"文章内容(html格式,保持原来的布局样式,太长了省略)",//带html的文章内容 "tittle":"微信,变脸了!"//标题 } ---- ## CSDN爬虫(新版CSDN) ### 使用方法: 导入lib及jar文件夹下的jar包即可。 ### 示例: #### 1.获取博文列表 List sle = csdn.getSearchList("java", 1, 0); JSONObject jo = JSONObject.fromObject(sle.get(0)); System.out.println(jo); > getSearchList(String query,int page,int index) > > query : 搜索内容 > > page : 分页 > > index : 结果列表索引 ### 结果(json格式): {     "summary":"1 java中方法的参数传递是值传递(基本数据类型),对于自定义对象是引用传递。 2 作用域: public class iotest { public static void main(String[] args) { int a =0; { int a=3;//非法 } } } 3变量初始化",//摘要     "imgurl":"",     "author":"jiubafangxing",//作者     "time":"2017-07-26 10:39:33 ",//发表时间     "viewTimes":"190",//浏览次数     "tittle":"java基础知识",//标题     "url":"http://blog.csdn.net/jiubafangxing/article/details/76127485"//文章url } #### 2.获取博文 //获取博文 ArticleEntity article = csdn.getArticle(sle.get(0).getUrl()); > getArticle(String url) > > url : 博文地址 ### 结果(json格式): {   "original":"",//是否原创    "author":"",//作者    "contentText":""//纯文本内容 "time":"",//发表时间    "content":"",//带Html的博文内容 "tittle":"",//标题     "tags":""//标签 } 注:对于老版本的CSDN`getArticle(String url)` 只能获取到博文内容,要获取标题等信息可以在获取博文列表时获取 <<<<<<< HEAD ## cnblogs(博客园)博文虫 ### 示例: #### 1. 获取新闻列表 Cnblogs cnblogs = new Cnblogs(); //获取前两页的列表 for (int i = 1; i <= 2; i++) { List list = cnblogs.getNewsList(CnblogsSearchType.NEWS_HOT, i); System.out.println(JSONArray.fromObject(list)); } #### 结果: [     {         "summary":新闻简介,         "imgurl":新闻图片,         "author":作者,         "time":发布时间,         "viewTimes":浏览次数,         "tittle":标题,         "url":新闻url     }, ... ] ### 2. 获取新闻内容 List list = cnblogs.getNewsList(CnblogsSearchType.NEWS_HOT, 1); String articleUrl = list.get(2).getUrl(); ArticleEntity art = cnblogs.getArticle(articleUrl); System.out.println(JSONObject.fromObject(art)); ## 4. pconline(太平洋电脑网)新闻爬虫 ### 示例: #### 1. 获取新闻列表 Pconline pc = new Pconline(); //获取第2页新闻资讯列表 List sl = pc.getNewsList(NewsType.NEWS_NEWSEST, 2); System.out.println(JSONArray.fromObject(sl)); #### 结果(json格式) [     {         "summary":新闻简介,         "imgurl":新闻图片,         "author":作者,         "time":发布时间,         "viewTimes":浏览次数,         "tittle":标题,         "url":新闻url     }, ... ] ### 2. 获取新闻内容: Pconline pc = new Pconline(); //获取第二页列表 List sl = pc.getNewsList(NewsType.NEWS_NEWSEST, 2); //获取第二页列表中的第一条新闻 ArticleEntity art = pc.getNewsEntity(sl.get(1).getUrl()); System.out.println(JSONObject.fromObject(art));     "original":来源,     "author":作者,     "contentText":内容(纯文本)",     "time":发布时间,     "viewTimes":浏览次数,     "content":内容,     "tittle":标题,     "url":新闻链接,     "tags":标签 } ======= >>>>>>> branch 'master' of https://gitee.com/xgpxg/crawler.git