# crawler **Repository Path**: bubble1973/crawler ## Basic Information - **Project Name**: crawler - **Description**: 本项目由@子略创建，大家在修改前请注意查看类注释信息。不建议直接对类进行修改，时间原因工作太忙，大家有空可以完善。项目主要是用来爬取百度相关信息的url和内容，深度为3。其他信息请大家在开发中逐渐完善。注意：类要加注释、方法要加注释、难理解的地方加行注释，此目的是为了方便其他人阅读代码。我们爬取的对象是百度，bing，等搜索引擎的搜索结果 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 1 - **Created**: 2016-06-19 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # crawler开发说明 ###### 项目意义：本项目意义在于为后面的python数据处理和分析爬取相关数据。 ###### 项目最终应用示例： - 输入-哪些汽车品牌车祸率最高 - 输出-车祸率相关信息（由数据分析处理组的人员决定） - 我们要做的就是把相关数据抓取出来，交给他们分析 ###### 开发语言: java(后期会由团长等人员商议如何与python结合) ###### 开发环境: IDEA、jdk、tomcat、mysql、git、maven ###### 开发技术 jsoup+httpclient+spring+mybatis+数据库连接池（C3P0吧）+SpringMVC ## 搜索插件我们将采用可拔插方式对要搜索的搜索引擎网站进行搜索。 ##### 什么叫可拔插。例如我们需要爬取百度、bing、360搜索等引擎，我们可以自定义需要爬取哪些搜索引擎，当不需要时可通过html页面进行开启和关闭。 ##### 搜索引擎对象（java object）存储在数据库中。searchEngines对象包含以下内容属性 | 类型 | 说明 ---|---|--- id | Long | 主键 name | String | 搜索引擎的名字 hostUrl | String | 主域名例如m.baidu.com hostPort | String | 主域名端口号默认80 ##### 搜索引擎起始搜索地址项（java object）存在数据库中属性 | 类型 | 说明 ---|---|--- id | Long | 主键 enginesId | Long | 搜索引擎的ID searchUrl | String | 搜索地址（去除域名后的。如/s?wd={param}ie=utf-8。去除域名之前是http://m.baidu.com/s?wd=汽车车祸率ie=utf-8） discroption | String | 描述在执行查询时该对象用于和搜索词或者句子组成完成的相对url。 - 搜索词：春天 - 搜索url：（会将{param}替换成春天）即/s?wd=春天ie=utf-8 - 参考资料httpclient相关资料 ``` org.apache.httpcomponents httpclient 4.5.2 ``` ## 搜索深度搜索深度是用来防止程序无限运行的，很多爬虫将深度设置为3，我们可以设置为3. ## 其他由于@子略（本人）尚未深入写代码，暂时的设计如上，大家有空写写。 ## 注意强调一下，不是自己创建的类和包请不要修改。大家可以创建自己的包和类例如: com.cramler.utils.zilue(子略) com.cramler.utils.Elven(Elven)