# crawler **Repository Path**: bubble1973/crawler ## Basic Information - **Project Name**: crawler - **Description**: 本项目由@子略创建,大家在修改 前请注意查看类注释信息。不建议直接对类进行修改,时间原因工作太忙,大家有空可以完善。项目主要是用来爬取百度相关信息的url和内容,深度为3。其他信息请大家在开发中逐渐完善。注意:类要加注释、方法要加注释、难理解的地方加行注释,此目的是为了方便其他人阅读代码。我们爬取的对象是百度,bing,等搜索引擎的搜索结果 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 1 - **Created**: 2016-06-19 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # crawler开发说明 ###### 项目意义: 本项目意义在于为后面的python数据处理和分析爬取相关数据。 ###### 项目最终应用示例: - 输入-哪些汽车品牌车祸率最高 - 输出-车祸率相关信息(由数据分析处理组的人员决定) - 我们要做的就是把相关数据抓取出来,交给他们分析 ###### 开发语言: java(后期会由团长等人员商议如何与python结合) ###### 开发环境: IDEA、jdk、tomcat、mysql、git、maven ###### 开发技术 jsoup+httpclient+spring+mybatis+数据库连接池(C3P0吧)+SpringMVC ## 搜索插件 我们将采用可拔插方式对要搜索的搜索引擎网站进行搜索。 ##### 什么叫可拔插。 例如我们需要爬取百度、bing、360搜索等引擎,我们可以自定义需要爬取哪些搜索引擎,当不需要时可通过html页面进行开启和关闭。 ##### 搜索引擎对象(java object) 存储在数据库中。searchEngines对象包含以下内容 属性 | 类型 | 说明 ---|---|--- id | Long | 主键 name | String | 搜索引擎的名字 hostUrl | String | 主域名例如m.baidu.com hostPort | String | 主域名端口号 默认80 ##### 搜索引擎起始搜索地址项(java object) 存在数据库中 属性 | 类型 | 说明 ---|---|--- id | Long | 主键 enginesId | Long | 搜索引擎的ID searchUrl | String | 搜索地址(去除域名后的。如/s?wd={param}ie=utf-8。去除域名之前是http://m.baidu.com/s?wd=汽车车祸率ie=utf-8) discroption | String | 描述 在执行查询时该对象用于和搜索词或者句子组成完成的相对url。 - 搜索词:春天 - 搜索url:(会将{param}替换成春天)即/s?wd=春天ie=utf-8 - 参考资料httpclient相关资料 ``` org.apache.httpcomponents httpclient 4.5.2 ``` ## 搜索深度 搜索深度是用来防止程序无限运行的,很多爬虫将深度设置为3,我们可以设置为3. ## 其他 由于@子略(本人)尚未深入写代码,暂时的设计如上,大家有空写写。 ## 注意 强调一下,不是自己创建的类和包请不要修改。大家可以创建自己的包和类 例如: com.cramler.utils.zilue(子略) com.cramler.utils.Elven(Elven)