# Yuan-Crawler-Kit **Repository Path**: you-yuan/YuanCrawlerKit ## Basic Information - **Project Name**: Yuan-Crawler-Kit - **Description**: 爬虫获取信息工具箱,目前支持企业信息爬取、百度知道爬取 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 5 - **Forks**: 0 - **Created**: 2018-09-06 - **Last Updated**: 2024-11-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # YuanCrawlerKit [![java](https://img.shields.io/badge/language-java-orange.svg)]() [![jdk](https://img.shields.io/badge/jdk-1.8-green.svg)]() [![License](http://img.shields.io/:license-apache-blue.svg)](http://www.apache.org/licenses/LICENSE-2.0.html) * 作者:YouYuan * 邮箱:xiyousuiyuan#163.com * QQ:1265161633 ## 功能介绍 YuanCrawlerKit是一个爬虫工具箱,可以自动爬取各类信息,目前1.1版本支持企业信息爬取、百度知道答案爬取。 ## Demo:企业信息爬取 ``` java CompanyInfo companyInfo = CompanyInfoCrawler.searchCompanyInfo("腾讯"); System.out.println(companyInfo); ``` 返回结果: ``` CompanyInfo { name: '腾讯科技(深圳)有限公司', registeredCapital: '200万美元', juridicalPerson: '马化腾', businessRegistrationNumber: '440301503270924', organizationCode: '71526726X', unifiedCreditCode: '9144030071526726XG', type: '有限责任公司(台港澳法人独资)', TIN: '9144030071526726XG', trade: '软件和信息技术服务业', timeLimit: '2000-02-24至2020-02-24', approvalDate: 'null', address: '深圳市南山区高新区科技中一路腾讯大厦35层', scopeOfBusiness: 'null', companyLink: 'http://www.tencent.com', state: '存续' } ``` ## Demo:百度知道爬取 ``` java ZhiDaoInfo search = ZhiDaoCrawler.search("中国最值得去的地方"); System.out.println(search); ``` 返回结果: ``` ZhiDaoInfo{ question='中国最值得去的地方', answer='敦煌、香格里拉、天涯海角、九寨沟、龙门石窟、坝上草原、天山、日月潭、阿里山、黄山、庐山、嵩山、泰山、玉龙雪山、西安、开封、北京红螺寺、云蒙山、十渡等等啦,我也说不全。总之,中国什么地方都值得我们一去。' } ``` ## 最近更新 * 版本:v1.1 * 更新日期:2019-04-08 * 更新内容: * 新增百度知道回答内容爬取功能 * 爬虫新增代理层,支持自动更换代理IP * 新增代理层开关