# spider1688 **Repository Path**: Jakey870/spider1688 ## Basic Information - **Project Name**: spider1688 - **Description**: 1688供应商信息采集 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 3 - **Created**: 2022-10-11 - **Last Updated**: 2022-10-11 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # spider1688 #### 介绍 1688供应商信息采集 #### 软件架构 线程池+jsoup+hutool #### 使用说明 1. clone项目 2. 根据需求填写spiderConfig.properties 3. 运行Spider1688Main #### spiderConfig.properties配置文件说明 ![输入图片说明](https://images.gitee.com/uploads/images/2019/0708/163616_0ad433a0_1263581.png "屏幕截图.png") #### loginCookie获取方式 1. 登陆1688网站 2. ![输入图片说明](https://images.gitee.com/uploads/images/2019/0708/164145_37dd9b76_1263581.png "屏幕截图.png") #### proxy说明 同一个ip访问,超过一定频率或时常后淘宝会检测到,检测机制暂时不知道.所以需要设置代理ip,多个代理用逗号分割,超时自动换下一个 例如:255.255.255.255:6666,144.144.144.144:8888 #### keywords说明 ![输入图片说明](https://images.gitee.com/uploads/images/2019/0708/165058_b2d750a3_1263581.png "屏幕截图.png") 注意:仅采集供应商信息,不包含产品信息. #### province和city说明 省份和城市,这个是作为筛选条件,如果不加此筛选条件,1688的供应商列表仅展示100页,所以要加筛选条件让列表小于100页,这样才能保证完整性. 这两个参数如果不填则抓取全国省份城市. #### outputDataFilePath说明 最后输出的excel目录(不包含文件名) #### threadsNumber说明 线程数,根据自身情况决定,我设置的是16线程,多了会导致oom等情况发生..