# Crawl **Repository Path**: Mzlalal/Crawl ## Basic Information - **Project Name**: Crawl - **Description**: 爬取需求信息 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-11-09 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Crawl #### 介绍 爬取服装类需求信息 #### 软件架构 hutool 工具类 > HTML属性工具类 https://hutool.cn/docs/#/http/HTML%E5%B7%A5%E5%85%B7%E7%B1%BB-HtmlUtil?id=%e7%94%b1%e6%9d%a5 > 网络请求工具类 https://hutool.cn/docs/#/http/Http%E8%AF%B7%E6%B1%82-HttpRequest > 字符串工具类 https://hutool.cn/docs/#/core/%E5%B7%A5%E5%85%B7%E7%B1%BB/%E5%AD%97%E7%AC%A6%E4%B8%B2%E5%B7%A5%E5%85%B7-StrUtil # 1688 使用教程 ##### 输入条件 将阿里巴巴网址更改 分页让其生成分页参数 > ![刚进去求购时候的URL](https://images.gitee.com/uploads/images/2020/1109/203916_2d54575c_4938010.png "屏幕截图.png") 点击第二页后的URL > ![获取里巴巴网址](https://images.gitee.com/uploads/images/2020/1109/203757_47a8bd7d_4938010.png "屏幕截图.png") ##### 复制URL到对应的工具类中 > 修改分页参数为当前for循环的值 > ![复制URL](https://images.gitee.com/uploads/images/2020/1109/204042_c7c8b5f9_4938010.png "屏幕截图.png") 修改之前 > ![输入图片说明](https://images.gitee.com/uploads/images/2020/1109/204133_dd8d7c5e_4938010.png "屏幕截图.png") 修改之后 > ![输入图片说明](https://images.gitee.com/uploads/images/2020/1109/204123_b4f4e448_4938010.png "屏幕截图.png") 相关参数也可以进行调整 例如搜索的条件从服装男改成服装女等 对应 URL中的 keywords 参数 ![](https://images.gitee.com/uploads/images/2020/1109/204256_33f20ef7_4938010.png "屏幕截图.png") # 淘宝 使用教程 ##### 输入条件 点击第二页 将阿里巴巴网址更改 分页让其生成分页参数 > ![点击第二页](https://images.gitee.com/uploads/images/2020/1125/100908_8188f92e_4938010.png "屏幕截图.png") > ![刚进去淘宝时候的URL](https://images.gitee.com/uploads/images/2020/1125/100634_4196e293_4938010.png "屏幕截图.png") ##### 复制URL 在地址栏粘贴一次 > ![变成编码格式的URL了](https://images.gitee.com/uploads/images/2020/1125/100755_46b77968_4938010.png "屏幕截图.png") ##### 获得URL > https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44 > 至于最后的s=44 就是当前页所展示的商品数目 ##### 如果需要更改搜索条件 > ![输入图片说明](https://images.gitee.com/uploads/images/2020/1125/102323_c914abfb_4938010.png "屏幕截图.png") > 更改条件 ##### 复制到TaobaoTest文件的URL 更改即可 > ![更改S的数值](https://images.gitee.com/uploads/images/2020/1125/101107_927f52d7_4938010.png "屏幕截图.png") ##### 如果爬取无反应 则一般是cookie问题 > 淘宝爬取必须带有cookie 否则将会直接拒绝请求 > ![淘宝cookies](https://images.gitee.com/uploads/images/2020/1125/101226_f3a6021f_4938010.png "屏幕截图.png") > ![如何获取淘宝cookies](https://images.gitee.com/uploads/images/2020/1125/101337_482a1c15_4938010.png "屏幕截图.png") > 复制cookies的值放入到TaobaoTest即可(最好是登录状态) # 招标网 ##### 更改搜索条件就行 ![更改搜索条件](https://images.gitee.com/uploads/images/2020/1125/101756_0bc41672_4938010.png "屏幕截图.png") ##### 数据的简单处理 ![数据的简单处理](https://images.gitee.com/uploads/images/2020/1125/101834_5f483572_4938010.png "屏幕截图.png")