# 茶叶信息爬虫 **Repository Path**: ye_weihua/tea_info_spider ## Basic Information - **Project Name**: 茶叶信息爬虫 - **Description**: 把茶叶相关新闻或图片爬取并保存,后续做成信息整合网站 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2021-03-28 - **Last Updated**: 2025-03-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 茶叶信息爬虫 #### 介绍 把茶叶相关新闻或图片爬取并保存,后续做成信息整合网站 #### 软件架构 软件架构说明 ### 爬取网站 1. 茶忙网 http://www.chamang.cn/ 2. 普洱茶网 https://www.puercn.com/ 3. 说茶网 http://www.ishuocha.com/ 4. 视觉中国列表页 https://www.vcg.com/creative-image/chaye/ #### 安装教程 1. xxxx 2. xxxx 3. xxxx #### 使用说明 1. xxxx 2. xxxx 3. xxxx #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 ### 增量爬虫的实现 我们爬取了微博以后,很多微博账号又可能发了一些新微博,定期自动爬取微博就是每隔一段时间自动运行程序,自动爬取这段时间产生的新微博(忽略以前爬过的旧微博)。本部分为可选部分,如果不需要可以忽略。 思路是利用第三方软件,如crontab,让程序每隔一段时间运行一次。 方法二:将上次执行程序的时间写入文件(推荐) 这个方法很简单,就是使用程序设置中设置user_id_list的第二种方法设置user_id_list,这样设置就全部结束了。 说下这个方法的好处和原理,假如你的txt文件内容为: 1669879400 1223178222 胡歌 1729370543 郭碧婷 2019-01-01 19:28 第一次执行时,因为第一行和第二行都没有写时间,程序会按照config.json文件中since_date的值爬取,第三行有时间“2019-01-01 19:28”,程序就会把这个时间当作since_date。每个用户爬取结束程序都会自动更新txt文件,每一行第一部分是user_id,第二部分是用户昵称,第三部分是程序准备爬取该用户第一条微博(最新微博)时的时间。爬完三个用户后,txt文件的内容自动更新为: 1669879400 Dear-迪丽热巴 2020-01-13 19:18 1223178222 胡歌 2020-01-13 19:28 1729370543 郭碧婷 2020-01-13 19:33 下次再爬取微博的时候,程序会把每行的时间数据作为since_date。这样的好处一是不用修改since_date,程序自动更新;二是每一个用户都可以单独拥有只属于自己的since_date,每个用户的since_date相互独立,互不干扰。since_date既可以是“yyyy-mm-dd”格式,也可以是“yyyy-mm-dd hh:mm”格式。比如,现在又添加了一个新用户,例如杨紫,你想获取她从2018-01-23到现在的全部微博,只需要这样修改txt文件: 1669879400 Dear-迪丽热巴 2020-01-13 19:18 1223178222 胡歌 2020-01-13 19:28 1729370543 郭碧婷 2020-01-13 19:33 1227368500 杨紫 2018-01-23 注意每一行的用户配置参数以空格分隔,如果第一个参数全部由数字组成,程序就认为此行为一个用户的配置,否则程序会认为该行只是注释,跳过该行;第二个参数可以为任意格式,建议写用户昵称;第三个如果是日期格式(yyyy-mm-dd),程序就将该日期设置为用户自己的since_date,否则使用config.json中的since_date爬取该用户的微博,第二个参数和第三个参数也可以不填。