# 茶叶信息爬虫

**Repository Path**: ye_weihua/tea_info_spider

## Basic Information

- **Project Name**: 茶叶信息爬虫
- **Description**: 把茶叶相关新闻或图片爬取并保存，后续做成信息整合网站
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 2
- **Forks**: 1
- **Created**: 2021-03-28
- **Last Updated**: 2025-03-10

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 茶叶信息爬虫

#### 介绍
把茶叶相关新闻或图片爬取并保存，后续做成信息整合网站

#### 软件架构
软件架构说明

### 爬取网站

1. 茶忙网 http://www.chamang.cn/
2. 普洱茶网 https://www.puercn.com/
3. 说茶网 http://www.ishuocha.com/
4. 视觉中国列表页 https://www.vcg.com/creative-image/chaye/

#### 安装教程

1.  xxxx
2.  xxxx
3.  xxxx

#### 使用说明

1.  xxxx
2.  xxxx
3.  xxxx

#### 参与贡献

1.  Fork 本仓库
2.  新建 Feat_xxx 分支
3.  提交代码
4.  新建 Pull Request


#### 特技


### 增量爬虫的实现

我们爬取了微博以后，很多微博账号又可能发了一些新微博，定期自动爬取微博就是每隔一段时间自动运行程序，自动爬取这段时间产生的新微博（忽略以前爬过的旧微博）。本部分为可选部分，如果不需要可以忽略。
思路是利用第三方软件，如crontab，让程序每隔一段时间运行一次。

方法二：将上次执行程序的时间写入文件（推荐）
这个方法很简单，就是使用程序设置中设置user_id_list的第二种方法设置user_id_list，这样设置就全部结束了。
说下这个方法的好处和原理，假如你的txt文件内容为：

1669879400
1223178222 胡歌
1729370543 郭碧婷 2019-01-01 19:28
第一次执行时，因为第一行和第二行都没有写时间，程序会按照config.json文件中since_date的值爬取，第三行有时间“2019-01-01 19:28”，程序就会把这个时间当作since_date。每个用户爬取结束程序都会自动更新txt文件，每一行第一部分是user_id，第二部分是用户昵称，第三部分是程序准备爬取该用户第一条微博（最新微博）时的时间。爬完三个用户后，txt文件的内容自动更新为：

1669879400 Dear-迪丽热巴 2020-01-13 19:18
1223178222 胡歌 2020-01-13 19:28
1729370543 郭碧婷 2020-01-13 19:33
下次再爬取微博的时候，程序会把每行的时间数据作为since_date。这样的好处一是不用修改since_date，程序自动更新；二是每一个用户都可以单独拥有只属于自己的since_date，每个用户的since_date相互独立，互不干扰。since_date既可以是“yyyy-mm-dd”格式，也可以是“yyyy-mm-dd hh:mm”格式。比如，现在又添加了一个新用户，例如杨紫，你想获取她从2018-01-23到现在的全部微博，只需要这样修改txt文件：

1669879400 Dear-迪丽热巴 2020-01-13 19:18
1223178222 胡歌 2020-01-13 19:28
1729370543 郭碧婷 2020-01-13 19:33
1227368500 杨紫 2018-01-23
注意每一行的用户配置参数以空格分隔，如果第一个参数全部由数字组成，程序就认为此行为一个用户的配置，否则程序会认为该行只是注释，跳过该行；第二个参数可以为任意格式，建议写用户昵称；第三个如果是日期格式（yyyy-mm-dd），程序就将该日期设置为用户自己的since_date，否则使用config.json中的since_date爬取该用户的微博，第二个参数和第三个参数也可以不填。