# mining_wechat

**Repository Path**: ghislaine/mining_wechat

## Basic Information

- **Project Name**: mining_wechat
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-05-22
- **Last Updated**: 2021-05-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

### Selenium_微信公众号数据采集__腾讯媒体研究院

### 介绍：

基于selenium对“腾讯媒体研究院”的公众号信息进行抓取

### 要求：

- 使用selenium进入微信公众平台
- 在微信公众平台寻找指定的公众号
- 抓取该公众号指定时间区间的文章（不低于50页数据/不低于1年的数据）
- 导出文章信息（应包含标题，时间，文章url链接以及文章文本内容）

### 抓取意义：

作为新媒体人，保持对于新闻时事的敏感度是必须的，所以要广泛阅读。腾讯媒体研究院深耕媒体行业,探索媒体前沿趋势研究与实践落地，保持良好的更新频率，高质量的文章内容。

### 遇到的困难：

1. 一开始title抓取失败，返回none
2. 由于腾讯反爬机制比较严格，sleep的时间需要比较长，导致爬取时间过长

### 解决的方法：

1. 在存放title的[class="inner_link_article_title"]下有两个span标签，第一个内容为空，需要爬取的是第二个span下的文本
2. 放服务器运行

### 数据

[腾讯媒体研究院.xlsx](https://gitee.com/ghislaine/mining_wechat/blob/master/%E8%85%BE%E8%AE%AF%E5%AA%92%E4%BD%93%E7%A0%94%E7%A9%B6%E9%99%A2.xlsx)