# web_mining_公众号

**Repository Path**: wingyan/web-mining-official-account

## Basic Information

- **Project Name**: web_mining_公众号
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-05-27
- **Last Updated**: 2021-05-29

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 南方都市报公众号文章数据抓取  

#### 介绍
利用selenium在微信公众平台上抓取南方都市报前50页的文章数据  

#### 要求
软件架构说明
* 1.使用selenium进入微信公众平台  
* 2.在微信公众平台寻找指定的公众号  
* 3.抓取该公众号指定时间区间的文章（不低于50页数据/不低于1年的数据）  
* 4.导出文章信息（应包含标题、时间、文章URL链接以及文章文本内容）  

#### 数据抓取意义

《南方都市报》作为一家覆盖珠三角地区的媒体，其发布的新闻紧贴本地生活，区域时事，抓取其公众号文章的数据，能够帮助我们迅速了解近期珠三角地区的热点话题、话题趋势。

#### 遇到的问题

1.xpath不正确，无法找到想找的那一个元素
2.网络速度过慢，数据爬取过程中经常爬到一半被迫中断

#### 解决方案

1.  当'copy xpath'出错时，尝试'copy full xpath'，且在复制了xpath之后先检查是否locate到了一个元素再进行下一步点击。
2.  只能耐心等待，或连接热点。


#### 数据

* [南方都市报文章数据.xlsx](https://gitee.com/wingyan/web-mining-official-account/blob/master/%E5%8D%97%E6%96%B9%E9%83%BD%E5%B8%82%E6%8A%A5%E6%96%87%E7%AB%A0%E6%95%B0%E6%8D%AE.xlsx)