# web_mining_selenium

**Repository Path**: Hzx_newmedia/web_mining_selenium

## Basic Information

- **Project Name**: web_mining_selenium
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-05-27
- **Last Updated**: 2021-05-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## selenium实战-微信公众号文本挖掘
### 要求：
* 使用selenium进入微信公众平台
* 在微信公众平台寻找指定的公众号
* 抓取该公众号指定时间区间的文章（不低于50页数据/不低于1年的数据）
* 导出文章信息（应包含标题，时间，文章url链接以及文章文本内容）
* 提交gitee/github要求如下：
## 抓取南方都市报的意义：
* 1、将多份报道进行统一整合，一起看有益身心，使人精神集中、助于修身养性。
* 2、可以增强阅读能力及写作能力。
* 3、可以了解各种国家内外大事小事、实时消息，增长见闻，拓展知识面，开拓眼界。
* 4、培养阅读习惯。
### 项目问题及解决方案  

1、当链接跳转到第二个时，代码运行后报错，是因为当下页面的窗口信息，与运行代码运行所处的窗口不同。如果不对窗口信息进行定位，是无法对当前页面下进行再操作的。
解决方案：窗口信息检查```driver.window_handles```;窗口切换```driver.switch_to_window(driver.window_handles[1])```。因此在页面有多于一个页面的时候，我们应该对窗口信息进行检查、然后定位。
### 参考链接[https://www.selenium.dev/documentation/zh-cn/webdriver/browser_manipulation/](https://www.selenium.dev/documentation/zh-cn/webdriver/browser_manipulation/)
2.无法理解该模块
```
df_out = df[~df.duplicated()]
print (len(df_out))
df[df.duplicated()]
```
解决方案：参考网上教程 链接：[https://www.cjavapy.com/article/439/](https://www.cjavapy.com/article/439/)


### 数据链接
[数据下载]（https://gitee.com/Hzx_newmedia/web_mining_selenium/blob/master/%E5%8D%97%E6%96%B9%E9%83%BD%E5%B8%82%E6%8A%A5.xlsx）