# web_mining_selenium **Repository Path**: Hzx_newmedia/web_mining_selenium ## Basic Information - **Project Name**: web_mining_selenium - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-05-27 - **Last Updated**: 2021-05-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## selenium实战-微信公众号文本挖掘 ### 要求: * 使用selenium进入微信公众平台 * 在微信公众平台寻找指定的公众号 * 抓取该公众号指定时间区间的文章(不低于50页数据/不低于1年的数据) * 导出文章信息(应包含标题,时间,文章url链接以及文章文本内容) * 提交gitee/github要求如下: ## 抓取南方都市报的意义: * 1、将多份报道进行统一整合,一起看有益身心,使人精神集中、助于修身养性。 * 2、可以增强阅读能力及写作能力。 * 3、可以了解各种国家内外大事小事、实时消息,增长见闻,拓展知识面,开拓眼界。 * 4、培养阅读习惯。 ### 项目问题及解决方案 1、当链接跳转到第二个时,代码运行后报错,是因为当下页面的窗口信息,与运行代码运行所处的窗口不同。如果不对窗口信息进行定位,是无法对当前页面下进行再操作的。 解决方案:窗口信息检查```driver.window_handles```;窗口切换```driver.switch_to_window(driver.window_handles[1])```。因此在页面有多于一个页面的时候,我们应该对窗口信息进行检查、然后定位。 ### 参考链接[https://www.selenium.dev/documentation/zh-cn/webdriver/browser_manipulation/](https://www.selenium.dev/documentation/zh-cn/webdriver/browser_manipulation/) 2.无法理解该模块 ``` df_out = df[~df.duplicated()] print (len(df_out)) df[df.duplicated()] ``` 解决方案:参考网上教程 链接:[https://www.cjavapy.com/article/439/](https://www.cjavapy.com/article/439/) ### 数据链接 [数据下载](https://gitee.com/Hzx_newmedia/web_mining_selenium/blob/master/%E5%8D%97%E6%96%B9%E9%83%BD%E5%B8%82%E6%8A%A5.xlsx)