# mining_wechat **Repository Path**: ghislaine/mining_wechat ## Basic Information - **Project Name**: mining_wechat - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-05-22 - **Last Updated**: 2021-05-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### Selenium_微信公众号数据采集__腾讯媒体研究院 ### 介绍: 基于selenium对“腾讯媒体研究院”的公众号信息进行抓取 ### 要求: - 使用selenium进入微信公众平台 - 在微信公众平台寻找指定的公众号 - 抓取该公众号指定时间区间的文章(不低于50页数据/不低于1年的数据) - 导出文章信息(应包含标题,时间,文章url链接以及文章文本内容) ### 抓取意义: 作为新媒体人,保持对于新闻时事的敏感度是必须的,所以要广泛阅读。腾讯媒体研究院深耕媒体行业,探索媒体前沿趋势研究与实践落地,保持良好的更新频率,高质量的文章内容。 ### 遇到的困难: 1. 一开始title抓取失败,返回none 2. 由于腾讯反爬机制比较严格,sleep的时间需要比较长,导致爬取时间过长 ### 解决的方法: 1. 在存放title的[class="inner_link_article_title"]下有两个span标签,第一个内容为空,需要爬取的是第二个span下的文本 2. 放服务器运行 ### 数据 [腾讯媒体研究院.xlsx](https://gitee.com/ghislaine/mining_wechat/blob/master/%E8%85%BE%E8%AE%AF%E5%AA%92%E4%BD%93%E7%A0%94%E7%A9%B6%E9%99%A2.xlsx)