# web_mining_公众号 **Repository Path**: wingyan/web-mining-official-account ## Basic Information - **Project Name**: web_mining_公众号 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-05-27 - **Last Updated**: 2021-05-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 南方都市报公众号文章数据抓取 #### 介绍 利用selenium在微信公众平台上抓取南方都市报前50页的文章数据 #### 要求 软件架构说明 * 1.使用selenium进入微信公众平台 * 2.在微信公众平台寻找指定的公众号 * 3.抓取该公众号指定时间区间的文章(不低于50页数据/不低于1年的数据) * 4.导出文章信息(应包含标题、时间、文章URL链接以及文章文本内容) #### 数据抓取意义 《南方都市报》作为一家覆盖珠三角地区的媒体,其发布的新闻紧贴本地生活,区域时事,抓取其公众号文章的数据,能够帮助我们迅速了解近期珠三角地区的热点话题、话题趋势。 #### 遇到的问题 1.xpath不正确,无法找到想找的那一个元素 2.网络速度过慢,数据爬取过程中经常爬到一半被迫中断 #### 解决方案 1. 当'copy xpath'出错时,尝试'copy full xpath',且在复制了xpath之后先检查是否locate到了一个元素再进行下一步点击。 2. 只能耐心等待,或连接热点。 #### 数据 * [南方都市报文章数据.xlsx](https://gitee.com/wingyan/web-mining-official-account/blob/master/%E5%8D%97%E6%96%B9%E9%83%BD%E5%B8%82%E6%8A%A5%E6%96%87%E7%AB%A0%E6%95%B0%E6%8D%AE.xlsx)