# Web_Mining_Midterm-南方都市报公众号文章抓取 **Repository Path**: bannngo/Web_Mining_Midterm-nfdsb ## Basic Information - **Project Name**: Web_Mining_Midterm-南方都市报公众号文章抓取 - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-05-26 - **Last Updated**: 2021-05-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Web_Mining_Midterm-南方都市报公众号文章抓取 ### 介绍 使用selenium实现在微信公众平台抓取微信公众号文章 ### 要求 1. 使用selenium进入微信公众平台 2. 在微信公众平台寻找指定的公众号 3. 抓取该公众号指定时间区间的文章(不低于50页数据/不低于1年的数据) 4. 导出文章信息(应包含标题,时间,文章url链接以及文章文本内容) ### 数据抓取意义 南方都市报作为中国南方的一份综合性日报,覆盖广东省,为珠三角地区影响力最大的报纸。其报道内容涵盖民生等多方面内容,通过使用selenium对【南方都市报】公众号进行文章抓取,能够搜集到当前社会上的热点资讯,通过数据了解社会问题及社会发展趋势。 ### 遇到问题 1. xpath定位错误,抓取不到相应信息 2. 代码运行进程过慢 ### 解决方案 1. 使用开发者工具在网页内寻找正确xpath 2. 耐心等待,确保网络顺畅 ### 参考链接 ### 数据 [南方都市报公众号文章抓取.xlsx](南方都市报公众号文章抓取.xlsx)