# 20_Web_Mining **Repository Path**: liaoshulin/Web_Mining_20 ## Basic Information - **Project Name**: 20_Web_Mining - **Description**: 中大南方网络与新媒体专业,大二数据挖掘课程实践内容。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2020-05-17 - **Last Updated**: 2021-05-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 20_Web_Mining ### 介绍 中大南方网络与新媒体专业,大二数据挖掘课程实践内容。 **廖书琳 181013009** 本周实践项目: **以微信公众平台为对象进行“厦门魔法阿嚒”微信公众号的数据抓取** ### 一、公开可访问之代码URL连结 仓库中包含本周挖取的所有数据的zip文件以及实践代码的ipynb文件 [厦门魔法阿嚒](https://gitee.com/liaoshulin/Web_Mining_20/blob/master/%E5%8E%A6%E9%97%A8%E9%AD%94%E6%B3%95%E9%98%BF%E5%9A%92_%E9%87%87%E9%9B%86%E5%85%AC%E4%BC%97%E5%8F%B7_00_Selenium_%E5%8F%96url_%E5%BB%96%E4%B9%A6%E7%90%B3.ipynb) ### 二、项目名称:关于“厦门魔法阿嚒”订阅号中不同关键词下的文章数据抓取 **1. 数据加值宣言:** 本项目产出按Web内容挖掘及web结构挖掘(url挖掘),分别使用了requests方法和python+selenium方法,采集关于“蚂蚁金服科技”微信公众号内所有的文章名字,发布日期,文章链接,以及类型分类,以解决寻找相关需求文章的问题; 【注】:一共产出5个数据表格(最下方可切换查看), 其中第1个表格是通过python+selenium方法产出的300页数据(包含文章关键词变量);第2个表格是通过requests方法产出的300页数据整合(未包含文章关键词变量);第3个表格是(关键词变量数量信息);第4个表格是“厦门魔法阿嚒”的微信号信息 **2. 数据最小可用产品** 数据采集于“厦门魔法阿嚒”订阅号,数据类型有数值类型(数字)、文本、链接这些类型 我认为不同关键词分类下的文章数据可以解决不同关键需求下文章寻找的问题; 比如我需要查找关键词为“美食”的文章,我即可通过关键词分类定位到“美食”,我就可以获取拥有该关键词的文章的相关信息,来了解该公众号所发布关于美食的文章内容。