# Web_Mining

**Repository Path**: KYXTWX/Web_Mining

## Basic Information

- **Project Name**: Web_Mining
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2020-04-10
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Web数据挖掘期末项目

- #### [新媒体运营行业数据挖掘.ipynb](https://gitee.com/KYXTWX/Web_Mining/blob/master/%E6%9C%9F%E6%9C%AB%E9%A1%B9%E7%9B%AE/%E6%96%B0%E5%AA%92%E4%BD%93%E8%BF%90%E8%90%A5%E8%A1%8C%E4%B8%9A%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98.ipynb)
- #### [数据EXCEL表](https://gitee.com/KYXTWX/Web_Mining/tree/master/%E6%9C%9F%E6%9C%AB%E9%A1%B9%E7%9B%AE)

## 1. MVP加/价值主张宣言

- **PRD1.数据加值宣言**

通过挖掘[猎聘网](https://www.liepin.com/city-gz/)的新媒体运营行业数据，了解在不同 **行业** 领域对于新媒体运营工作的方向，并得出在有新媒体运营岗位的公司存在的其他类型职业数据表。还了解了在不同 **公司** 对于新媒体运营工作的内容和要求，可以从中得知新媒体运营岗位需要履行的职责还有个人应聘任职时需要拥有的个人知识储备和相关技术，属于个人应聘资格。由数据我们可以清晰地了解到新媒体运营岗位的需求，帮助学生充分认识到对于新媒体运营需要学习什么知识，以及给他们提供岗位方向，帮助他们提前为寻找工作做准备。

- **PRD2.MVP的数据加值**

数据产品核心价值在于新媒体运营行业在全国招聘情况的数据体现。在互联网行业中包括有：微信公众号运营、小红书运营、短视频新媒体运营、海外新媒体运营等。除了新晋新媒体运营岗位，还有新媒体运营总监、新媒体运营经理、新媒体运营主管、新媒体运营企划助理、新媒体运营专员等。对新媒体运营行业进行数据挖掘时不局限于标准职位，加大数据的价值和意义。

- **PRD2.MVP的数据加值**

新媒体运营在互联网行业中是通过新兴媒体平台工具进行产品宣传、推广、产品营销的一系列运营手段。通过策划品牌相关的优质、高度传播性的内容和线上活动，向客户广泛或者精准推送消息，提高参与度，提高知名度，从而充分利用粉丝经济，达到相应营销目的。

## 2. 问题情境的数据参数选择

- **参数设计 挖掘Query参数**

![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/211427_5f6d7489_2228748.png "1.png")

从挖掘的数据代码结果可以看出：Query参数存在51个，接着开始对新媒体运营行业进行创建行业模板字典，得出的公司名称关键词主要是：网易集团、阿里巴巴、苏宁易购、小米。接着创建城市模板字典，得出的城市关键词主要是杭州。最后进行新媒体运营行业数据翻页挖掘。

## 3. 数据挖掘：思路方法及具体执行

- **方法选择** 

项目主要对猎聘网的新媒体运营行业进行数据挖掘和数据采集，挖掘到的数据包括职称、薪水、公司地点、公司名称、时间、经验、链结和公司URL。该网站数据在XHR中。

- **单页数据+url解析** 

创建了行业模板字典和城市模板字典。 

- **多页数据** 

成功利用xpath挖掘了多页数据，并进行了翻页。参数类别分别是：compTag = [v], keyword = ['新媒体运营']。

- **系统设计思维** 

对于挖掘猎聘网数据，选择的数据抓取的方法是requests，因为requests支持HTTP连接，支持使用cookie保持会话，可以自动确定响应内容的编码，还支持国际化的URL和POST数据自动编码。

- **数据导出** 

利用数据挖掘导出的数据文件类型是EXCEL表，该数据文件存储在与.ipynb文件的同目录下。

- **数据整理** 

导出的数据包括目前正在招聘新媒体运营的岗位信息，根据猎聘网中的行业分类进行了数据挖掘，还有以公司为主的岗位数据挖掘。

## 4. 心得总结及感谢

- 感谢通过学习Web数据挖掘，让我了解到挖掘数据的强大用处，只可惜自己的能力不足，没有真正学习到与数据挖掘有关的知识，因为代码对我来说真的太难了，不过还是要谢谢老师熬夜写的代码课件，谢谢给过我帮助的同学，让我在学习数据挖掘时不至于太过迷茫。