# 数据挖掘期末项目

**Repository Path**: lucaszy/data_mining_final_project

## Basic Information

- **Project Name**: 数据挖掘期末项目
- **Description**: 存放数据挖掘课程价值主张和代码
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2020-07-11
- **Last Updated**: 2022-02-05

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# web_数据挖掘_课程期末项目
### [数据最小可用产品](http://epython.lucaszy.com/)
## 价值主张:
利用scrapy框架抓取猎聘上中国500强企业用户体验岗位和数据分析师岗位详细信息，这一项目可以帮助求职者了解这一类公司对这些岗位学历，经验，职责要求，可以帮助他们解决对自身能力定位不准的问题，更有针对性地投放简历，提高获得offer的几率。
# 关键词1：数据分析
## 项目名称: 如何成为广州市中国500强公司数据分析岗的佼佼者？
### (1)来源：猎聘网
### (2).关键指标：
 * key：数据分析 
 * compId:中国500强
### (3).目标人群：
   想在广州的中国500强企业中从事数据分析方面工作的求职者
### (4).利益相关者：
  1. 对需要参与招聘这一类岗位的HR 
  2. 在未来想从事数据分析岗位的学生
  3. 从事数据挖掘人才培养的老师
  4. 正在从事数据挖掘工作的人
# 关键词2：用户体验
## 作品名称：想要在中国500强公司从事用户体验相关工作具备什么样的才能？
### (1)数据来源：猎聘网
### (2)关键指标:	
 * key:用户体验
 * compId:中国500强
### (3)目标人群:想在中国500强企业中从事用户体验方面工作的求职者
### (4) 利益相关者:	
 1. 对需要参与招聘这一类岗位的HR
 2. 在未来想从事用户体验、产品设计等等岗位的学生
 3. 从事用户研究人才培养的老师
# 数据挖掘：思路方法及具体执行
## 猎聘网样态
![html截图](https://www.lucaszy.com/wp-content/uploads/2020/07/html截图.png)
* 从上图右边可以看到，XHR即动态加载内容不是职位信息，这表明该网站数据样态是以html为核心的静态页面
## url参数解析
![url解释](https://www.lucaszy.com/wp-content/uploads/2020/07/url解析.png)
* 利用urllib.parse模块解析url并建构参数模板，最后形成新的url
## 多页数据
![新增栏位](https://www.lucaszy.com/wp-content/uploads/2020/07/页数.png)
* 成功抓取到400页数据，并且合并到一个表格中去，新增页数、关键词两个栏位
## 抓取方法介绍
![抓取方法](https://www.lucaszy.com/wp-content/uploads/2020/07/抓取方法.png)
### 使用方法：scrapy框架
### 使用原因：
* scrapy框架能够大批量多线程的进行数据的抓取，提高抓取数据的效率
* scrapy框架可以自动判断url链接是否有重复，减少数据的重复，并且在遇到抓取页面报错的时候会继续抓取下一个，提高抓取的效率
### 抓取流程
#### (1)数据爬取
1. 利用scrapy框架搭建猎聘网职位列表页模板
![职位列表页](https://www.lucaszy.com/wp-content/uploads/2020/07/职位列表页.png)
2. 根据需求调整不同的参数生成不同url进行职位列表页爬取
![修改参数](https://www.lucaszy.com/wp-content/uploads/2020/07/修改参数建立url列表.png)
3. 利用scrapy框架搭建职位详情页模板
![职位详情页](https://www.lucaszy.com/wp-content/uploads/2020/07/职位详情页.png)
4. 把职位列表页中的详情页链接读入岗位详情页模板，开始爬取职位详情页信息
![读入文件](https://www.lucaszy.com/wp-content/uploads/2020/07/读入文件.png)
![爬取代码](https://www.lucaszy.com/wp-content/uploads/2020/07/爬取代码.png)
#### (2)数据分析
4. 清洗数据
5. 利用[pyecharts](https://pyecharts.org/#/)、[gensim](https://radimrehurek.com/gensim/wiki.html#latent-semantic-analysis)等第三方模块进行交互式数据可视化
* 价值主张表格
![价值主张表格](https://images.gitee.com/uploads/images/2020/0719/154340_ca07409a_2228669.png) 
* 地图
![](https://www.lucaszy.com/wp-content/uploads/2020/07/地图.png)
* 饼状图
![](https://www.lucaszy.com/wp-content/uploads/2020/07/饼状图.png)
* 玫瑰图
![](https://www.lucaszy.com/wp-content/uploads/2020/07/玫瑰.png)
* 水滴图
![](https://www.lucaszy.com/wp-content/uploads/2020/07/水滴.png)
* 主题建模
![](https://www.lucaszy.com/wp-content/uploads/2020/07/主题建模.png)
* 词云图
![](https://www.lucaszy.com/wp-content/uploads/2020/07/词云图.png)
6. 利用flask框架搭建网页
7. 利用pythonanywhere部署到云端
* [最小可行性产品入口](https://epython.lucaszy.com/)

## 数据导出

* 选择xlsx后缀，导出Excel表格，存放在scrapy框架下面
## 数据整理

* 通过对数据合并，形成一个400条数据文件，两个关键词分开进行数据爬取。
## 心得总结：
* scrapy框架非常好的一点是，如果某一个url抓取有错误的时候，不会影响到后边的爬取
* scrapy框架可以大批量多线程的进行爬取
* 数据爬取后需要做数据分析、数据可视化才能更好地发挥数据的价值
## 参考链接
* [Python文本数据分析与处理](https://www.cnblogs.com/megachen/p/9555808.html)
* [NLP系列（三）LDA主题模型](https://www.jianshu.com/p/fa97454c9ffd)
* [Gensim LDA主题模型实验](https://www.cnblogs.com/chenbjin/p/5638904.html)
* [Topic Modeling with Gensim (Python)](https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#15visualizethetopicskeywords)
* [gensim:models.ldamodel的第一次使用](https://blog.csdn.net/xby_1997/article/details/102705139)
* [使用Gensim进行主题建模(一)](https://zhuanlan.zhihu.com/p/62148264)