# 数据挖掘期末项目 **Repository Path**: lucaszy/data_mining_final_project ## Basic Information - **Project Name**: 数据挖掘期末项目 - **Description**: 存放数据挖掘课程价值主张和代码 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2020-07-11 - **Last Updated**: 2022-02-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # web_数据挖掘_课程期末项目 ### [数据最小可用产品](http://epython.lucaszy.com/) ## 价值主张: 利用scrapy框架抓取猎聘上中国500强企业用户体验岗位和数据分析师岗位详细信息,这一项目可以帮助求职者了解这一类公司对这些岗位学历,经验,职责要求,可以帮助他们解决对自身能力定位不准的问题,更有针对性地投放简历,提高获得offer的几率。 # 关键词1:数据分析 ## 项目名称: 如何成为广州市中国500强公司数据分析岗的佼佼者? ### (1)来源:猎聘网 ### (2).关键指标: * key:数据分析 * compId:中国500强 ### (3).目标人群: 想在广州的中国500强企业中从事数据分析方面工作的求职者 ### (4).利益相关者: 1. 对需要参与招聘这一类岗位的HR 2. 在未来想从事数据分析岗位的学生 3. 从事数据挖掘人才培养的老师 4. 正在从事数据挖掘工作的人 # 关键词2:用户体验 ## 作品名称:想要在中国500强公司从事用户体验相关工作具备什么样的才能? ### (1)数据来源:猎聘网 ### (2)关键指标: * key:用户体验 * compId:中国500强 ### (3)目标人群:想在中国500强企业中从事用户体验方面工作的求职者 ### (4) 利益相关者: 1. 对需要参与招聘这一类岗位的HR 2. 在未来想从事用户体验、产品设计等等岗位的学生 3. 从事用户研究人才培养的老师 # 数据挖掘:思路方法及具体执行 ## 猎聘网样态 ![html截图](https://www.lucaszy.com/wp-content/uploads/2020/07/html截图.png) * 从上图右边可以看到,XHR即动态加载内容不是职位信息,这表明该网站数据样态是以html为核心的静态页面 ## url参数解析 ![url解释](https://www.lucaszy.com/wp-content/uploads/2020/07/url解析.png) * 利用urllib.parse模块解析url并建构参数模板,最后形成新的url ## 多页数据 ![新增栏位](https://www.lucaszy.com/wp-content/uploads/2020/07/页数.png) * 成功抓取到400页数据,并且合并到一个表格中去,新增页数、关键词两个栏位 ## 抓取方法介绍 ![抓取方法](https://www.lucaszy.com/wp-content/uploads/2020/07/抓取方法.png) ### 使用方法:scrapy框架 ### 使用原因: * scrapy框架能够大批量多线程的进行数据的抓取,提高抓取数据的效率 * scrapy框架可以自动判断url链接是否有重复,减少数据的重复,并且在遇到抓取页面报错的时候会继续抓取下一个,提高抓取的效率 ### 抓取流程 #### (1)数据爬取 1. 利用scrapy框架搭建猎聘网职位列表页模板 ![职位列表页](https://www.lucaszy.com/wp-content/uploads/2020/07/职位列表页.png) 2. 根据需求调整不同的参数生成不同url进行职位列表页爬取 ![修改参数](https://www.lucaszy.com/wp-content/uploads/2020/07/修改参数建立url列表.png) 3. 利用scrapy框架搭建职位详情页模板 ![职位详情页](https://www.lucaszy.com/wp-content/uploads/2020/07/职位详情页.png) 4. 把职位列表页中的详情页链接读入岗位详情页模板,开始爬取职位详情页信息 ![读入文件](https://www.lucaszy.com/wp-content/uploads/2020/07/读入文件.png) ![爬取代码](https://www.lucaszy.com/wp-content/uploads/2020/07/爬取代码.png) #### (2)数据分析 4. 清洗数据 5. 利用[pyecharts](https://pyecharts.org/#/)、[gensim](https://radimrehurek.com/gensim/wiki.html#latent-semantic-analysis)等第三方模块进行交互式数据可视化 * 价值主张表格 ![价值主张表格](https://images.gitee.com/uploads/images/2020/0719/154340_ca07409a_2228669.png) * 地图 ![](https://www.lucaszy.com/wp-content/uploads/2020/07/地图.png) * 饼状图 ![](https://www.lucaszy.com/wp-content/uploads/2020/07/饼状图.png) * 玫瑰图 ![](https://www.lucaszy.com/wp-content/uploads/2020/07/玫瑰.png) * 水滴图 ![](https://www.lucaszy.com/wp-content/uploads/2020/07/水滴.png) * 主题建模 ![](https://www.lucaszy.com/wp-content/uploads/2020/07/主题建模.png) * 词云图 ![](https://www.lucaszy.com/wp-content/uploads/2020/07/词云图.png) 6. 利用flask框架搭建网页 7. 利用pythonanywhere部署到云端 * [最小可行性产品入口](https://epython.lucaszy.com/) ## 数据导出 * 选择xlsx后缀,导出Excel表格,存放在scrapy框架下面 ## 数据整理 * 通过对数据合并,形成一个400条数据文件,两个关键词分开进行数据爬取。 ## 心得总结: * scrapy框架非常好的一点是,如果某一个url抓取有错误的时候,不会影响到后边的爬取 * scrapy框架可以大批量多线程的进行爬取 * 数据爬取后需要做数据分析、数据可视化才能更好地发挥数据的价值 ## 参考链接 * [Python文本数据分析与处理](https://www.cnblogs.com/megachen/p/9555808.html) * [NLP系列(三)LDA主题模型](https://www.jianshu.com/p/fa97454c9ffd) * [Gensim LDA主题模型实验](https://www.cnblogs.com/chenbjin/p/5638904.html) * [Topic Modeling with Gensim (Python)](https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#15visualizethetopicskeywords) * [gensim:models.ldamodel的第一次使用](https://blog.csdn.net/xby_1997/article/details/102705139) * [使用Gensim进行主题建模(一)](https://zhuanlan.zhihu.com/p/62148264)