# 数据挖掘

**Repository Path**: zhousimmons/data_mining_

## Basic Information

- **Project Name**: 数据挖掘
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-19
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 20春_Web数据挖掘_期末项目

#  黑龙江省大学生就业创业服务平台——招聘网站上的职位招聘列表
> (数据加值宣言：本项目产出按XXX及XXX挖掘的关于YYY(例子: NPS)工作的数据，以解决NPS就业需求及特性的就业分析问题)
> 注. 需达成评价表格PRD1.考核内容：＂作者成功地把数据产品对加值（总结解决什么问题）的精确丶专业及中肯地总结表述于第一段"
* 运用 **requests＆plot** 挖取黑龙江省大学生就业创业服务平台中，各城市行业招聘的详情页内容，并生成excel表格。有薪资-工作要求-学历-年龄等基本信息。

* 数据加值: 得到各城市各行业行业招聘的信息，解决求职者职业方向的选择需求，得到该方向职位的：工作城市，工资，性质等分布情况。


# 数据最小可用产品
> (MVP的数据加值)：需达成评价表格PRD2.考核内容：＂作者成功地具体表述数据产品的数据类型及内容如何构成最小可用产品MVP的核心价值（具体什么数据解决什么问题）
* 得到各城市各行业职业的信息，解决求职者职业方向选择需求，得知工作城市，工资，性质等分布情况。让想要去不同城市就职的人群可以知道需要什么样的条件，薪资概况等等。可以更加有目的性的寻找职位，并且增加一定的求职成功概率。


# 挖掘Query参数
Query参数包括：1. edu 职称 2. jobinfo 工作经验、工资、教育背景需求 3. company-name 公司名与公司地理位置 4. 该链接

||1.工作经验|2.工资|3.教育背景需求|4.职称|5.公司名称|6.招聘详细链接|7.跳转公司链接|
|---|-------|------|-----------|-------|----------------|---------------------------------------------|-----------------------------------------|
| 0 | 大专及大专以上学历 | 不限 | 4500-5999薪 | 销售 | 恒穗生物科技（广州）有限公司 | https://www.hljbys.org.cn/job/view/id/14507 | https://www.hljbys.org.cn/companydetail/view/id/33052 |

```
def get_job(url):
    # 访问招聘工作的详细信息页，并解析为beautifulsoup
    soup = get_page(url, headers=my_headers)[1]
    # 创建记录招聘信息的空字典
    job = {}
    # 从招聘工作相信信息页获取招聘工作的名称，如果出错，就记为"无"
    try:
        job_name = soup.select("h2")[0].contents[0].strip()
    except:
        job_name = "无"
    job["名称"] = job_name
    # 从招聘工作相信信息页获取招聘工作的薪资，如果出错，就记为"无"
    try:
        salary = soup.select("h2 > span")[0].text.strip()
    except:
        salary = "无"
    job["工资"] = salary
    # 从招聘工作相信信息页获取招聘工作的其他信息区域, 如果出错，就跳过
    try:
        job_info_items = soup.select("div.text > ul.half-list")[0].select("li")
        # 遍历其他信息区域
        for item in job_info_items:
            # 将招聘工作的其他信息记录到字典里
            job[item.contents[0].strip().replace("：","")] = item.select("span")[0].text.strip()
    except Exception as e:
        print(e)
    # 将招聘工作详细信息页的链接记录到字典里
    job["链接"] = url
    return job
```

# 思路方法及具体执行
1. 先是确定好我要解决的问题——各城市职业详情
2. 选取黑龙江省大学生就业创业服务平台为数据挖掘——https://www.hljbys.org.cn
3. [先是用scrapy框架爬取相关的深圳产品经理职位的页面链接和首页概况的年龄、薪资等基本信息](https://gitee.com/zhousimmons/data_mining_)
4. [然后用scrapy框架将上一步的各个职位招聘的详情页信息爬取形成excel表格](https://gitee.com/zhousimmons/data_mining_/blob/master/%E6%8B%9B%E8%81%98%E4%BF%A1%E6%81%AF%E5%88%97%E8%A1%A8%20%E5%91%A8%E5%AD%90%E6%BF%A0.csv)

# 心得总结及感谢
> 特别感谢舍友以及其他同学在我最不擅长的代码领域上对我的耐心指导，没有他们的帮助，我很难完成此次这份作业。

> 特别感谢中大南方 **廖汉腾主任** 与 **许智超老师** 在这个学期对我们的Web数据挖掘课程教学指导。由于上半学期疫情的影响，本课程结合线上+线下的课程完成教学学习，老师们的耐心讲解和生动有趣的课堂让我们掌握到了数据挖掘的技术，也认识到了产品经理的思维方式，这对于我们日后做有关数据挖掘、数据分析的相关工作、任务时，带来很大的帮助！！！