# 51job_前程无忧 Web_Mining **Repository Path**: lynn998/web_mining ## Basic Information - **Project Name**: 51job_前程无忧 Web_Mining - **Description**: No description available - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-19 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # web_mining_final ## 产品经理岗位对毕业生的岗位需求 ### 项目简介 - 本项目使用python语言与scrapy框架,从前程无忧官方网站爬取数据内容并存储data_format文件中,项目已部署scrapyhub。 - 详参:[scrapyhub部署](https://app.scrapinghub.com/p/462786/1/2/items)(需登录,已开启分享) - 数据:[EXCEL表格](https://gitee.com/lynn998/web_mining/blob/master/%E6%95%B0%E6%8D%AE_%E5%89%8D%E7%A8%8B%E6%97%A0%E5%BF%A751job.csv) ### MVP加/价值主张宣言 #### PRD1.数据加值宣言: - 在前程无忧的求职数据中,为了帮助“产品经理”岗位的求职者明确求职目标,本项目对前程无忧的“产品经理”“珠三角9市”进行爬虫,确定“平均薪酬”在不同行业的分布及其职位描述,成功实现。 - 1. 项目数据:设定获取“平均薪资”目标值,通过 “requests模块”+“xpath模块” 等方式达到目标,定制关键词“产品经理”,“珠三角9市”可供选择,较直接在官网比较岗位信息来说更加灵活,帮助用户实现获知平均薪酬信息及其职位描述需求,另可衍生公司分布、行业地域分布、职位要求关键能力的需求。 - 2. 目标用户:A. 有求职需求,大三、大四在校大学生;B. 刚毕业转岗进入职场,对职位信息不了解,这部分人群求职需求渐渐强烈,但目前信息获取有限,无法支持他们有效决策更加专业严格要求的产品经理岗位。 - 3. 使用/接触场景:此挖掘数据属于前置求职辅助信息,所以在用户有求职需求的场景进行针对性挖掘最为有效。 #### PRD2.MVP的数据加值(数据最小可用产品): - 最小可用产品MVP的核心价值——针对求职者在“产品经理岗位”获取“平均薪资”要求,输出报告结论。 - 1.从平均工资数据可以看出,市场对产品经理的需求很大,不同行业对产品经理的要求也不同。 这些数据可以帮助求职者了解各个行业的就业要求,最大化其优势,避免劣势并准确地找到工作。 - 2.从地理分布数据可以看出,除广州、深圳公司的对产品经理的人才需求也在增加。 这些数据可以帮助求职者了解地理分布对产品经理的巨大需求,并帮助求职者对产品经理有一定的了解。 - 3.从职位描述数据中,我们可以了解产品经理行业的当前岗位要求和前景。 这些数据可以帮助求职者弄清楚他们在哪里,发现缺点,提高竞争力并更好地应对就业市场。 ## 问题情境的数据参数选择 ### 挖掘Query参数 - Keyword:“产品经理” - 城市:“珠三角9市” - city:城市 - company:公司类型 - education_needed:教育背景 - experience_year:工作年限 - functional_category:细分职位类别 - job_advantage_tag:工作福利标签 - job_title:职称 - key_words:职位关键词 - max_salary:最高工资 - min_salary:最低工资 - number_of_people:人数需求 - position_info:职位描述 - province:文章作者 - publish_date:发布日期 - website_url:信息来源 ## 思路方法及具体执行 思路方法: - 该项目使用在课程中学习和实践的代码的基础上,在前程无忧上挖掘产品经理的招聘信息,并通过scrapy模型的构建来确定“平均薪酬”作为关键参数机器职位描述。 对于后续工作,项目使用输入的关键字准确地挖掘职位信息和职位要求,最后导入excel表格供用户查阅,以帮助求职者快速浏览招聘要求,找到合适的职位并解决用户需求。 - 1.该项目针对产品经理的职位,以便求职者可以更好地了解产品经理的职位要求; - 2.该项目使用“requests模块” +“ xpath模块”来捕获51job上的产品经理职位。 实现方式: - 1. 首先去51job.com检查产品经理的工作要求和xpath; - 2. 然后导入requests模块,修改xpath,然后开始爬网; - 3. 爬网后,转到导出副本表单并进行处理。 ## 心得总结及感谢 经验总结1: - 目前,产品经理的工作要求比较大,职位种类多样,对数据处理能力有一定要求; - 在原始教师代码的帮助下,我发现抓取Web数据并不困难,但是当我自己练习时,由于各种错误,一次又一次地减少了数据挖掘的难度; - 最后通过减少数据量,发现scrapinghub的解决办法。 心得体会2: - 在本课程中,我学习了使用“requests模块” +“ xpath模块”来爬网信息,并使用scrapinghub自动获取51job网络信息; - 对于此数据挖掘,发明了原始的xpath爬行和当前的scrapy框架,因为它们非常易于使用; - 但是,归根结底,原因是要掌握并熟悉代码,以免由于挖掘内容的更改而变得被动; - 我也非常感谢阿超老师在课程中解释代码,同时课后大部分问题都可以由Google解决。