# web_mining_learning **Repository Path**: xjiajian/web_mining_learning ## Basic Information - **Project Name**: web_mining_learning - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-04-26 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## MVP加值主张宣言 * 数据加值宣言:本项目产出[猎聘网](https://www.liepin.com/zhaopin)按行业及地区挖掘的关于互联网设计的数据,以解决游戏产业下互联网设计就业需求及特性的就业分析问题,给想要在游戏产业发展互联网设计的大学生一个职业能力需要的标准,帮助他们有目的的提升自己,做好职业规划。 * MVP的数据加值: * 现有问题:大学生就业难,不知道往哪个方面提升自己,也不知道自己想要的工作需要什么样的能力。 * 解决方案:通过详情页的职称、经验、学历等详细信息分析广州地区游戏产业下的互联网设计工作的共性与特性,帮助大学生有针对性的提升自己,找到自己心仪的工作,做好职业规划 ## 问题情境的数据参数选择 1. query参数: * dqs * curPage 2. 关键词:互联网设计 ``` #关键词更改 参数修改后列表=[参数修改(curPage=[i],key=["互联网设计"]) for i in range(10)] 参数修改后列表 ``` ## 数据挖掘:思路方法及具体执行 ### 方法选择:chrome检查HTML文档结构,发现猎聘网的数据都在html中,使用xpath便可以获取,于是使用了xpath获取网页数据 ``` class LiepinspiderSpider(scrapy.Spider): name = 'liepinSpider' allowed_domains = ['www.liepin.com'] start_urls =starts_url def parse(self, response): r=response.xpath('//ul[@class="sojob-list"]/li') for a in r: job_xueli =a.xpath('//div[contains(@class,"job-info")]/p/span[@class="edu"]/text()').extract() job_jingyan=a.xpath('//div[contains(@class,"job-info")]/p/span[@class="edu"]/following-sibling::span/text()').extract() job_xinshui=a.xpath('//div[contains(@class,"job-info")]/p/span[@class="text-warning"]/text()').extract() job_shijian=a.xpath('//div[contains(@class,"job-info")]/p/time/@title/text()').extract() job_zhicheng=[x.strip()for x in (a.xpath('//div[contains(@class,"job-info")]/h3/a/text()')).extract() ] job_company_name=a.xpath('//div[contains(@class,"sojob-item-main")]//p[@class="company-name"]/a/text()').extract() job_position=a.xpath('//div[contains(@class,"job-info")]/p/a/text()').extract() job_company_url=a.xpath('//div[contains(@class,"sojob-item-main")]//p[@class="company-name"]/a/@href').extract() ``` ### 单页数据+url解析 ``` url="https://www.liepin.com/zhaopin/?compkind=&dqs=050020&pubTime=&pageSize=40&salary=&compTag=&sortFlag=15°radeFlag=0&compIds=&subIndustry=&jobKind=&industries=420&compscale=&key=%E4%BA%92%E8%81%94%E7%BD%91%E8%AE%BE%E8%AE%A1&siTag=qUvdX0afE0-4-1bYcFF5vw%7E9NgYuqQOK_ZE5No4cv1wsA&d_sfrom=search_prime&d_ckId=8fb205edb185d8cd6b5c2118afb22a5a&d_curPage=9&d_pageSize=40&d_headId=937320f2851c43a3580d0554fd8a8557&curPage=0" from urllib.parse import urlparse, parse_qs,urlencode import pandas as pd def parse_url_qs_for_curPage (url): six_parts = urlparse(url) #把url拆成6部分 out = parse_qs(six_parts.query)#取出query值并输出为字典out return (out) 参数模板=parse_url_qs_for_curPage(url) 参数模板 #下面这个函数要改,上面的url要改 def 参数修改(key,curPage): 参数=参数模板.copy() 参数["key"]=key 参数["curPage"]=curPage return 参数 ``` ### 多页数据 ``` def 参数修改(key,curPage): 参数=参数模板.copy() 参数["key"]=key 参数["curPage"]=curPage return 参数 #关键词更改 参数修改后列表=[参数修改(curPage=[i],key=["互联网设计"]) for i in range(10)] 参数修改后列表 ``` ### 系统设计思维 * 本项目运用scrapy框架爬取猎聘网广州地区的游戏产业下关于互联网分析的数据 * 网页数据抓取对比 | | scrapy | request | selenium | |----|--------|---------|----------| | 优点 | 模块化、并发性好、爬取时间快 | 入门简单,定制灵活 | 自动化爬取 | | 缺点 | 入门较难,不能爬取需要执行js才能获取数据的网页 | 并发性较差,性能低 | 速度慢 | * 选用scrapy框架的原因:模块化、爬取时间快、抓取猎聘这样的网页简单高效 ### 数据导出 ``` ulist=list() class LiepinPipeline: def process_item(self, item, spider): df=pd.DataFrame(item["liepin_xueli"]).rename(columns={0:"学历"}) df["经验"]=item["liepin_jingyan"] df["薪水"]=item["job_xinshui"] df["职称"]=item["job_zhicheng"] df["公司名称"]=item["job_company_name"] df["公司地点"]=item["job_position"] df["公司链接"]=item["job_company_url"] self.addition(df) def addition(self,df): ulist.append(df) df_合并=pd.concat(ulist) df_合并.to_excel("猎聘广州互联网设计职位信息.xlsx") ``` ### 数据整理 ``` item=LiepinItem() item["liepin_jingyan"]=job_jingyan item["liepin_xueli"]=job_xueli item["job_xinshui"]=job_xinshui item["job_zhicheng"]=job_zhicheng item["job_company_name"]=job_company_name item["job_position"]=job_position item["job_company_url"]=job_company_url ``` ``` df=pd.DataFrame(item["liepin_xueli"]).rename(columns={0:"学历"}) df["经验"]=item["liepin_jingyan"] df["薪水"]=item["job_xinshui"] df["职称"]=item["job_zhicheng"] df["公司名称"]=item["job_company_name"] df["公司地点"]=item["job_position"] df["公司链接"]=item["job_company_url"] self.addition(df) ``` ## 心得总结及感谢 ### 心得 * 在经过了本学期的学习后,我认为数据挖掘中最重要的是根据网页数据有针对性的去选择爬取的工具,这样才能准确高效的爬取到自己所需要的数据。以及在对挖掘数据的选择时,要先想这些数据具体有什么作用,能解决什么问题,这些问题是否以人为本,有哪些向善的价值。这样爬取到的数据才能效益最大化。 ### 感谢 * 感谢一些博主写的scrapy的文章和scrapy官网对我的关键代码及项目的帮助,并在此附上URL。 * [scrapy官网](https://scrapy.org/) * [爬虫框架Scrapy个人总结(详细)熟悉](https://www.jianshu.com/p/cecb29c04cd2) * [从爬虫到数据可视化(1)—猎聘网](https://www.jianshu.com/p/c80badcaa5bf) * [XPath 教程](https://www.runoob.com/xpath/xpath-tutorial.html) * [requests和scrapy框架比较](https://blog.csdn.net/zhangyu4863/article/details/80358097) * [为什么不推荐Selenium写爬虫](https://zhuanlan.zhihu.com/p/33542626)