# web数据挖掘 **Repository Path**: xinqi3050/web_data_mining ## Basic Information - **Project Name**: web数据挖掘 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-04-06 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## web数据挖掘 ### 2018年互联网300强对于平面设计师的职业需求 **数据加值宣言:** - 本项目产出按2018互联网300强及游戏产业挖掘的关于平面设计师工作的数据,以解决平面设计师就业需求及特性的就业分析问题 #### PRD1.考核内容: **数据产品加值** :数据产品可以帮助用户找到适合自己的职位需求,了解自己满意的公司在人才上的具体技能需求和薪资。 数据最小可用产品 **MVP的数据加值** :可以帮助平面设计师解决互联网公司的求职领域和薪资需求,了解公司对人才的要求和经验要求。 #### PRD2.考核内容: 挖掘Query参数 [参数代码](https://gitee.com/xinqi3050/web_data_mining/blob/master/%E5%B9%B3%E9%9D%A2%E8%AE%BE%E8%AE%A1%E5%B8%88%E6%B1%82%E8%81%8C%E9%9C%80%E6%B1%82%E5%88%86%E6%9E%90.ipynb) 主要是根据老师给的代码进行试验与反馈,再加上自己的一些理解和建议。 #### 数据产品核心价值的最小可用产品MVP的加值 数据产品的最小可行性是给用户进行信息反馈,让用户明确自己的就职目标和公司岗位。 项目: 1.猎聘网站/boss/.. 一系列的数据是规范的、列表化的。会一个,就可以迭代 xpath 、requests_html、url_prase(目标性(分类keywords、query,翻页)) 2.sougou微信公众平台/requests_html-网页xpath-。。 3.微信公平台/selenium(自动化)/比微博难 实现基本模拟登陆/element_find_by_xpath/id/class sleep(5) + random(0-30) 注意:不要每一次都从头抓(缓存/list=[] append/dict={} add) 4.CNKI/selenium练习 H5 嵌套iframe如何抓取(进/出),验证码(图片文本识别OCR-API /chromeAI验证码可以处理么?) selenium 指定目录下载文件/txt\doc\excel html5 ---------------------- 动态加载的页面 6.国家分省数据/xhr json:1、数据科学方法/pandas处理表格 2、程序方法/循环便利每一个细节split\replace-分别添加到数据结构中 掌握 ------------------ 了解 7.scrapy框架/bing(json/html - xhr/xpath) 系统化、功能更强大(中间件) 8.scrapy练习/icon网站 9.scrapyhub了解 10.了解:jd复杂的动态加载scrapy+json 期末加分:scrapyhub、scrapy、系统化、数据量大、意义丰富