# my-crawler_learning **Repository Path**: yueweicsu/my-crawler_learning ## Basic Information - **Project Name**: my-crawler_learning - **Description**: 学习爬虫 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-02-16 - **Last Updated**: 2022-02-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 爬虫学习 ## 1、序言 首先鸣谢[CoderMask](https://space.bilibili.com/101698074) 元宵节还帮我远程debug 我首先学习了up主发布的 [【Java爬虫入门】 WebMagic 招聘网站(51,前程无忧)抓取 列表+详情(通用版)](https://www.bilibili.com/video/BV1Kq4y1W7Ts) 自己尝试后发现51job现在反爬机制升级,出现部分地区不能爬取到详情页的情况,返回了一堆OB混淆的JS语句,需要重新设置一个cookie,这段JS解析起来十分困难 ```html ``` 多次尝试方法无果后,看到网友[阿雨隆](https://www.ayulong.cn/blog/12)有同样的问题: 网友回复 于是尝试改造up主的[【万能动态爬虫】](https://www.bilibili.com/video/BV1sf4y1j7Wp?p=9&spm_id_from=pageDriver)视频,现在能成功爬取到数据,尽管效率较低。 模块中的crawler-51job-webdriver实测可用,前提是下载并配置好chromeDriver 表的DDL语句如下: ```sql CREATE TABLE `job_info` ( `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主键id', `company_name` varchar(100) DEFAULT NULL COMMENT '公司名称', `company_addr` varchar(200) DEFAULT NULL COMMENT '公司联系方式', `company_info` text COMMENT '公司信息', `job_name` varchar(100) DEFAULT NULL COMMENT '职位名称', `job_addr` text COMMENT '工作地点', `job_info` text COMMENT '职位信息', `salary_min` int(11) DEFAULT NULL COMMENT '薪资范围,最小', `salary_max` int(11) DEFAULT NULL COMMENT '薪资范围,最大', `url` varchar(150) DEFAULT NULL COMMENT '招聘信息详情页', `time` varchar(30) DEFAULT NULL COMMENT '职位最近发布时间', PRIMARY KEY (`id`) USING BTREE ) ENGINE=InnoDB AUTO_INCREMENT=111 DEFAULT CHARSET=utf8 COMMENT='招聘信息'; ``` 2022年2月17日12:06:44 详情参考 https://www.ayulong.cn/blog/19 crawler-51job-webdriver项目扩展ES搜索功能,需要先启动es