# my-crawler_learning
**Repository Path**: yueweicsu/my-crawler_learning
## Basic Information
- **Project Name**: my-crawler_learning
- **Description**: 学习爬虫
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2022-02-16
- **Last Updated**: 2022-02-17
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 爬虫学习
## 1、序言
首先鸣谢[CoderMask](https://space.bilibili.com/101698074)
元宵节还帮我远程debug
我首先学习了up主发布的
[【Java爬虫入门】 WebMagic 招聘网站(51,前程无忧)抓取 列表+详情(通用版)](https://www.bilibili.com/video/BV1Kq4y1W7Ts)
自己尝试后发现51job现在反爬机制升级,出现部分地区不能爬取到详情页的情况,返回了一堆OB混淆的JS语句,需要重新设置一个cookie,这段JS解析起来十分困难
```html
```
多次尝试方法无果后,看到网友[阿雨隆](https://www.ayulong.cn/blog/12)有同样的问题:
于是尝试改造up主的[【万能动态爬虫】](https://www.bilibili.com/video/BV1sf4y1j7Wp?p=9&spm_id_from=pageDriver)视频,现在能成功爬取到数据,尽管效率较低。
模块中的crawler-51job-webdriver实测可用,前提是下载并配置好chromeDriver
表的DDL语句如下:
```sql
CREATE TABLE `job_info` (
`id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主键id',
`company_name` varchar(100) DEFAULT NULL COMMENT '公司名称',
`company_addr` varchar(200) DEFAULT NULL COMMENT '公司联系方式',
`company_info` text COMMENT '公司信息',
`job_name` varchar(100) DEFAULT NULL COMMENT '职位名称',
`job_addr` text COMMENT '工作地点',
`job_info` text COMMENT '职位信息',
`salary_min` int(11) DEFAULT NULL COMMENT '薪资范围,最小',
`salary_max` int(11) DEFAULT NULL COMMENT '薪资范围,最大',
`url` varchar(150) DEFAULT NULL COMMENT '招聘信息详情页',
`time` varchar(30) DEFAULT NULL COMMENT '职位最近发布时间',
PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=111 DEFAULT CHARSET=utf8 COMMENT='招聘信息';
```
2022年2月17日12:06:44
详情参考
https://www.ayulong.cn/blog/19
crawler-51job-webdriver项目扩展ES搜索功能,需要先启动es