tujia_craw: 使用selenium + ChromeDriver爬取途家网

0 脚本执行顺序与说明
- 0.1 先执行craw_url.py，获得所有房子详情页的url
- 0.2 执行slice_url.py，把所有的url等份，便于后续作多线程爬取
- 0.3 执行craw.py，获取每个房子的具体数据
1 注意
- 1.1 本站的数据为动态加载，用到了selenium + ChromeDriver来获取页面数据
- 1.2 项目中附有chromedriver.exe，需要安装谷歌浏览器（如果运行不了，可能是浏览器和chromedriver.exe版本不对应，对应的浏览器版本为 71。如果报'chromedriver' executable needs to be in PATH错误，注意把浏览器默认路径安装或者配置环境变量。）
- 1.3 注意driver模拟操作后，需要等待1-2s后才能获取到数据
- 1.4 本站有反爬，每一次页面操作设置睡眠6s即可。当然还可以使用user_agent轮换、ip代理池等方法来解决。
- 1.5 chrome_options.add_argument("headless") 设置为不打开浏览器界面
2 爬取内容
- 2.1 途家网https://www.tujia.com/unitlist?cityId=10
- 2.2 爬取字段及说明见截图
3 代码写的比较粗糙和不规范，请见谅。欢迎交流！

输入图片说明

Yeoman / tujia_craw
暂停