5 Star 35 Fork 14

xiaogg/CarApi车型车系品牌api

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

python3 爬取汽车之家所有车型详情数据

介绍

本接口是车型库api的补充,用于爬取汽车之家所有车型详情数据 本教程针对有php和python3一定基础的人的如果不会操作或者看不懂可以直接下载完整数据库和下载好的车型详情配置信息文件

下载地址:https://mianbaoduo.com/o/bread/YZmckppw

软件架构

python3 selenium webdriver.Chrome php

使用python3 的webdriver.Chrome 获取渲染后的css样式信息,再用php替换后保存入数据库

使用说明

  1. 确保安装了python3 selenium 没有就安装一下 python3安装方法 https://www.runoob.com/python3/python3-install.html selenium 安装 pip install selenium 或 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium 如遇升级报错可使用python.exe -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip

http://www.selenium.org.cn/1203.html

  1. 安装 Chrome 目录中有 一般由于chromedriver.exe版本兼容问题如果出现了直接用我共享的版本即可,如果安装我共享的需要想办法禁止升级要不然下次打开就升级最新版本就不能用了. 其它版本:https://blog.bitefu.net/post/167.html
  2. 配置config.php数据库信息
  3. 在浏览器执行
http://你自己的网址/python/autohomeinfo.php  

这个采集汽车之家所有车型详情原版数据存到json和newhtml目录,因为是循环执行所以第一次执行时间较长,不要关闭浏览器耐心等待即可 其中json为带混淆的数据 newhtml中为混淆的js 样式类

  1. 等第4步执行完成之后 到python/ 目录运行
python queryhtml.py
  1. 在浏览器执行
http://你自己的网址/python/replaceclass.php
http://你自己的网址/python/replaceclasstofile.php

这一步是将json 用混淆的样式类文件替换掉并保存到数据库,数据库结构如下.执行的时候由于是一次性执行可能会报超时的错误,可以直接刷新,直到提示执行完成 由于存到数据库太大怕影响速度所以增加了一个 存储到文件的方式以加快速度. 大家可以自由选择,存到数据库大概2G,存到文件中大概2百多M就够了

CREATE TABLE `car_info_detail` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `content` text NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 COMMENT='车详情';

参考

https://www.cnblogs.com/kangz/p/10011348.html

马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
PHP
1
https://gitee.com/web/CarApi.git
git@gitee.com:web/CarApi.git
web
CarApi
CarApi车型车系品牌api
master

搜索帮助