代码拉取完成,页面将自动刷新
本接口是车型库api的补充,用于爬取汽车之家所有车型详情数据 本教程针对有php和python3一定基础的人的如果不会操作或者看不懂可以直接下载完整数据库和下载好的车型详情配置信息文件
下载地址:https://mianbaoduo.com/o/bread/YZmckppw
python3 selenium webdriver.Chrome php
使用python3 的webdriver.Chrome 获取渲染后的css样式信息,再用php替换后保存入数据库
http://www.selenium.org.cn/1203.html
http://你自己的网址/python/autohomeinfo.php
这个采集汽车之家所有车型详情原版数据存到json和newhtml目录,因为是循环执行所以第一次执行时间较长,不要关闭浏览器耐心等待即可 其中json为带混淆的数据 newhtml中为混淆的js 样式类
python queryhtml.py
http://你自己的网址/python/replaceclass.php
http://你自己的网址/python/replaceclasstofile.php
这一步是将json 用混淆的样式类文件替换掉并保存到数据库,数据库结构如下.执行的时候由于是一次性执行可能会报超时的错误,可以直接刷新,直到提示执行完成 由于存到数据库太大怕影响速度所以增加了一个 存储到文件的方式以加快速度. 大家可以自由选择,存到数据库大概2G,存到文件中大概2百多M就够了
CREATE TABLE `car_info_detail` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`content` text NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 COMMENT='车详情';
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。