# php_python **Repository Path**: tianwenlike/php_python ## Basic Information - **Project Name**: php_python - **Description**: 基于thinkphp6.0 爬虫 - **Primary Language**: PHP - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-08-11 - **Last Updated**: 2024-06-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ThinkPHP 6.0 + QueryList = PHP爬虫 =============== ## 此项目仅仅供学习参考,禁止用于法律以外的违法活动 ## 他人盗用进行违法,本文概不负责!!! > 运行环境要求PHP7.2+,兼容PHP8.1 [官方应用服务市场](https://market.topthink.com) | [`ThinkAPI`——官方统一API服务](https://docs.topthink.com/think-api) ThinkPHPV6.0版本由[亿速云](https://www.yisu.com/)独家赞助发布。 ## 主要新特性 * 采用`PHP7`强类型(严格模式) * 支持更多的`PSR`规范 * 原生多应用支持 * 更强大和易用的查询 * 全新的事件系统 * 模型事件和数据库事件统一纳入事件系统 * 模板引擎分离出核心 * 内部功能中间件化 * SESSION/Cookie机制改进 * 对Swoole以及协程支持改进 * 对IDE更加友好 * 统一和精简大量用法 ## thinkphp6安装 ~~~ composer create-project topthink/think tp 6.0.* ~~~ 如果需要更新框架使用 ~~~ composer update topthink/framework ~~~ ## 文档 [完全开发手册](https://www.kancloud.cn/manual/thinkphp6_0/content) ## 通过queryList插件以及php curl 原生进行开发爬虫 ## 主要通过页面识别进行数据爬取 ## 与python借助浏览器识别有些许不同 ## queryList主要安装代码如下: ~~~ composer require jaeger/querylist ~~~ ## 示例 ~~~ find('img')->attrs('src'); //打印结果 print_r($data->all()); //采集某页面所有的超链接和超链接文本内容 //可以先手动获取要采集的页面源码 $html = file_get_contents('http://cms.querylist.cc/google/list_1.html'); //然后可以把页面源码或者HTML片段传给QueryList $data = QueryList::html($html)->rules([ //设置采集规则 // 采集所有a标签的href属性 'link' => ['a','href'], // 采集所有a标签的文本内容 'text' => ['a','text'] ])->range('li')->query()->getData(); //打印结果 print_r($data->all()); ~~~ ## 参与开发 请参阅 [ThinkPHP 核心框架包](https://github.com/top-think/framework)。 ## 版权信息 ThinkPHP遵循Apache2开源协议发布,并提供免费使用。 本项目包含的第三方源码和二进制文件之版权信息另行标注。 版权所有Copyright © 2006-2021 by ThinkPHP (http://thinkphp.cn) All rights reserved。 ThinkPHP® 商标和著作权所有者为上海顶想信息科技有限公司。 更多细节参阅 [LICENSE.txt](LICENSE.txt)