# php_python

**Repository Path**: tianwenlike/php_python

## Basic Information

- **Project Name**: php_python
- **Description**: 基于thinkphp6.0 爬虫
- **Primary Language**: PHP
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2022-08-11
- **Last Updated**: 2024-06-04

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

ThinkPHP 6.0 + QueryList  =  PHP爬虫
===============

## 此项目仅仅供学习参考，禁止用于法律以外的违法活动
## 他人盗用进行违法，本文概不负责！！！

> 运行环境要求PHP7.2+，兼容PHP8.1

[官方应用服务市场](https://market.topthink.com) | [`ThinkAPI`——官方统一API服务](https://docs.topthink.com/think-api)

ThinkPHPV6.0版本由[亿速云](https://www.yisu.com/)独家赞助发布。

## 主要新特性

* 采用`PHP7`强类型（严格模式）
* 支持更多的`PSR`规范
* 原生多应用支持
* 更强大和易用的查询
* 全新的事件系统
* 模型事件和数据库事件统一纳入事件系统
* 模板引擎分离出核心
* 内部功能中间件化
* SESSION/Cookie机制改进
* 对Swoole以及协程支持改进
* 对IDE更加友好
* 统一和精简大量用法


## thinkphp6安装

~~~
composer create-project topthink/think tp 6.0.*
~~~

如果需要更新框架使用
~~~
composer update topthink/framework
~~~


## 文档

[完全开发手册](https://www.kancloud.cn/manual/thinkphp6_0/content)


## 通过queryList插件以及php curl 原生进行开发爬虫
## 主要通过页面识别进行数据爬取
## 与python借助浏览器识别有些许不同
## queryList主要安装代码如下：
~~~
composer require jaeger/querylist
~~~


## 示例
~~~
<?php
use QL\QueryList;
//采集某页面所有的图片
$data = QueryList::get('http://cms.querylist.cc/bizhi/453.html')->find('img')->attrs('src'); 

//打印结果
print_r($data->all());

//采集某页面所有的超链接和超链接文本内容 
//可以先手动获取要采集的页面源码
$html = file_get_contents('http://cms.querylist.cc/google/list_1.html'); 
//然后可以把页面源码或者HTML片段传给QueryList
$data = QueryList::html($html)->rules([ //设置采集规则 
// 采集所有a标签的href属性
'link' => ['a','href'], 

// 采集所有a标签的文本内容
'text' => ['a','text'] ])->range('li')->query()->getData(); 
//打印结果
print_r($data->all());
~~~

## 参与开发

请参阅 [ThinkPHP 核心框架包](https://github.com/top-think/framework)。

## 版权信息

ThinkPHP遵循Apache2开源协议发布，并提供免费使用。

本项目包含的第三方源码和二进制文件之版权信息另行标注。

版权所有Copyright © 2006-2021 by ThinkPHP (http://thinkphp.cn)

All rights reserved。

ThinkPHP® 商标和著作权所有者为上海顶想信息科技有限公司。

更多细节参阅 [LICENSE.txt](LICENSE.txt)