1 Star 5 Fork 4

破云掉下来了 / 九头虫数据采集插件文档

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
创建规则.md 7.00 KB
一键复制 编辑 原始数据 按行查看 历史
破云掉下来了 提交于 2021-11-06 17:48 . '更新操作文档'

创建采集规则

URL地址与URL模式匹配的时候,就会执行采集规则。如果你还不知道怎么编写URL匹配模式可以点击这里 查看怎么编写 URL 匹匹配模式。

视频演示地址:https://pan.baidu.com/s/1gTkq4ff132wh3K1LojGmHA 提取码:x7em;

插件下载地址:https://jtc.lhyhq.cn

数据格式

参数 说明 类型 必填 默认值 版本
title 标题 string - -
match URL 匹配模式。点击查看 URL 匹配模式规则 string - -
demo URL 匹配示例,用于验证当前模式是否正确 string - -
delay 延迟采集时间,单位秒 number 2 -
rules 数据采集规则 Rule[] - -

Rule

数据采集规则

参数 说明 类型 必填 默认值 版本
root 根节点 。值为 CSS 选择器 ,不会的话请查看 CSS 选择器文档 string body -
multi 是否选择所有root节点 boolean false -
desc 用于描述当前采集规则主要采集哪些信息 string - -
request URL 地址,采集到数据之后,以POST请求方式发送数据;数据内容类型为JSON格式。 string | Request - 2.2.5
join 采集规则的 uuid值;把采集到的数据与另一个采集规则的数据合并。只支持一对多或多对一数据合并。 uuid - 2.2.5
fetches 采集root节点下的信息 Fetch[] - -

Fetch

选择要采集的元素

regexmap同时存在的情况下,先执行 regex 然后在执行 map

参数 说明 类型 必填 默认值 版本
name 字段名。 采集到的数据将会保存到当前字段下 string body -
selector 子选择器。root下的子节点,选取要采集信息;如果当前值设置为root则引用root节点的选择器。 boolean false -
type text:表示采集内容;html:表示采集 HTML 代码;attr:表示采集节点属性,这时你需要设置attr属性 text | html | attr text -
attr type=attr时,需要设置要采集的属性名 Fetch[] - -
regex 正则表达式,用于过滤数据 如:\d+ 用于筛选数值 string - 2.2.5
func 通过自定义函数处理内容,并返回处理后的结果。 value 当前值,row:当前行数据(object类型),可通过这参数访问其它字段值 (value,row)=>string - 2.2.5

Request

如果设置请求地址,请你在服务器上做好跨域处理。具体怎么做,自己百度一下,很简单的。

参数 说明 类型 必填 默认值
url 请求地址 string -
headers 请求头部,具体设置可以参考 HTTP 消息头 object text

完整示例

采集所有网站头部信息

{
	"switch": 1,
	"match": "<all_urls>",
	"title": "适用所有网站",
	"demo": "https://www.baidu.com",
	"delay": 2,
	"rules": [
		{
			"root": "head",
			"multi": false,
			"desc": "网站头部信息",
			"fetches": [
				{
					"name": "关键字",
					"type": "attr",
					"selector": "meta[name=keywords]",
					"attr": "content"
				},
				{
					"name": "描述",
					"type": "attr",
					"selector": "meta[name=description]",
					"attr": "content"
				},
				{
					"name": "标题",
					"selector": "title"
				}
			]
		}
	]
}

采集页面上的图片

{
	"title": "适用所有网站",
	"match": "<all_urls>",
	"demo": "https://www.baidu.com",
	"delay": 2,
	"rules": [
		{
			"root": "img",
			"multi": true,
			"desc": "采集网站图片",
			"fetches": [
				{
					"name": "图片地址",
					"selector": "root",
					"type": "attr",
					"attr": "src"
				}
			]
		}
	]
}

采集百度搜索

{
	"match": "https://www.baidu.com/s?*wd=*",
	"title": "百度搜索",
	"demo": "https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=ds&fenlei=256&rsv_pq=bad4fd05006ae161",
	"delay": 2,
	"rules": [
		{
			"root": "#content_left .result",
			"multi": true,
			"scroll": false,
			"desc": "百度搜索结果",
			"fetches": [
				{
					"name": "网址",
					"type": "attr",
					"selector": "h3 a",
					"attr": "href"
				},
				{
					"name": "描述信息",
					"type": "text",
					"selector": ".c-abstract"
				},
				{
					"name": "标题",
					"type": "text",
					"selector": "h3"
				}
			]
		}
	]
}
TypeScript
1
https://gitee.com/whnba/cjwd.git
git@gitee.com:whnba/cjwd.git
whnba
cjwd
九头虫数据采集插件文档
master

搜索帮助