# supurl

**Repository Path**: mrque233/supurl

## Basic Information

- **Project Name**: supurl
- **Description**: 新一代的关键词URL采集系统[商业版]。可完美突破所有搜索引擎的反爬虫机制！可根据用户录入的关键词，自动化的使用全网主流的多个搜索引擎(包括但不限于百度、谷歌、必应、搜狗、搜搜等)，获取搜索引擎的返回结果进行统一采集与处理的一款程序。采集与处理的信息包括但不限于真实URL地址、排名、标题等。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-11-30
- **Last Updated**: 2021-11-30

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 新一代关键词URL采集系统(Supurl)

### 最新公告
- supurl v1.0 已上线！于2020年中旬开始研发，在2021年6月12日上线。

### 系统简介

Supurl，是新一代的关键词URL采集系统。可完美突破所有搜索引擎的反爬虫机制！

可根据用户录入的关键词，自动化的使用全网主流的多个搜索引擎(包括但不限于百度、谷歌、必应、搜狗、搜搜等)，获取搜索引擎的返回结果进行统一采集与处理的一款程序。采集与处理的信息包括但不限于真实URL地址、排名、标题等。

程序主要运用于网络安全相关项目，比如批量评估各类CMS系统0DAY的影响程度。以及可作为舆情监控系统的搜索引擎监控组件。


### 关于商业版

本系统分为多个版本，包括会员版、旗舰版。目前暂未发布免费版。

鉴于superl-url项目的使用者较多，总是有小伙伴联系我需要定制二次开发，但工作繁忙一直没时间接。为了减少二次开发成本，所以融合多个客户的所有需求，统一研发出商业版本supurl；

如需使用，可联系QQ：86717375

#### 关于旗舰版

旗舰版是目前已经研发完成的产品，支持客户在自己的服务器独立部署！所有数据都是存储在客户自己的服务器上，仅供客户自己使用。会员面板仅仅是做API数据转发。

#### 关于会员版

会员版目前还在开发中...  是基于云的形式进行构架，会员只需要开通账号即可。所有采集任务都是由官方服务器节点完成。由于采集比较消耗资源，任务如果多的情况下可能需要排队。


### 系统优势

- 全新的构架设计，可完美突破所有搜索引擎的反爬虫机制！
- 完美兼容支持所有搜索引擎，可多个搜索引擎并发采集；
- 采用GO语言实现采集核心，并且稳定性与效率高；交叉编译跨平台，可完美运行在ubuntu、centos、windows、mac等系统；
- 拥有WEB版本会员网站后台，在后台即可实现采集任务的管理与方案自定义。无需技术经验，小白也能快速上手！
- 灵活的过滤方案自定义、重复判断模式自定义；
- 灵活的导出功能，同时支持导出excel表格csv、json、txt等文件；
- 强大的HTTP API推送接口功能，可实现采集结果的推送。可进行二次开发拓展，对接到自己的接口，灵活存储与自定义结果。

### 会员后台截图

![登录页面](images/login.png)
![会员首页](images/home.png)
![任务列表页面](images/urltask_list.png)
![任务添加页面](images/urltask_add.png)
![推送方案管理页面](images/push.png)
![域名过滤方案管理页面](images/filter-domain.png)
![标题过滤方案管理页面](images/filter-title.png)

### 采集客户端运行截图

![运行1](images/run1.png)
![运行2](images/run2.png)
![运行3](images/run3.png)

### 演示视频

暂无

### 关于HTTP推送接口说明

```
推送请求地址：任务中选择的推送方案的HTTP地址
推送请求方式：POST
推送请求类型：application/json
推送请求参数：

{
    "id": 1,             
    "task_id": 1,        
    "engine": "baidu",
    "keyword": "关键词",
    "url": "http://www.xxx.com/article/1.html",
    "domain": "www.xxx.com",
    "title": "网页标题",
    "weight": 1,
    "is_repeat": false,
    "code_language": "",
    "webcms": "",
    "web_server_name": "",
    "registed_at": "",
    "contact_email": "",
    "contact_name": "",
    "contact_mobile": "",
    "created_at": ""
}

注意: 会员的HTTP接口每次正常接收完数据后，需要输出字符串"success"，否则会视为推送不成功。

```
| 字段名称 | 示例值 | 说明 |
| :------| :------: |:------: |
| id | 1 | URL结果的ID编号 |
| task_id | 1 | 所属任务的ID编号 |
| engine |  baidu | 对应的搜索引擎别名 |
| keyword | 最新漏洞 | 搜索的关键词 |
| url | https://www.cnvd.org.cn/webinfo/show/3096 | 网页完整地址 |
| domain | www.cnvd.org.cn | 网页所属的域名 |
| title | 常见漏洞类型汇总 - 国家信息安全漏洞共享平台 | 网页的标题 |
| weight | 1 | 搜索引擎的排名 |
| is_repeat | false| 是否属于重复过滤 true表示被过滤的,false表示没被过滤 |
| code_language | php | 网站后端开发语言 暂不支持 |
| webcms | dedecms | 网站使用的开源网站系统名称 暂不支持 |
| web_server_name | apache | 网站使用的web服务器名称 暂不支持 |
| registed_at | 2020-10-01 | 网站域名的注册时间 暂不支持 |
| contact_email | 123456@qq.com | 网站的联系邮箱 暂不支持 |
| contact_name | 张三 | 网站的联系人 暂不支持 |
| contact_mobile | 13000000000 | 网站的联系方式 暂不支持 |
| created_at | 2021-06-12 | 采集入库时间 |


### 技术实现

- 采用Go语言作为采集客户端的开发语言，交叉编译跨平台；
- 采用selenium实现采集基础核心；
- 采用rabbitmq消息队列；
- 采用内存操作算法实现结果的去重复；
- 采用sqlite作为本地微型数据库，实现数据的入库、结果统计等；
- 采用java作为会员端API接口的转发服务；
- 采用vue + elementui用于会员网站系统的前端开发；

### 联系方式

- 联系QQ： 86717375

- 忘忧草安全交流2群：50246933