# PeakProxy

**Repository Path**: jfzhang1983/PeakProxy

## Basic Information

- **Project Name**: PeakProxy
- **Description**: 代理IP爬虫软件，内置11个网站的抓取规则。每批大概能抓取到1000余个IP地址，验证后，大概能有100个左右的高匿IP可以用。
抓取到的IP地址，保存在Redis里面，区分为已验证和未验证两类，分别保存在两个Hash表内。有两个脚本定时在跑验证程序，已验证里面如有过时的则删除，未验证里面如发现可用的则更新至已验证列表内。
对外通过Flask提供接口，127.0.0.1/get为随机选出的可用IP，gettxt为保存的所有IP。
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2018-07-26
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# PeakProxy

#### 项目介绍
代理IP爬虫软件，内置11个网站的抓取规则。每批大概能抓取到1000余个IP地址，验证后，大概能有100个左右的高匿IP可以用。抓取到的IP地址，保存在Redis里面，区分为已验证和未验证两类，分别保存在两个Hash表内。有两个脚本定时在跑验证程序，已验证里面如有过时的则删除，未验证里面如发现可用的则更新至已验证列表内。对外通过Flask提供接口，127.0.0.1/get为随机选出的可用IP，gettxt为保存的所有IP。

#### 软件架构
1. SpiderJob 为入口模块，通过定时任务运行 Spiders 目录下的各网站采集脚本，通过调用脚本内的 getlist 函数来执行采集任务
2. Spiders 内各网站采集模块必须以 ***Spider 命名，否则 SpiderJob 无法识别；必须包含 getlist 函数，否则模块无法正常运行
3. API 内通过 Flask 框架，对外提供数据接口

#### 安装教程
1. 安装 Redis 和 Python3.6
2. 安装 requirements 内库
3. 运行 SpiderJob，通过 /get 获取随机IP，通过 /gettxt 获取所有可用IP