# PeakProxy **Repository Path**: jfzhang1983/PeakProxy ## Basic Information - **Project Name**: PeakProxy - **Description**: 代理IP爬虫软件,内置11个网站的抓取规则。每批大概能抓取到1000余个IP地址,验证后,大概能有100个左右的高匿IP可以用。 抓取到的IP地址,保存在Redis里面,区分为已验证和未验证两类,分别保存在两个Hash表内。有两个脚本定时在跑验证程序,已验证里面如有过时的则删除,未验证里面如发现可用的则更新至已验证列表内。 对外通过Flask提供接口,127.0.0.1/get为随机选出的可用IP,gettxt为保存的所有IP。 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-07-26 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # PeakProxy #### 项目介绍 代理IP爬虫软件,内置11个网站的抓取规则。每批大概能抓取到1000余个IP地址,验证后,大概能有100个左右的高匿IP可以用。抓取到的IP地址,保存在Redis里面,区分为已验证和未验证两类,分别保存在两个Hash表内。有两个脚本定时在跑验证程序,已验证里面如有过时的则删除,未验证里面如发现可用的则更新至已验证列表内。对外通过Flask提供接口,127.0.0.1/get为随机选出的可用IP,gettxt为保存的所有IP。 #### 软件架构 1. SpiderJob 为入口模块,通过定时任务运行 Spiders 目录下的各网站采集脚本,通过调用脚本内的 getlist 函数来执行采集任务 2. Spiders 内各网站采集模块必须以 ***Spider 命名,否则 SpiderJob 无法识别;必须包含 getlist 函数,否则模块无法正常运行 3. API 内通过 Flask 框架,对外提供数据接口 #### 安装教程 1. 安装 Redis 和 Python3.6 2. 安装 requirements 内库 3. 运行 SpiderJob,通过 /get 获取随机IP,通过 /gettxt 获取所有可用IP