# learn-spider

**Repository Path**: ChinaLym/learn-spider

## Basic Information

- **Project Name**: learn-spider
- **Description**: 🕷️学习Java爬虫案例，总结为爬虫框架（
支持集群运行；拆多个模块分布式运行）
- **Primary Language**: Java
- **License**: Apache-2.0
- **Default Branch**: main
- **Homepage**: https://spec.itlym.cn
- **GVP Project**: No

## Statistics

- **Stars**: 7
- **Forks**: 5
- **Created**: 2020-06-01
- **Last Updated**: 2026-01-27

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Java, Spider

## README

# 🕷 learn-spider

## 📖介绍

- ⚡ 快速 / 批量 下载网站视频、图片
- 🧠 掌握爬虫思路，总结一个企业级爬虫流程
- 🛢️ 分解代理池原理，构造自己的多级代理池
- 🌲 资深爬虫设计：分组、监控、重试、告警、任务状态记录、合并

如果您在找一个下载`加密M3u8视频`工具、或者您想通过`Java`学习爬虫思想、或者想深入学习大型爬虫系统设计，相信这份工程一定适合您！

# 🚀 开始运行

1. `git clone https://gitee.com/ChinaLym/learn-spider`
2. 本地运行

功能说明、学习步骤、爬虫流程见 [功能说明与学习顺序](doc/learn-project.md)

# 🍭 运行截图

![demo.png](doc/metrics/demo.png)

![create_m3u8Task.png](doc/create_m3u8Task.png)

![downloading.png](doc/downloading.png)

![playVedio.png](doc/playVedio.png)

监控页面

![overview.png](doc/metrics/overview.png)

代理池
![代理池](doc/proxy-pool.png)

更多参见 [功能说明与学习顺序](doc/learn-project.md)

# 爬虫注意点（遵循所在国家法律法规）

1. 不得侵入国家事务、国防建设、尖端科学技术领域网站，不得爬取个人信息以及非公开数据。
2. 不得采取逆向暴力破解等技术手段。
3. 不得妨碍目标网站正常运行，不得超过目标网站日均流量的三分之一。

## 参考

ip代理池 https://cloud.tencent.com/developer/article/1666217


> 扩展：其他开源项目模型命名（选读，便于理解爬虫框架设计者们的共同思想）
> - 待下载任务：SpiderTask、Seed
> - 下载/抓取/发请求：Spider、Downloader
> - 调度、任务管理：Scheduler、TaskManager
> - 页面处理：Extractor、PageProcessor、Analyzer、Parser
> - 结果处理：Pipeline、Handler