# 爬虫项目集

**Repository Path**: PhiloKun/crawler-project-set

## Basic Information

- **Project Name**: 爬虫项目集
- **Description**: 爬虫项目集
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2025-04-27
- **Last Updated**: 2025-12-12

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 爬虫综合项目

## 项目简介
本项目包含 Scrapy 框架爬虫、Selenium 自动化、requests/urllib 网络请求等多种常用爬虫技术示例，适合初学者学习和实践。

## 目录结构
```
├── scrapy/                # Scrapy项目主目录
│   ├── scrapy.cfg         # Scrapy配置文件
│   └── scrapyproject/     # Scrapy项目模块
│       ├── spiders/      # 爬虫代码（如豆瓣电影爬虫）
│       ├── items.py      # 数据模型定义
│       ├── middlewares.py# 中间件配置
│       ├── pipelines.py  # 数据处理管道
│       └── settings.py   # 项目设置
├── requests/              # requests库相关示例
│   ├── requests_get请求.py
│   ├── requests_post请求.py
│   └── requests_基本使用.py
├── selenium/              # selenium自动化示例
│   ├── selenium_基本使用.py
│   ├── selenium_元素定位.py
│   ├── selenium_元素信息.py
│   ├── selenium_元素交互.py
│   ├── selenium_handless无头浏览器.py
│   └── chromedriver.exe
├── urllib/                # urllib库相关示例
│   ├── urllib_基本使用.py
│   └── ...
└── README.md              # 项目说明文件
```

## 主要功能
- Scrapy 爬取豆瓣电影Top250，支持JSON/CSV输出
- requests/urllib 实现GET/POST、代理、AJAX等常见网络请求
- selenium 实现浏览器自动化、元素定位、无头浏览器等

## 环境依赖
- Python 3.6 及以上
- Scrapy
- requests
- selenium
- itemadapter

## 安装依赖
```bash
pip install -r requirements.txt
```

## 各模块用法
### 1. Scrapy 爬虫
```bash
cd scrapy
scrapy crawl douban
```
数据输出在 `scrapy/scrapyproject/douban.json` 和 `scrapy/scrapyproject/douban.csv`

### 2. requests/urllib 示例
直接运行对应脚本即可，如：
```bash
python requests/requests_get请求.py
python urllib/urllib_基本使用.py
```

### 3. selenium 示例
确保已下载对应版本 chromedriver.exe，直接运行脚本：
```bash
python selenium/selenium_基本使用.py
python selenium/selenium_handless无头浏览器.py
```

## 注意事项
- 请遵守目标网站 robots.txt 规则，合理设置延迟，勿用于商业用途
- chromedriver.exe 需与本地 Chrome 浏览器版本匹配
- requests/urllib 访问百度等大厂网站时可能遇到反爬虫，可用 selenium 绕过

## 适合人群
- Python 爬虫初学者
- 需要多种爬虫技术对比学习的开发者

---
如有问题欢迎提issue或交流！