# 爬虫项目集 **Repository Path**: PhiloKun/crawler-project-set ## Basic Information - **Project Name**: 爬虫项目集 - **Description**: 爬虫项目集 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2025-04-27 - **Last Updated**: 2025-12-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 爬虫综合项目 ## 项目简介 本项目包含 Scrapy 框架爬虫、Selenium 自动化、requests/urllib 网络请求等多种常用爬虫技术示例,适合初学者学习和实践。 ## 目录结构 ``` ├── scrapy/ # Scrapy项目主目录 │ ├── scrapy.cfg # Scrapy配置文件 │ └── scrapyproject/ # Scrapy项目模块 │ ├── spiders/ # 爬虫代码(如豆瓣电影爬虫) │ ├── items.py # 数据模型定义 │ ├── middlewares.py# 中间件配置 │ ├── pipelines.py # 数据处理管道 │ └── settings.py # 项目设置 ├── requests/ # requests库相关示例 │ ├── requests_get请求.py │ ├── requests_post请求.py │ └── requests_基本使用.py ├── selenium/ # selenium自动化示例 │ ├── selenium_基本使用.py │ ├── selenium_元素定位.py │ ├── selenium_元素信息.py │ ├── selenium_元素交互.py │ ├── selenium_handless无头浏览器.py │ └── chromedriver.exe ├── urllib/ # urllib库相关示例 │ ├── urllib_基本使用.py │ └── ... └── README.md # 项目说明文件 ``` ## 主要功能 - Scrapy 爬取豆瓣电影Top250,支持JSON/CSV输出 - requests/urllib 实现GET/POST、代理、AJAX等常见网络请求 - selenium 实现浏览器自动化、元素定位、无头浏览器等 ## 环境依赖 - Python 3.6 及以上 - Scrapy - requests - selenium - itemadapter ## 安装依赖 ```bash pip install -r requirements.txt ``` ## 各模块用法 ### 1. Scrapy 爬虫 ```bash cd scrapy scrapy crawl douban ``` 数据输出在 `scrapy/scrapyproject/douban.json` 和 `scrapy/scrapyproject/douban.csv` ### 2. requests/urllib 示例 直接运行对应脚本即可,如: ```bash python requests/requests_get请求.py python urllib/urllib_基本使用.py ``` ### 3. selenium 示例 确保已下载对应版本 chromedriver.exe,直接运行脚本: ```bash python selenium/selenium_基本使用.py python selenium/selenium_handless无头浏览器.py ``` ## 注意事项 - 请遵守目标网站 robots.txt 规则,合理设置延迟,勿用于商业用途 - chromedriver.exe 需与本地 Chrome 浏览器版本匹配 - requests/urllib 访问百度等大厂网站时可能遇到反爬虫,可用 selenium 绕过 ## 适合人群 - Python 爬虫初学者 - 需要多种爬虫技术对比学习的开发者 --- 如有问题欢迎提issue或交流!