# 豆瓣电影爬虫

**Repository Path**: Chancy599/douban-movie-crawler

## Basic Information

- **Project Name**: 豆瓣电影爬虫
- **Description**: 该项目是一个基于Python的自动化工具，用于爬取豆瓣电影网站上的热门电影信息。它能够提取电影的基本信息（如标题、评分、导演、演员、类型、上映日期和简介），并将这些数据保存为CSV文件，方便进一步分析和使用。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 5
- **Forks**: 0
- **Created**: 2025-02-03
- **Last Updated**: 2026-01-22

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Python

## README

# 豆瓣电影爬虫

#### 介绍
该项目是一个基于Python的自动化工具，用于爬取豆瓣电影网站上的热门电影信息。它能够提取电影的基本信息（如标题、评分、导演、演员、类型、上映日期和简介），并将这些数据保存为CSV文件，方便进一步分析和使用

## 功能特点

1. **自动化抓取热门电影**：通过豆瓣电影的AJAX接口，自动获取当前热门电影列表
2. **详细信息提取**：
   - **电影标题**：获取电影的名称
   - **评分**：提取电影的豆瓣评分
   - **导演**：列出电影的导演信息
   - **演员**：列出主要演员信息
   - **类型**：提取电影的类型（如剧情、喜剧等）
   - **上映日期**：获取电影的上映日期
   - **简介**：提取电影的简短介绍
3. **数据导出**：将抓取的数据保存为CSV格式，支持中文表头，兼容Excel
## 环境依赖

- Python 3.8 或更高版本
- requests（用于发送HTTP请求）
- beautifulsoup4（用于HTML解析）
- csv（用于数据导出）
## 安装方法

1. 克隆代码仓库：
   ```bash
   git clone https://github.com/Chancy599/douban-movie-crawler.git
   cd douban-movie-crawler
2. 安装依赖包：
   ```bash
   pip install -r requirements.txt
## 使用方法
1. 运行脚本：
   ```bash
   python main.py
2. 程序将自动执行以下操作：
   - 获取豆瓣热门电影列表
   - 对每部电影的详情页进行解析，提取详细信息
   - 将所有抓取到的数据保存到douban_movies.csv文件中
## 注意事项
1. **遵守法律法规**：请确保使用本工具时遵守相关法律法规，尊重网站的使用条款
2. **防封禁机制**：虽然代码中加入了随机延时机制，但频繁运行爬虫仍可能触发网站的反爬机制。建议合理安排运行频率
3. **数据准确性**：抓取的数据依赖于豆瓣网站的HTML结构。如果网站结构发生变化，可能需要更新代码
4. **链接解析问题**：如果在运行过程中遇到链接解析失败的问题，请检查链接的合法性，确保链接正确且可访问。如果问题仍然存在，可能是网络问题，请尝试更换网络环境或稍后重试