# Python_Scrapy_doubanTop250

**Repository Path**: Ron1302/python_scrapy_doubanTop250

## Basic Information

- **Project Name**: Python_Scrapy_doubanTop250
- **Description**: 通过scrapy框架对豆瓣前250的电影信息进行爬取，包含电影名、导演、编剧、演员、电影类型、上映时间、时长、上映地、语言、别名、评分、评价数、电影语录信息。爬取的内容存储到MySQL以备后续导入neo4j使用
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 2
- **Forks**: 0
- **Created**: 2023-11-22
- **Last Updated**: 2024-04-16

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Scrapy, Python

## README

# Python_Scrapy

#### 介绍
本项目通过scrapy框架对豆瓣前250的电影信息进行爬取，包含电影名、导演、编剧、演员、电影类型、上映时间、时长、上映地、语言、别名、评分、评价数、电影语录信息。爬取的内容存储到MySQL以备后续导入neo4j使用。

#### 软件架构-Scrapy
本项目使用scrapy框架对豆瓣电影进行爬取，核心代码为douban_Top250\douban_Top250\spiders\douban250.py，同时涉及piplines.py和items.py文件。


#### 安装教程

1.  打开即用

#### 使用说明

1.  代码中有两个管道，一个是将爬取的电影信息写入douban.json文件中，一个是将爬取的信息保存到mysql中，这个两个管道可以在settings文件中进行控制；如果需要保存在MySQL中，需修改settings文件中数据库的信息；
2.  修改完1中信息后，即可通过powershell通过命令行进行启动，需进入到项目文件目录中，通过：scrapy crawl douban250 命令启动