# Python_Scrapy_doubanTop250 **Repository Path**: Ron1302/python_scrapy_doubanTop250 ## Basic Information - **Project Name**: Python_Scrapy_doubanTop250 - **Description**: 通过scrapy框架对豆瓣前250的电影信息进行爬取,包含电影名、导演、编剧、演员、电影类型、上映时间、时长、上映地、语言、别名、评分、评价数、电影语录信息。爬取的内容存储到MySQL以备后续导入neo4j使用 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2023-11-22 - **Last Updated**: 2024-04-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: Scrapy, Python ## README # Python_Scrapy #### 介绍 本项目通过scrapy框架对豆瓣前250的电影信息进行爬取,包含电影名、导演、编剧、演员、电影类型、上映时间、时长、上映地、语言、别名、评分、评价数、电影语录信息。爬取的内容存储到MySQL以备后续导入neo4j使用。 #### 软件架构-Scrapy 本项目使用scrapy框架对豆瓣电影进行爬取,核心代码为douban_Top250\douban_Top250\spiders\douban250.py,同时涉及piplines.py和items.py文件。 #### 安装教程 1. 打开即用 #### 使用说明 1. 代码中有两个管道,一个是将爬取的电影信息写入douban.json文件中,一个是将爬取的信息保存到mysql中,这个两个管道可以在settings文件中进行控制;如果需要保存在MySQL中,需修改settings文件中数据库的信息; 2. 修改完1中信息后,即可通过powershell通过命令行进行启动,需进入到项目文件目录中,通过:scrapy crawl douban250 命令启动