# DoubanTopSpider **Repository Path**: cix/DoubanTopSpider ## Basic Information - **Project Name**: DoubanTopSpider - **Description**: 用基本的爬虫架构实现豆瓣电影Top250数据爬虫 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-12-19 - **Last Updated**: 2021-06-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: Python, Spider ## README # DoubanTopSpider #### 介绍 用基本的爬虫架构实现豆瓣电影Top250数据爬虫 #### 软件架构 爬虫调度器:爬虫调度器只要负责统筹其他四个模块的协调工作。 URL 管理器:负责管理 URL 链接,维护已经爬取的 URL 集合和未爬取的 URL 集合,提供获取新 URL 链接接口。 HTML 下载器:用于从 URL 管理器中获取未爬取的 URL 链接并下载 HTML 网页。 HTML 解析器:用于从 HTML 下载器中获取已经下载的 HTML 网页,并从中解析出新的 URL 交给 URL 管理器,解析出有效数据交给数据存储器。 数据存储器:用于将 HTML 解析器解析出来的数据通过文件或者数据库形式存储起来。 #### 使用说明 python SpiderManager.py #### 效果图 ![输入图片说明](https://images.gitee.com/uploads/images/2018/1219/160350_29e4e0df_1577043.png "屏幕快照 2018-12-19 16.03.36.png")