# HeXunSpider **Repository Path**: cix/HeXunSpider ## Basic Information - **Project Name**: HeXunSpider - **Description**: 使用 scrapy 编写的和讯博客全站文章内容爬虫,可以爬取全站的文章标题、文章链接、点击数和评论数。 - **Primary Language**: Python - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-09-11 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: Python, Spider ## README # HeXunSpider #### 项目介绍 使用 scrapy 编写的和讯博客全站文章内容爬虫,可以爬取全站的文章标题、文章链接、点击数和评论数。 #### 软件架构 采用 scrapy 爬取后再使用 MongoDB 数据库来存储爬取的数据 #### 安装教程 1. 使用 python3 安装 scrapy 命令为:pip install scrapy 2. 安装 MongoDB 数据库并创建数据库名为"hexun" #### 使用说明 1. 下载项目 git clone https://gitee.com/cix/HeXunSpider 2. 进入项目文件夹 cd HeXunSpider/ 3. 执行项目 scrapy crawl hexun 4. 最终效果 ![输入图片说明](https://images.gitee.com/uploads/images/2018/0911/170557_616c0967_1577043.png "Snip20180911_18.png")