# CrawlNews

**Repository Path**: HolySoul/crawl-news

## Basic Information

- **Project Name**: CrawlNews
- **Description**: 主要用途：从科技部官网爬取感兴趣的新闻保存到excel中。使用了scrapy框架。可自定义过滤关键字，日期范围，还可在此基础上继续添加页面。
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2021-05-05
- **Last Updated**: 2021-05-08

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# CrawlNews

#### 介绍
主要用途：从科技部官网爬取感兴趣的新闻保存到excel中。使用了scrapy框架。可自定义过滤关键字，日期范围，还可在此基础上继续添加页面。

#### 软件架构

基于scrapy框架


```
--CrawlNews/            -- 项目主目录
----CrawlNews/
------spiders/
--------__init__.py     -- 初始化脚本
--------most_gov.py     -- 爬取most.gov.cn，解析静态页面，指定爬取目录暴力搜索，依赖于爬取目录的设置，数据不够完整，但可重塑性大
--------most_gov_api.py -- 爬取most.gov.cn，解析动态数据，使用网站的搜索接口，直接获取json数据，处理极其简单，数据完整但功能受限
--------cast_org.py     -- 爬取cast.org.cn（待完成）
--------test_parse.py   -- 测试解析页面的爬虫
------__init__.py
------items.py          -- Items代码模板（继承类）
------middlewares.py    -- Middlewares代码模板（继承类）
------pipelines.py      -- Pipelines代码模板（继承类）
------settings.py       -- Scrapy爬虫的优化配置文件
----main.py             -- 为方便PyCharm使用scrapy，根据需要修改内容，然后运行该.py启动相应爬虫，以方便调试等
----news_list.xlsx      -- 结果保存文件
----NewsInfo.txt        -- 保存到文本（可选）
----requirements.txt    -- 项目依赖的python包
----scrapy.cfg          -- 部署Scrapy爬虫的配置文件
```


#### 安装教程


1.  pip install -r requirements.txt
2.  cd CrawlNews
3.  
    - scrapy crawl most_gov  (命令行方式)
    - main.py  (PyCharm方式)

    
#### 使用说明


1.  安装依赖包
2.  进入项目目录
3.  运行相应爬虫

#### 参与贡献

1.  Fork 本仓库
2.  新建 Feat_xxx 分支
3.  提交代码
4.  新建 Pull Request


#### 特技

1.  使用 Readme\_XXX.md 来支持不同的语言，例如 Readme\_en.md, Readme\_zh.md
2.  Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com)
3.  你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目
4.  [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目，是综合评定出的优秀开源项目
5.  Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help)
6.  Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)