# CrawlNews **Repository Path**: HolySoul/crawl-news ## Basic Information - **Project Name**: CrawlNews - **Description**: 主要用途:从科技部官网爬取感兴趣的新闻保存到excel中。使用了scrapy框架。可自定义过滤关键字,日期范围,还可在此基础上继续添加页面。 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-05-05 - **Last Updated**: 2021-05-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # CrawlNews #### 介绍 主要用途:从科技部官网爬取感兴趣的新闻保存到excel中。使用了scrapy框架。可自定义过滤关键字,日期范围,还可在此基础上继续添加页面。 #### 软件架构 基于scrapy框架 ``` --CrawlNews/ -- 项目主目录 ----CrawlNews/ ------spiders/ --------__init__.py -- 初始化脚本 --------most_gov.py -- 爬取most.gov.cn,解析静态页面,指定爬取目录暴力搜索,依赖于爬取目录的设置,数据不够完整,但可重塑性大 --------most_gov_api.py -- 爬取most.gov.cn,解析动态数据,使用网站的搜索接口,直接获取json数据,处理极其简单,数据完整但功能受限 --------cast_org.py -- 爬取cast.org.cn(待完成) --------test_parse.py -- 测试解析页面的爬虫 ------__init__.py ------items.py -- Items代码模板(继承类) ------middlewares.py -- Middlewares代码模板(继承类) ------pipelines.py -- Pipelines代码模板(继承类) ------settings.py -- Scrapy爬虫的优化配置文件 ----main.py -- 为方便PyCharm使用scrapy,根据需要修改内容,然后运行该.py启动相应爬虫,以方便调试等 ----news_list.xlsx -- 结果保存文件 ----NewsInfo.txt -- 保存到文本(可选) ----requirements.txt -- 项目依赖的python包 ----scrapy.cfg -- 部署Scrapy爬虫的配置文件 ``` #### 安装教程 1. pip install -r requirements.txt 2. cd CrawlNews 3. - scrapy crawl most_gov (命令行方式) - main.py (PyCharm方式) #### 使用说明 1. 安装依赖包 2. 进入项目目录 3. 运行相应爬虫 #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)