1 Star 0 Fork 1

cpYang / Scrapy-Spider-based-on-Python3

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

网页爬虫设计

创建项目

  • 进入指定文件夹,右击空白处>在此处打开命令行窗口
  • 创建项目
Scrapy startproject DgSpider

主要代码文件说明

  • 爬虫主类 :UrlSpider.py、ContentSpider.py 项目包含2个爬虫主类,分别用于爬取文章列表页所有文章的URL、文章详情页具体内容
  • 内容处理类 :pipelines.py 处理内容
  • 传输字段类 :items.py 暂存爬取的数据
  • 设置文件 :settings.py 用于主要的参数配置
  • 数据库操作:mysqlUtils.py 链接操作数据库
  • 文本处理、上传文本:PostHandle.py 处理文本

空文件

简介

基于Python3的Scrapy网页爬虫框架 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/cpYang/Scrapy-Spider-based-on-Python3.git
git@gitee.com:cpYang/Scrapy-Spider-based-on-Python3.git
cpYang
Scrapy-Spider-based-on-Python3
Scrapy-Spider-based-on-Python3
master

搜索帮助