1 Star 0 Fork 0

pikachu / scrapy-plus-bak

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

ScrapyPlus

该项目是一个名为 ScrapyPlus 的爬虫框架,基于scrapy为基础,旨在提供更多功能和定制选项,以满足特定需求。

框架特点

  • 修改基础的爬虫队列,具备ack机制确保任务完整性

  • 提供数据验证功能的item

  • 标准话写数据库

  • 内置中间件包括但不限于(附加tls指纹,重试,图片下载)

  • 内置若干场景的pipeline

  • prometheus+grafana监控

  • 代理平台

目录结构

  • ScrapyPlus/: 主目录。
    • README.md: 项目说明文档。
    • base_spider/: ScrapyPlus框架的主要模块。
      • base_spider/: 基础爬虫模块。
        • items.py: 定义爬虫数据结构。
        • middlewares.py: 中间件配置。
        • pipelines.py: 管道配置。
        • settings.py: 项目设置。
        • spiders/: 爬虫模块。
          • example.py: 示例爬虫。
          • js_sports_core.py: 爬虫。
          • js_sports_search.py: 爬虫。
          • skin.py: 爬虫。
        • task_queues/: 任务队列模块。
          • web_core.py: Web核心任务队列。
          • web_search.py: Web搜索任务队列。
    • scrapy.cfg: Scrapy配Ω置文件。
    • requirements.txt: 项目依赖。
    • site_packages/: 项目自定义包。
      • init.py: 初始化文件。
      • base_client.py: 基础客户端。
      • base_crawler.py: 基础爬虫。
      • base_engine.py: 基础引擎。
      • base_item.py: 基础数据结构。
      • base_middlewares.py: 基础中间件。
      • base_pipeline.py: 基础管道。
      • base_scheduler.py: 基础调度器。
      • base_settings.py: 基础设置。
      • database_config.yaml: 数据库配置。
      • prometheus_server.py: Prometheus服务器。
      • runner.py: 运行器。
      • task_queue_manager.py: 任务队列管理器。
    • spider/: 爬虫模块。
      • init.py: 初始化文件。
      • base_spider.py: 基础爬虫类。
    • utils/: 实用工具模块。
      • init.py: 初始化文件。
      • common.py: 通用工具函数。
      • module_time.py: 模块时间工具。

爬虫使用

在spider中开发下建议使用

CUSTOM_SETTINGS = copy.deepcopy(YOUR_SETTINGS)
CUSTOM_SETTINGS.update({
    'DEBUGGER': True,
    'LOG_LEVEL': 'DEBUG',
})

由于使用默认的scrapy-redis指纹过滤,需要在Request中添加dont_filter=True,

空文件

简介

备份仓库,用于重构scrapy-plus项目 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/uraurara/scrapy-plus-bak.git
git@gitee.com:uraurara/scrapy-plus-bak.git
uraurara
scrapy-plus-bak
scrapy-plus-bak
master

搜索帮助

344bd9b3 5694891 D2dac590 5694891