1 Star 0 Fork 0

亍丶伊 / cy_spider

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

cy_spider

项目结构

cy_spider
├─bin 执行脚本
│  ├─run.bat 执行(windows)
│  └─run.sh  执行(mac、linux)
├─cy_spider 爬虫相关
│  │─file 谷歌浏览器驱动文件(需浏览器渲染完才能抓取时使用)
│  │─spiders 爬虫
│  │    ├─BaseSpider.py  爬虫父类
│  │    ├─XiaoBeiSpider.py 小贝PS教程视频爬虫
│  │    └─AnimeSpider.py 阿里漫画爬虫
│  ├─items.py 指定保存文件的数据结构
│  ├─middlewares.py  中间件,处理request和reponse等相关配置
│  └─pipelines.py 项目管道,可以输出items
│  └─settings.py  设置文件,指定项目的一些配置
├─util 工具类
│  ├─cy_logger.py 日志
│  ├─sqlite3_util.py sqlite3工具类
│  └─sqlite3_util_test.py sqlite3工具类使用方式
├─scrapy.cfg scrapy配置 
├─README.md 说明文件
├─requirements.txt 依赖包
└─run.py 执行

依赖包

命令行安装
pip install scrapy
pip install selenium
pip install pypiwin32
也可以使用下面命令批量安装(本人本地环境,有些可以不安装)
pip install -r requirements.txt
选择安装
pip install pymysql
pip install qiniu
pip install DBUtils
pip install bs4
pip install PyExecJS

如windows安装scrapy失败手动下载安装twisted,后安装scrapy

  • 下载twisted
  • pip install Twisted-18.9.0-cp37-cp37m-win_amd64.whl

执行

根目录执行
scrapy crawl 爬虫名称 -s LOG_FILE=/logs/spider.log
IDEA 直接执行run.py文件

效果

小贝PS教程视频

输入图片说明

阿里漫画-斗罗大陆

输入图片说明

其它

空文件

简介

python 爬虫 小贝PS视频教程 漫画 阿里漫画 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/bzj/cy_spider.git
git@gitee.com:bzj/cy_spider.git
bzj
cy_spider
cy_spider
master

搜索帮助