代码拉取完成,页面将自动刷新
项目结构
cy_spider
├─bin 执行脚本
│ ├─run.bat 执行(windows)
│ └─run.sh 执行(mac、linux)
├─cy_spider 爬虫相关
│ │─file 谷歌浏览器驱动文件(需浏览器渲染完才能抓取时使用)
│ │─spiders 爬虫
│ │ ├─BaseSpider.py 爬虫父类
│ │ ├─XiaoBeiSpider.py 小贝PS教程视频爬虫
│ │ └─AnimeSpider.py 阿里漫画爬虫
│ ├─items.py 指定保存文件的数据结构
│ ├─middlewares.py 中间件,处理request和reponse等相关配置
│ └─pipelines.py 项目管道,可以输出items
│ └─settings.py 设置文件,指定项目的一些配置
├─util 工具类
│ ├─cy_logger.py 日志
│ ├─sqlite3_util.py sqlite3工具类
│ └─sqlite3_util_test.py sqlite3工具类使用方式
├─scrapy.cfg scrapy配置
├─README.md 说明文件
├─requirements.txt 依赖包
└─run.py 执行
依赖包
命令行安装
pip install scrapy
pip install selenium
pip install pypiwin32
也可以使用下面命令批量安装(本人本地环境,有些可以不安装)
pip install -r requirements.txt
选择安装
pip install pymysql
pip install qiniu
pip install DBUtils
pip install bs4
pip install PyExecJS
如windows安装scrapy失败手动下载安装twisted,后安装scrapy
执行
根目录执行
scrapy crawl 爬虫名称 -s LOG_FILE=/logs/spider.log
IDEA 直接执行run.py文件
效果
小贝PS教程视频
阿里漫画-斗罗大陆
其它
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。