1 Star 0 Fork 0

陈学蕾/python-scrapy

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

scrapy.cfg 项目的配置文件

test_scrapy --items.py 项目中的 item 文件,定义栏目 --pipelines.py 项目中的 piplines 文件,存储数据 --settings.py 项目的设置文件 --spiders/ 放置 spiders 代码的目录

启动 --cd test_scrapy --scrapy crawl IT_charge

https://blog.csdn.net/xutengfei999/article/details/121122163 82.157.63.50

gerapy runserver 127.0.0.1:8000 scrapyd-deploy zhengwu -p test_scrapy scrapyd-deploy -l scrapy list

docker logs -f c2220df25f4b --tail=500

curl.exe http://localhost:6800/schedule.json -d project=test_scrapy -d spider=BlogSpider

1、获取状态 http://localhost:6800/daemonstatus.json 2、获取项目列表 http://localhost:6800/listprojects.json 3、获取项目下已发布的爬虫列表 http://localhost:6800/listspiders.json?project=myproject 5、获取爬虫运行状态 http://localhost:6800/listjobs.json?project=myproject 6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫) http://localhost:6800/schedule.json (post 方式,data={"project":myproject,"spider":myspider}) 7、删除某一版本爬虫 http://localhost:6800/delversion.json (post 方式,data={"project":myproject,"version":myversion}) 8、删除某一工程,包括该工程下的各版本爬虫 http://localhost:6800/delproject.json(post 方式,data={"project":myproject}

windows 安装部署 (参考链接:https://blog.csdn.net/qq_43557600/article/details/108762463) Linux 部署问题解决 (参考链接:https://blog.csdn.net/weixin_44683338/article/details/133415081)

1、安装 python 3.8

2、pip install 相关依赖,工具类、gerapy、scrapy (如果包有缺失,缺少什么就 install 什么) pip install beautifulsoup4==4.12.3 pip install Scrapy==2.11.2 pip install beautifulsoup4==4.12.3 pip install beautifulsoup4==4.12.3 pip install scrapyd==1.4.3 pip install scrapyd-client==1.2.3 pip install snowflake==0.11.0 pip install toollib==1.5.6 pip install gerap==0.9.13 pip install PyMySQL==1.1.1

3、启动 scrapyd cmd 中执行 scrapyd

4、新建文件,进入建好的文件夹,打开命令行窗口输入 gerapy init 进入 gerapy 目录下,输入 gerapy migrate

gerapy initadmin # 这是初始化用户,账号密码都是 admin,这样一般用在测试环境中

gerapy createsuperuser # 创建自定义账号 gerapy runserver 127.0.0.1:8000 # 在本地也可以直接 gerapy ruserver 就行

Linux 中部署

--安策 47.97.82.166 root/6bdy8FnyuJbrs6ce /home/python_xlc

docker save python_fcm_spider_runc:1.0.1 |gzip > python_fcm_spider_runc.tgz

docker save germey/gerapy:latest |gzip > gerapy.tgz

#docker save 完成后 直接 docker load docker load -i python_fcm_spider_runc.tgz docker load -i gerapy.tgz

cd /home/python_xlc

docker pull germey/gerapy mkdir -p /home/python_xlc/gerapy #docker run -d --name gerapy -v /home/python_xlc/gerapy:/app/gerapy -p 8000:8000 germey/gerapy docker run -d --name gerapy -v /home/python_xlc/gerapy:/app/gerapy -p 30801:8000 germey/gerapy

#docker run -d -p 6800:6800 python_fcm_spider_runc:1.0.1 docker run -d -p 30802:6800 python_fcm_spider_runc:1.0.1

docker logs -f a9cbc52dc0b7 --tail=500

#本地文件部署到 gerapy 服务中 打包 scrapy 项目为 zip,可以上传到 greapy 管理系统中,打包的是 gerapy 文件夹下 projects 下的 test_scrapy 文件夹

gerapy 修改密码

http://82.157.63.50:8000/admin/ 进入左上角 chang password http://82.157.63.50:8000/admin/password_change/

默认账号密码:admin/admin 修改后账号密码:admin/gsmin123

空文件

简介

python 爬虫服务 使用scrapyd + greapy 部署爬虫服务 展开 收起
取消

发行版

暂无发行版

贡献者

全部

语言

近期动态

不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/chenxuelei/python-scrapy.git
git@gitee.com:chenxuelei/python-scrapy.git
chenxuelei
python-scrapy
python-scrapy
master

搜索帮助