# scrapy+++ **Repository Path**: w353333695/scrapy ## Basic Information - **Project Name**: scrapy+++ - **Description**: scrapy实验,内置一些常用中间键和管道 item管道:MySQL,Elasticsearch,MongoDB 中间键:随机User-Agent,随机IP-proxy,selenium渲染 模块:HTML标签清洗,上传自定义project模板,上传自定义spider模板,天津的url加密懒得弄js环境,写了个aes加密方法 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2021-11-25 - **Last Updated**: 2024-02-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: Scrapy, gerapy, Spider, 标讯 ## README # scrapy+++ #### 介绍 scrapy实验,标讯爬虫,内置一些常用中间键和管道 item管道:MySQL,Elasticsearch,MongoDB 中间键:随机User-Agent,随机IP-proxy,selenium渲染 模块:HTML标签清洗,上传自定义project模板,上传自定义spider模板,天津的url加密懒得弄js环境,写了个aes加密方法 菜鸡一枚,都是对现有模块的应用,代码写的比较辣鸡 #### 软件架构 scrapy实验,基于scrapy #### 安装教程 0. pip install -r ./requirements.txt 1. 用的gerapy模块,基于scrapy,scrapyd和Django开发的爬虫部署管理工具,可以方便的远程多终端管理scrapy项目,有兴趣可自行百度,内置pymysql,pymongo,redis,splash……等常用模块。 #### 使用说明 0. ./bid/tools.py写了几个方法,简介里说了,不在赘言,可自行查看。 1. 本地部署gerapy 2. 服务器或者docker部署scrapy及scrapyd环境 3. 拷贝scrapy项目至gerapy/projects目录下 4. 启动gerapy服务,浏览器登陆本地对应端口(好像是Django的默认端口8000)即可可视化部署管理scrapy项目,基本傻瓜式 #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)