Web爬虫 - Python - Web爬虫 - 热门项目 - Gitee.com

开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们

开源企业版高校版私有云 Gitee AI ^NEW

全部推荐项目

智能硬件	IOT/物联网/边缘计算
车载应用	智能家居
自动驾驶/无人机	机器人
5G/通讯	低代码
科研论文	量子计算
芯片开发	Web 3.0
隐私计算	云原生

按钮(Button)	文本框(EditText)	布局(Layout)	图形图像(Image)
进度条(Progress)	菜单(Menu)	弹窗(Popup)	选择器(Selector)
文本组件(TextView)	列表组件(ListView)	加载器(Loading)	提醒(Notification)
视图切换(View Transition)	滑杆(Slider)	图表(Chart)	绘图组件(Draw)
计数器(Counter)	动画(Animate)	验证码(Captcha)	多媒体(Multimedia)
条形码(Barcode)	高级UI组件	地图(Map)	OpenHarmony 游戏(Gaming)
网络(Networking)	通讯(Communication)	支付(Payment)	数据库(Database)
硬件驱动(Drivers)	OpenHarmony 教程指南	OpenHarmony工具集	OpenHarmony 应用
华为移动服务(HMS)	权限(Permissions)	工具包(Toolkit)	底层组件
手势控制(Gesture)

中英文分词	支付开发包	安全开发相关	常用工具包
Excel工具包	条形码/二维码	模板引擎	图形UI组件/框架
网络开发包	语音处理	网络工具	网络服务
数据挖掘	作业/任务调度	编程语言/脚本语言	缓存组件
Markdown工具包	搜索引擎	微服务	工作流
图表组件	权限管理	报表工具	代码生成器
IoC/AOP框架	图像处理	规则引擎	JSON工具
日志工具包	Spring Boot 扩展	验证码	算法/数学计算
Node 扩展	流程引擎/工具	动画开发	移动通信

人工智能

AI-人工智能 VR/AR

机器学习/深度学习计算机视觉/人脸识别

自然语言处理大模型
区块链

数字货币 NFT
微信开发

微信开发包微信小程序/小游戏

微信应用微信小游戏
企业应用

任务/项目管理企业应用系统

BI-商业智能金融/股票证券

GIS/地图/导航/定位工程软件
建站系统

CMS建站系统新零售/网店/商城

BBS论坛/问答博客系统

问卷调查/表单系统 SNS社交系统

学校/教学管理相册/画廊/照片

RSS/Atom工具
应用工具

文件管理工具多媒体

文本编辑 IM即时通讯/聊天

应用软件 RPA-机器人过程自动化

WEB应用开发

Web开发框架	jQuery插件
WebUI组件/框架	JavaScript工具包
RESTful项目	后台管理框架
网站主题	Vue扩展组件
Web爬虫	OAuth/单点登录/统一认证
Angular扩展	Bootstrap扩展插件
React 组件	RPC开发框架
API 网关/接口管理	短网址
layui 组件

DevOps/运维/网管

网管工具监控系统

DevOps工具

手机/移动开发

Android组件/项目	iOS组件
移动App	支付宝小程序
百度小程序	PhoneGap/Cordova 插件
跨平台移动开发	快应用
TV/电视开发	uniapp 开源组件

开发工具

版本管理系统开发/调试

Wiki/文档工具编译/构建/部署

Maven 插件 Gulp 扩展

测试工具代码扫描分析

服务器应用

分布式服务/框架	消息服务器/消息队列
Docker相关	容器/虚拟机
Nginx扩展模块	大数据
云计算	一键安装包
OpenResty 扩展	系统性能优化
Serverless	分布式存储系统

数据库相关

数据库开发包数据库服务

数据库管理/监控
游戏/娱乐

游戏游戏开发

3D引擎
插件和扩展

Chrome扩展 WordPress 扩展

Eclipse插件 IDEA 插件

Firefox扩展 Safari 插件

Visual Studio Code 扩展 Jenkins 插件

高仿项目	图书/手册/教程
ACM/OJ 项目	操作系统
教学管理	教程配套代码
RISC-V 开发	生物/医疗/健康
2020公益黑客马拉松	新冠病毒相关开源

WEB应用开发

/

Web爬虫

MIT

全部项目 MulanPSL-2.0 0BSD AFL-3.0 AGPL-3.0 Apache-2.0 Artistic-2.0 BSD-2-Clause BSD-3-Clause BSD-3-Clause-Clear BSD-4-Clause BSL-1.0 CC-BY-4.0 CC-BY-SA-4.0 CC0-1.0 CECILL-2.1 CERN-OHL-P-2.0 CERN-OHL-S-2.0 CERN-OHL-W-2.0 ECL-2.0 EPL-1.0 EPL-2.0 EUPL-1.1 EUPL-1.2 GFDL-1.3 GPL-2.0 GPL-3.0 ISC LGPL-2.1 LGPL-3.0 LPPL-1.3c MIT-0 MPL-2.0 MS-PL MS-RL MulanPSL-1.0 MulanPubL-1.0 MulanPubL-2.0 NCSA ODbL-1.0 OFL-1.1 OSL-3.0 PostgreSQL UPL-1.0 Unlicense Vim WTFPL Zlib

Python

全部语言 Java JavaScript HTML CSS C Shell C++ PHP TypeScript C# Go Objective-C Android Kotlin Ruby Assembly Swift NodeJS Perl Dart Lua Matlab Rust 其他 PowerShell HTML/CSS 微信 Scala Groovy C/C++ XSLT Verilog R QML Pascal Docker CoffeeScript FORTRAN Erlang Emacs Lisp ActionScript SQL Smalltalk Delphi VHDL M TeX/LaTeX ASP Visual Basic Clojure Common Lisp Awk LiveScript Haskell Scheme Elixir Julia 易语言 OCaml YAML AutoHotkey Puppet Pawn Ada D Standard ML XML Arduino Logos Prolog VimL 汇编 Coq Haxe Vala ColdFusion Crystal Scilab Racket Lisp Slash Eiffel eC DOT Zephir Nemerle

Stars

Stars 最新推荐最近更新

AJay13/ECommerceCrawlers

GVP

4.8K

实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:

|

9个月前

shengqiangzhang/examples-of-web-crawlers

519

一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。(Some interesting examples of python crawlers that are friendly to beginners. )

|

2年多前

DTC2/ECommerceCrawlers

440

实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众点评、闲鱼、阿里任务、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家️️️

|

4年前

resolvewang/WeiboSpider

359

分布式微博爬虫。抓取内容包括微博用户资料、微博信息、评论信息和转发信息。目前专注于微博数据抓取本身，正在快速迭代。如果觉得有帮助，不妨到github上给我点个star，osc上可能不会再继续更新了

|

7年前

mktime/scrapy-douban-group

357

通过一个实际的项目，来学习如何使用scrapy爬取网络上的信息。这里以豆瓣小组为例，对组内的图片进行爬取，相关信息保存数据到MongoDB，图片下载到本地。

|

3年多前

博众科技/feapder

90

feapder是一款支持分布式、批次采集、任务防丢、报警丰富的python爬虫框架

|

28天前

Herche Jane/IntelliScraper

54

它是一个先进的网络爬虫工具，利用 BeautifulSoup 和机器学习技术实现高效的数据提取和分析。

|

10个月前

tansty/CSDN-spider

51

爬取csdn的文章并转换为md格式

|

4年前

dwbmio/scrapy_proj

42

因为是oschina所有都是大中文了：）起因是看到一个网站很多kindle的资源丧心病狂想占为己有全部趴下来自然使用了scrapyscrapy刚需安装beautifulsoup刚需安装mongodb随存储方式安装python渣要开始啦

|

5年多前

kzeng/picpicker

41

根据图书ISBN抓图书封面图片的小程序

|

7年前

singlekk/awesome-python-login-model

13

python模拟登陆一些大型网站，还有一些简单的爬虫

教程配套代码 Web爬虫

|

4年多前

galoS/17KSpider

11

17K小说网定向爬虫

|

接近7年前

ZICK_ZEON/doufen

7

将你的豆瓣帐号数据备份到本地并支持脱机浏览来自豆瓣的朋友@tabris17，此项目已经停止维护

|

4年多前

alphardex/looter

6

A toolkit to help you make crawlers at ease.

|

4年多前

温良恭俭让/爬虫_百度贴吧

2

爬取百度贴吧指定的信息并保存；

|

接近6年前

1 2

今日热门

本周热门

AJay13/ECommerceCrawlers

4.8K

实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:

liweimin/爬虫代码片段拼多多，团油，抖店

41

pinduoduo店铺订单采集彩妆网商品采集团油油站油价采集 douyin 抖音店铺数据采集往约app数据采集快手视频批量上传抖音视频批量上传异步采集写真/头像登录农业银行钉钉商机西煤交易定时按键设备协会人员资质 liweimin@taiyuan

惊鸿一回车/WeChat_Article

194

爬取微信公众号文章

resolvewang/WeiboSpider

359

分布式微博爬虫。抓取内容包括微博用户资料、微博信息、评论信息和转发信息。目前专注于微博数据抓取本身，正在快速迭代。如果觉得有帮助，不妨到github上给我点个star，osc上可能不会再继续更新了

AJay13/ECommerceCrawlers

4.8K

实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:

惊鸿一回车/WeChat_Article

194

爬取微信公众号文章

博众科技/feapder

90

feapder是一款支持分布式、批次采集、任务防丢、报警丰富的python爬虫框架

liweimin/爬虫代码片段拼多多，团油，抖店

41

pinduoduo店铺订单采集彩妆网商品采集团油油站油价采集 douyin 抖音店铺数据采集往约app数据采集快手视频批量上传抖音视频批量上传异步采集写真/头像登录农业银行钉钉商机西煤交易定时按键设备协会人员资质 liweimin@taiyuan

DTC2/ECommerceCrawlers

440

实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众点评、闲鱼、阿里任务、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家️️️

shengqiangzhang/examples-of-web-crawlers

519

一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站。(Some interesting examples of python crawlers that are friendly to beginners. )

小码编程/scrapy_zhaopin

242

基于Python和Echarts职位画像系统，使用Scrapy抓取职位招聘数据，使用Django+echarts完成数据可视化

resolvewang/WeiboSpider

359

分布式微博爬虫。抓取内容包括微博用户资料、微博信息、评论信息和转发信息。目前专注于微博数据抓取本身，正在快速迭代。如果觉得有帮助，不妨到github上给我点个star，osc上可能不会再继续更新了

tikazyq/crawlab

790

Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台，支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架

深圳市奥思网络科技有限公司版权所有

Git 命令学习

CopyCat 代码克隆检测

APP与插件下载

Gitee 封面人物

Gitee 公益计划

Gitee 持续集成

在线自助服务

技术交流QQ群

微信服务号

client#oschina.cn

企业版在线使用：400-606-0201

专业版私有部署：

开放原子开源基金会

合作代码托管平台

违法和不良信息举报中心

粤ICP备12009483号

简体 / 繁體 / English

点此查找更多帮助

搜索帮助

Git 命令在线学习如何在 Gitee 导入 GitHub 仓库

Git 仓库基础操作

企业版和社区版功能对比

SSH 公钥设置

如何处理代码冲突

仓库体积过大，如何减小？

如何找回被删除的仓库数据

Gitee 产品配额说明

GitHub仓库快速导入Gitee及同步更新

什么是 Release（发行版）

将 PHP 项目自动发布到 packagist.org

回到顶部