Web爬虫 - Web爬虫 - 开源软件

登录注册

开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们

开源企业版高校版私有云 Gitee AI ^NEW

查看详情

登录注册

全部推荐项目

前沿技术

智能硬件	IOT/物联网/边缘计算
车载应用	智能家居
自动驾驶/无人机	机器人
5G/通讯	低代码
科研论文	量子计算
芯片开发	Web 3.0
隐私计算	云原生

OpenHarmony

按钮(Button)	文本框(EditText)	布局(Layout)	图形图像(Image)
进度条(Progress)	菜单(Menu)	弹窗(Popup)	选择器(Selector)
文本组件(TextView)	列表组件(ListView)	加载器(Loading)	提醒(Notification)
视图切换(View Transition)	滑杆(Slider)	图表(Chart)	绘图组件(Draw)
计数器(Counter)	动画(Animate)	验证码(Captcha)	多媒体(Multimedia)
条形码(Barcode)	高级UI组件	地图(Map)	OpenHarmony 游戏(Gaming)
网络(Networking)	通讯(Communication)	支付(Payment)	数据库(Database)
硬件驱动(Drivers)	OpenHarmony 教程指南	OpenHarmony工具集	OpenHarmony 应用
华为移动服务(HMS)	权限(Permissions)	工具包(Toolkit)	底层组件
手势控制(Gesture)

程序开发

中英文分词	支付开发包	安全开发相关	常用工具包
Excel工具包	条形码/二维码	模板引擎	桌面UI组件/框架
网络开发包	语音处理	网络工具	网络服务
数据挖掘	作业/任务调度	编程语言/脚本语言	缓存组件
Markdown工具包	搜索引擎	微服务	工作流
图表组件	权限管理	报表工具	代码生成器
IoC/AOP框架	图像处理	规则引擎	JSON工具
日志工具包	Spring Boot 扩展	验证码	算法/数学计算
Node 扩展	流程引擎/工具	动画开发	移动通信

人工智能

AI-人工智能 VR/AR

机器学习/深度学习计算机视觉/人脸识别

自然语言处理大模型
区块链

数字货币 NFT
微信开发

微信开发包微信小程序/小游戏

微信应用微信小游戏
企业应用

任务/项目管理企业应用系统

BI-商业智能金融/股票证券

GIS/地图/导航/定位
建站系统

CMS建站系统新零售/网店/商城

BBS论坛/问答博客系统

问卷调查/表单系统 SNS社交系统

学校/教学管理相册/画廊/照片

RSS/Atom工具
应用工具

文件管理工具多媒体

文本编辑 IM即时通讯/聊天

应用软件 RPA-机器人过程自动化

WEB应用开发

Web开发框架	jQuery插件
WebUI组件/框架	JavaScript工具包
RESTful项目	后台管理框架
网站主题	Vue扩展组件
Web爬虫	OAuth/单点登录/统一认证
Angular扩展	Bootstrap扩展插件
React 组件	RPC开发框架
API 网关/接口管理	短网址
layui 组件

DevOps/运维/网管

网管工具监控系统

DevOps工具

手机/移动开发

Android组件/项目	iOS组件
移动App	支付宝小程序
百度小程序	PhoneGap/Cordova 插件
跨平台移动开发	快应用
TV/电视开发	uniapp 开源组件

开发工具

版本管理系统开发/调试

Wiki/文档工具编译/构建/部署

Maven 插件 Gulp 扩展

测试工具代码扫描分析

服务器应用

分布式服务/框架	消息服务器/消息队列
Docker相关	容器/虚拟机
Nginx扩展模块	大数据
云计算	一键安装包
OpenResty 扩展	系统性能优化
Serverless	分布式存储系统

数据库相关

数据库开发包数据库服务

数据库管理/监控
游戏/娱乐

游戏游戏开发

3D引擎
插件和扩展

Chrome扩展 WordPress 扩展

Eclipse插件 IDEA 插件

Firefox扩展 Safari 插件

Visual Studio Code 扩展 Jenkins 插件

其他开源

高仿项目	图书/手册/教程
ACM/OJ 项目	操作系统
教学管理	教程配套代码
RISC-V 开发	生物/医疗/健康
2020公益黑客马拉松	新冠病毒相关开源

WEB应用开发

Web爬虫

开源许可

MulanPSL-2.0 0BSD AFL-3.0 AGPL-3.0 Apache-2.0 Artistic-2.0 BSD-2-Clause BSD-3-Clause BSD-3-Clause-Clear BSL-1.0 CC-BY-4.0 CC-BY-SA-4.0 CC0-1.0 ECL-2.0 EPL-1.0 EPL-2.0 EUPL-1.1 EUPL-1.2 GPL-2.0 GPL-3.0 ISC LGPL-2.1 LGPL-3.0 LPPL-1.3c MIT MPL-2.0 MS-PL MS-RL MulanPSL-1.0 MulanPubL-1.0 MulanPubL-2.0 NCSA OFL-1.1 OSL-3.0 PostgreSQL UPL-1.0 Unlicense WTFPL Zlib

全部语言

Java JavaScript HTML CSS Python Shell C C++ PHP C# TypeScript Go Objective-C Android Kotlin Ruby Assembly Swift NodeJS Perl Dart Lua Matlab 其他 Rust PowerShell HTML/CSS 微信 Scala Groovy C/C++ XSLT Verilog R Docker QML Pascal CoffeeScript FORTRAN Erlang ActionScript Emacs Lisp Smalltalk SQL Delphi TeX/LaTeX VHDL ASP Visual Basic M Clojure Common Lisp Haskell Awk LiveScript Elixir Scheme 易语言 Julia OCaml Puppet YAML AutoHotkey Ada Pawn Standard ML D XML Arduino Logos VimL Prolog 汇编 Haxe ColdFusion Vala Crystal Scilab Coq Racket Lisp Slash Eiffel eC DOT Zephir Nemerle

Stars

Stars 最新推荐最近更新

诗酒年华/PageSpider

一个简单的页面爬虫工具，适用爬取不太复杂的网页中的图片和文本。

Web爬虫

5年多前

xiyuan0918/ppspider

web spider build with puppeteer

TypeScript

Web爬虫

4年前

singlekk/awesome-python-login-model

python模拟登陆一些大型网站，还有一些简单的爬虫

Python

教程配套代码 Web爬虫

接近4年前

李争献/SpiderByScala

用Scala写的小爬虫，用到Java里的HttpClient，Jsoup等包，由于Scala基于Java，且作为Spark的源语言，以后可以考虑用集群来跑

Scala

Web爬虫

9年前

junyiz/dature

基于 Node.js 的新浪博客备份程序

NodeJS

Web爬虫

1年前

Cherokee/arex

nodejs article extractor

NodeJS

Web爬虫

2年多前

xiaominger/StockCrawler

股票数据采集器

Ruby

Web爬虫金融/股票证券

9年多前

flyer555/webrobot

# 1、为门户网站、业务管理系统建立可调试的自动任务采集系统； # 2、建立自动化可视化的前端测试系统 # 3、人工智能的业务采集与集成系统

JavaScript

Web爬虫

1年多前

lg0322/FilmSpider

基于java的爬虫系统，可爬取国内主流视频网站的视频数据，目前支持爬取豆瓣、猫眼、IMDB、百度百科、优酷、电视猫数据。

Java

Web爬虫

接近3年前

Gitee 极速下载/XCrawler

XCrawler - 轻量级、易维护的PHP爬虫框架特性: 极易上手，具备完善的文档和示例支持多并发爬取支持基于 xpath、css 选择器解析内容模拟浏览器行为，如 us

PHP

Web爬虫

3年多前

galoS/17KSpider

17K小说网定向爬虫

Python

Web爬虫

6年多前

ggymm/spider

puppeteer实现爬虫，使用typescript开发

TypeScript

Web爬虫

5年前

崔俊/phpDhtSpider

php实现的dht爬虫（分布式）

PHP

Web爬虫

6年多前

山东小木/jfinal_jsoup_meinvtu

JFinal+JSoup开发的爬虫案例—抓美女

Java

Web爬虫

接近5年前

空无一物/GuaZi_Spider

GuaZi_Spider 瓜子二手车 scrapy 爬虫，突破瓜子网反爬实践。

Python

Web爬虫

4年多前

1 2

...

8 9 10 11 12

...

14 15

今日热门

本周热门

AJay13/ECommerceCrawlers

4.2K

实战多种网站、电商数据爬虫。包含：淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目:

ssssssss-team/spider-flow

7.6K

新一代爬虫平台，以图形化方式定义爬虫流程，不写代码即可完成爬虫。

ecitlm/Node-SpliderApi

537

基于node+express爬虫 API接口项目,包括全国高校信息、成语诗歌、星座运势、历史的今天、音乐数据接口、图片壁纸、搞笑视频、热点新闻资讯详情接口数据

fffonion/JJGet

晋江小说下载器镜像自 https://github.com/fffonion/jjget

zorlan/蓝天采集器

803

蓝天采集器是一款开源免费的爬虫系统，仅需点选编辑规则即可采集数据，可运行在本地、虚拟主机或云服务器中，几乎能采集所有类型的网页，无缝对接各类CMS建站程序，免登录实时发布数据，全自动无需人工干预！是网页大数据采集软件中完全跨平台的云端爬虫系统

bilibala/YiSpider