Web爬虫 - Web爬虫 - 最新推荐项目

烈冰/go_sexy

Go语言版本妹子图抓取爬虫，项目里用到很多go的语言特性。正所谓寄学习于娱乐，欣赏妹子的同时还可以学到东西，欢迎大家评鉴

Web爬虫

5年多前

Jack.arain/tianya

使用boost.asio+qt实现的tianya小说阅读器，主要抓爬天涯各种网络小说，支持脱水，排序，下载等功能。该项目也是一个学习asio编程，特定目标爬虫编程的好示范。

C++

Web爬虫

9年多前

[爬虫框架 (golang)] An awesome Go concurrent Crawler(spider) framework. The crawler is flexible and modular. It can be expanded to a Individualized crawler easily or can only use the default crawl components.

Web爬虫

9年前

mrwang1992/doubangroupspider

一个scrapy爬虫项目，用来进行学习爬虫，提交到开源中国是为了顺便学习git。

Python

Web爬虫

8年多前

rock117/web-crawler

一个简单的web爬虫，采用scala akka实现

Scala

Web爬虫

9年多前

logic/QuickCompanyCollect

运行于java环境的一个免费开源的企业信息采集器（简单的java网络爬虫）。信息采集完成后自动导出Excel表格。基于Jsoup+Poi+Sqlite开发完成。

Java

Web爬虫

6年前

CrawlScript/ContentExtractor

自动抽取网页正文的算法，用JAVA实现

Web爬虫

暂未更新

panmingguang/cocook-spider

分布式数据抓取平台

Java

Web爬虫

8年前

xautlx/nutch-htmlunit

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件，镜像自：https://github.com/xautlx/nutch-htmlunit

Java

Web爬虫

9年前

Cherokee/neocrawler

牛咖-neocrawler nodejs 的爬虫系统。特点：支持web界面方式的摘取规则配置（css selector & regex）；包含无界面的浏览器引擎（phantomjs），支持js产生内容的抓取；用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽； nodejs none-block 异步环境下的抓取性能比较高；中央调度器负责网址的调度（同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量；支持多种抓取实例并存，定制摘取引擎和存储方式。

NodeJS

Web爬虫

接近7年前

黄亿华/webmagic

webmagic 是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

Java

Web爬虫

接近2年前

medcl/gopa

A lightweight spider for Elasticsearch.

Web爬虫

接近6年前

aming/ebookapp

基于bootstrap的php小说采集系统

PHP

Web爬虫

7年前

自风/Spiderman

强力 Java 爬虫，列表分页、详细页分页、ajax、微内核高扩展、配置灵活

Java

Web爬虫

1年前

智能硬件	IOT/物联网/边缘计算
车载应用	智能家居
自动驾驶/无人机	机器人
5G/通讯	低代码
科研论文	量子计算
芯片开发	Web 3.0
隐私计算	云原生

按钮(Button)	文本框(EditText)	布局(Layout)	图形图像(Image)
进度条(Progress)	菜单(Menu)	弹窗(Popup)	选择器(Selector)
文本组件(TextView)	列表组件(ListView)	加载器(Loading)	提醒(Notification)
视图切换(View Transition)	滑杆(Slider)	图表(Chart)	绘图组件(Draw)
计数器(Counter)	动画(Animate)	验证码(Captcha)	多媒体(Multimedia)
条形码(Barcode)	高级UI组件	地图(Map)	OpenHarmony 游戏(Gaming)
网络(Networking)	通讯(Communication)	支付(Payment)	数据库(Database)
硬件驱动(Drivers)	OpenHarmony 教程指南	OpenHarmony工具集	OpenHarmony 应用
华为移动服务(HMS)	权限(Permissions)	工具包(Toolkit)	底层组件
手势控制(Gesture)

中英文分词	支付开发包	安全开发相关	常用工具包
Excel工具包	条形码/二维码	模板引擎	桌面UI组件/框架
网络开发包	语音处理	网络工具	网络服务
数据挖掘	作业/任务调度	编程语言/脚本语言	缓存组件
Markdown工具包	搜索引擎	微服务	工作流
图表组件	权限管理	报表工具	代码生成器
IoC/AOP框架	图像处理	规则引擎	JSON工具
日志工具包	Spring Boot 扩展	验证码	算法/数学计算
Node 扩展	流程引擎/工具	动画开发	移动通信

AI-人工智能	VR/AR
机器学习/深度学习	计算机视觉/人脸识别
自然语言处理	大模型

微信开发包	微信小程序/小游戏
微信应用	微信小游戏

烈冰/go_sexy

Jack.arain/tianya

calvinwilliams/simspider

胡户主/go_spider

mrwang1992/doubangroupspider

rock117/web-crawler

logic/QuickCompanyCollect

CrawlScript/ContentExtractor

panmingguang/cocook-spider

xautlx/nutch-htmlunit

Cherokee/neocrawler

黄亿华/webmagic

medcl/gopa

aming/ebookapp

自风/Spiderman

搜索帮助