# RLinf **Repository Path**: mirrors/RLinf ## Basic Information - **Project Name**: RLinf - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-01-08 - **Last Updated**: 2026-01-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
RLinf-logo
Hugging Face Ask DeepWiki
[![English](https://img.shields.io/badge/lang-English-blue.svg)](README.md) [![简体中文](https://img.shields.io/badge/语言-简体中文-red.svg)](README.zh-CN.md)

RLinf: 为具身智能和智能体而生的强化学习框架

RLinf 是一个灵活且可扩展的开源框架,专为具身智能和智能体而设计。名称中的 “inf” 既代表 `Infrastructure`,强调其作为新一代训练坚实基础的作用;也代表 `Infinite`,寓意其支持开放式学习、持续泛化以及智能发展的无限可能。
RLinf-overview
## 最新动态 - [2025/12] 🔥 RLinf支持[Search-R1](https://github.com/PeterGriffinJin/Search-R1)的强化学习微调,相比原版实现加速 55%! 文档: [Search-R1](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/searchr1.html)。 - [2025/12] 🔥 RLinf v0.2-pre 发布!真机Franka的强化学习已经上线。 文档:[RL on Franka in the Real World](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/franka.html)。 - [2025/12] 🔥 基于[RoboCasa](https://github.com/robocasa/robocasa)的强化学习微调已经上线! 文档:[RL on RoboCasa](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/robocasa.html)。 - [2025/12] 🎉 RLinf正式发布[v0.1](https://github.com/RLinf/RLinf/releases/tag/v0.1)版本。 - [2025/11] 🔥 基于[CALVIN](https://github.com/mees/calvin)的强化学习微调已经上线! 文档:[RL on CALVIN](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/calvin.html)。 - [2025/11] 🔥 基于[IsaacLab](https://github.com/isaac-sim/IsaacLab)的强化学习微调已经上线! 文档:[RL on IsaacLab](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/isaaclab.html)。 - [2025/11] 🔥 RLinf现在已经支持强化学习微调[GR00T-N1.5](https://github.com/NVIDIA/Isaac-GR00T)!文档:[RL on GR00T-N1.5](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/gr00t.html)。 - [2025/11] 🔥 基于[Metaworld](https://github.com/Farama-Foundation/Metaworld)的强化学习微调已经上线! 文档:[RL on Metaworld](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/metaworld.html)。 - [2025/11] 🔥 基于[Behavior 1k](https://github.com/StanfordVL/BEHAVIOR-1K)的强化学习微调已经上线! 文档:[RL on Behavior 1k](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/behavior.html) 。 - [2025/11] lora微调支持π₀和π₀.₅模型。 - [2025/10] 🔥 π₀和π₀.₅模型的强化学习微调已经上线! 文档:[π₀和π₀.₅模型强化学习训练](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/pi0.html)。更多技术细节请参考:[π₀ 与 π₀.₅ 模型强化学习微调技术报告](https://arxiv.org/abs/2510.25889)。机器之心与具身智能之心报道:[《RLinf上新πRL:在线强化学习微调π₀ 和 π₀.₅》](https://mp.weixin.qq.com/s/dFlpmqmE0qfhOQmGG25X9g), [《清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案》](https://mp.weixin.qq.com/s/S51P-Y1UYXzumnZzon2N1g)。 - [2025/10] 🔥 RLinf 正式支持在线强化学习!文档:[coding_online_rl](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/coding_online_rl.html),同时发布文章 [《首个开源的Agent在线强化学习框架RLinf-Online!让你的Agent今天比昨天更聪明》](https://mp.weixin.qq.com/s/jmohmDokuWLhQHFueSHZIQ)。 - [2025/10] 🔥 RLinf算法技术报告 [《RLinf-VLA:一个统一且高效的VLA+RL训练框架》](https://arxiv.org/abs/2510.06710) 已正式发布。 - [2025/09] 🔥 [示例库](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/index.html) 已更新,用户可以在其中找到多种可直接使用的示例! - [2025/09] 🔥 我们的论文 [《RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation》](https://arxiv.org/abs/2509.15965)已正式发布。 - [2025/09] 🔥 机器之心关于 RLinf 的报道[《首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源》](https://mp.weixin.qq.com/s/Xtv4gDu3lhDDGadLrzt6Aw)已经发布。 - [2025/08] RLinf 已经开源,正式的 v0.1 版本即将发布。 ## ✨ 核心特性 ### 具身智能
模拟器 真机 模型 算法
### 智能体强化学习 智能体强化学习包括用于提升大语言模型推理能力的强化学习训练,例如[数学推理](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/reasoning.html);也包括针对各类智能体的强化学习训练,例如[编程智能体的在线强化学习训练](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/coding_online_rl.html)。我们相信,未来的具身智能也必将融合智能体的能力,以完成更复杂的任务。 ### 高灵活性、高效性与高可扩展性 除了上述丰富功能外,RLinf 还具有高度灵活性,可支持多种强化学习训练工作流(PPO、GRPO、SAC等),同时隐藏了分布式编程的复杂性。用户无需修改代码即可轻松将强化学习训练扩展至大量GPU节点,满足强化学习训练日益增长的计算需求。 这种高灵活性使 RLinf 能够探索更高效的调度与执行模式。在具身强化学习中,混合执行模式的吞吐量可达现有框架的 **2.434** 倍。 多后端集成支持 - FSDP + HuggingFace/SGLang/vLLM: 快速适配新模型与新算法,非常适合初学者和快速原型验证。 - Megatron + SGLang/vLLM: 针对大规模训练进行了优化,为专家用户提供最大化效率。 ## 快速开始 **安装步骤:** 请参考我们的[安装指南](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/start/installation.html)安装RLinf。鉴于具身强化学习的环境配置较为复杂,我们推荐直接使用我们提供的Docker镜像(即[安装方法一:Docker镜像](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/start/installation.html#installation-method-1-docker-image))。 **运行简单示例:** 环境配置完成后,用户可以参照[该文档](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/start/vla.html)的内容,运行基于ManiSkill3模拟器的具身强化学习基础示例。 用户可以查阅我们的[官方文档](https://rlinf.readthedocs.io/zh-cn/latest/index.html)与[示例库](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/index.html),来了解更多RLinf的使用教程与应用实例。 ## 主要成果 ### 具身智能 - RLinf 同时支持 PPO 与 GRPO 算法,为视觉-语言-动作(Vision-Language-Action, VLA)模型提供最先进的训练能力。 - 该框架与主流具身智能基准测试无缝集成,并在多样化的评测指标上均取得了优异表现。 #### OpenVLA 和 OpenVLA-OFT 结果
mani_openvla
OpenVLA
mani_openvlaoft
OpenVLA-OFT
- 在 ManiSkill 环境 “PutOnPlateInScene25Mani-v3” 上,使用 OpenVLA 与 OpenVLA-OFT 模型进行训练。结果显示,在 PPO 与 GRPO 算法的对比中,PPO 始终表现优于 GRPO,且训练过程更加稳定。
在 ManiSkill 上的评测结果。表中数值表示任务的成功率(Success Rate)
In-Distribution Out-Of-Distribution
Vision Semantic Execution Avg.
OpenVLA (Base) 53.91% 38.75% 35.94% 42.11% 39.10%
HFRL4VLA (PPO) 93.75% 80.47% 75.00% 81.77% 79.15%
HFOpenVLA (RLinf-GRPO) 84.38% 74.69% 72.99% 77.86% 75.15%
HFOpenVLA (RLinf-PPO) 96.09% 82.03% 78.35% 85.42% 81.93%
OpenVLA-OFT (Base) 28.13% 27.73% 12.95% 11.72% 18.29%
HFOpenVLA-OFT (RLinf-GRPO) 94.14% 84.69% 45.54% 44.66% 60.64%
HFOpenVLA-OFT (RLinf-PPO) 97.66% 92.11% 64.84% 73.57% 77.05%
统一模型在五个 LIBERO 任务组上的评测结果
Model Spatial Object Goal Long 90 Avg.
HFOpenVLA-OFT (Base) 72.18% 71.48% 64.06% 48.44% 70.97% 65.43%
HFOpenVLA-OFT (RLinf-GRPO) 99.40% 99.80% 98.79% 93.95% 98.59% 98.11%
Δ Improvement +27.22 +28.32 +34.73 +45.51 +27.62 +32.68
#### π0 and π0.5 Results
在四个LIBERO任务组上的评测结果
Model LIBERO
Spatial Object Goal Long Avg. Δ Avg.
Full Dataset SFT
Octo 78.9% 85.7% 84.6% 51.1% 75.1%
OpenVLA 84.7% 88.4% 79.2% 53.7% 76.5%
πfast 96.4% 96.8% 88.6% 60.2% 85.5%
OpenVLA-OFT 91.6% 95.3% 90.6% 86.5% 91.0%
π0 96.8% 98.8% 95.8% 85.2% 94.2%
π0.5 98.8% 98.2% 98.0% 92.4% 96.9%
Few-shot Dataset SFT + RL
π0 ModelScope HFSFT 65.3% 64.4% 49.8% 51.2% 57.6%
Flow-SDE 98.4% 99.4% 96.2% 90.2% 96.1% +38.5
Flow-Noise 99.0% 99.2% 98.2% 93.8% 97.6% +40.0
Few-shot Dataset SFT + RL
π0.5 ModelScope HFSFT 84.6% 95.4% 84.6% 43.9% 77.1%
Flow-SDE 99.6% 100% 98.8% 93.0% 97.9% +20.8
Flow-Noise 99.6% 100% 99.6% 94.0% 98.3% +21.2
### 数学推理
1.5B model results
Model AIME 24 AIME 25 GPQA-diamond Average
HFDeepSeek-R1-Distill-Qwen-1.5B (base model) 28.3324.9027.4526.89
HFDeepMath-1.5B 37.8030.4232.1133.44
HFDeepScaleR-1.5B-Preview 40.4130.9327.5432.96
HFAReaL-1.5B-Preview-Stage-3 40.7331.5628.1033.46
AReaL-1.5B-retrain* 44.4234.2733.8137.50
HFFastCuRL-1.5B-V3 43.6532.4935.0037.05
HFRLinf-math-1.5B 48.4435.6338.4640.84
\* 我们使用默认设置对模型进行了 600 步的重新训练。
7B model results
Model AIME 24 AIME 25 GPQA-diamond Average
HFDeepSeek-R1-Distill-Qwen-7B (base model) 54.9040.2045.4846.86
HFAReaL-boba-RL-7B 61.6649.3846.9352.66
HFSkywork-OR1-7B 66.8752.4944.4354.60
HFPolaris-7B-Preview 68.5551.2443.8854.56
HFAceMath-RL-Nemotron-7B 67.3055.0045.5755.96
HFRLinf-math-7B 68.3352.1948.1856.23
- RLinf 在数学推理任务上实现了当前最先进的性能,在多个基准测试(AIME 24、AIME 25、GPQA-diamond)中,1.5B 与 7B 规模的模型均稳定超越现有方法。 ## 路线图 ### 1. 系统级增强 - [X] 支持异构 GPU - [ ] 支持异步流水线执行 - [X] 支持专家混合(Mixture of Experts, MoE) ### 2. 应用级扩展 - [X] 支持视觉-语言模型(VLMs)训练 - [ ] 支持深度搜索智能体训练 - [ ] 支持多智能体训练 - [ ] 支持更多具身模拟器的集成 (如 [GENESIS](https://github.com/Genesis-Embodied-AI/Genesis), [RoboTwin](https://github.com/RoboTwin-Platform/RoboTwin)) - [ ] 支持更多VLA模型 (如[WALL-OSS](https://huggingface.co/x-square-robot/wall-oss-flow)) - [ ] 支持世界模型(World Model) - [x] 支持真实世界的具身智能强化学习 # 持续集成测试状态 RLinf 具有全面的 CI 测试,涵盖核心组件(通过单元测试)和具身、智能体和推理场景的端到端 RL 训练工作流。 以下是主分支 CI 测试状态的摘要: | 测试名 | 状态 | | -------- | ------ | | 单元测试 | GitHub Actions Workflow Status | | 智能体/推理端到端测试 | GitHub Actions Workflow Status | | 具身智能端到端测试 | GitHub Actions Workflow Status | | 调度器测试 | GitHub Actions Workflow Status | ## 贡献指南 我们欢迎对 RLinf 的贡献。在参与之前,请先阅读 [贡献指南](https://github.com/RLinf/RLinf?tab=contributing-ov-file#contributing-to-rlinf)。感谢以下贡献者,并诚邀更多开发者加入我们的开源项目,共建具身智能与强化学习系统。 ## 引用与致谢 如果您觉得 **RLinf** 对您的研究或工作有所帮助,请引用以下论文: ```bibtex @article{yu2025rlinf, title={RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation}, author={Yu, Chao and Wang, Yuanqing and Guo, Zhen and Lin, Hao and Xu, Si and Zang, Hongzhi and Zhang, Quanlu and Wu, Yongji and Zhu, Chunyang and Hu, Junhao and others}, journal={arXiv preprint arXiv:2509.15965}, year={2025} } ``` 如果你在 RLinf 中使用了 RL+VLA,欢迎引用我们的算法技术报告和实证研究论文: ```bibtex @article{zang2025rlinf, title={RLinf-VLA: A Unified and Efficient Framework for VLA+ RL Training}, author={Zang, Hongzhi and Wei, Mingjie and Xu, Si and Wu, Yongji and Guo, Zhen and Wang, Yuanqing and Lin, Hao and Shi, Liangzhi and Xie, Yuqing and Xu, Zhexuan and others}, journal={arXiv preprint arXiv:2510.06710}, year={2025} } ``` ```bibtex @article{liu2025can, title={What can rl bring to vla generalization? an empirical study}, author={Liu, Jijia and Gao, Feng and Wei, Bingwen and Chen, Xinlei and Liao, Qingmin and Wu, Yi and Yu, Chao and Wang, Yu}, journal={arXiv preprint arXiv:2505.19789}, year={2025} } ``` ```bibtex @article{chen2025pi_, title={$$\backslash$pi\_$\backslash$texttt $\{$RL$\}$ $: Online RL Fine-tuning for Flow-based Vision-Language-Action Models}, author={Chen, Kang and Liu, Zhihao and Zhang, Tonghe and Guo, Zhen and Xu, Si and Lin, Hao and Zang, Hongzhi and Zhang, Quanlu and Yu, Zhaofei and Fan, Guoliang and others}, journal={arXiv preprint arXiv:2510.25889}, year={2025} } ``` **致谢** RLinf 的灵感来源并受益于更广泛开源社区的思想与工具。 我们特别感谢 VeRL、AReaL、Megatron-LM、SGLang 和 PyTorch Fully Sharded Data Parallel (FSDP) 的团队与贡献者。 如果我们不慎遗漏了您的项目或贡献,请提交 issue 或 pull request,以便我们能够给予您应有的致谢。 **联系方式:** 我们欢迎博士后、博士/硕士研究生以及实习生的加入。 诚邀您共同塑造强化学习基础设施与具身智能的未来! - Chao Yu: zoeyuchao@gmail.com - Yu Wang: yu-wang@tsinghua.edu.cn