# RLinf
**Repository Path**: mirrors/RLinf
## Basic Information
- **Project Name**: RLinf
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-01-08
- **Last Updated**: 2026-01-10
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
[](README.md)
[](README.zh-CN.md)
RLinf: 为具身智能和智能体而生的强化学习框架
RLinf 是一个灵活且可扩展的开源框架,专为具身智能和智能体而设计。名称中的 “inf” 既代表 `Infrastructure`,强调其作为新一代训练坚实基础的作用;也代表 `Infinite`,寓意其支持开放式学习、持续泛化以及智能发展的无限可能。
## 最新动态
- [2025/12] 🔥 RLinf支持[Search-R1](https://github.com/PeterGriffinJin/Search-R1)的强化学习微调,相比原版实现加速 55%! 文档: [Search-R1](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/searchr1.html)。
- [2025/12] 🔥 RLinf v0.2-pre 发布!真机Franka的强化学习已经上线。 文档:[RL on Franka in the Real World](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/franka.html)。
- [2025/12] 🔥 基于[RoboCasa](https://github.com/robocasa/robocasa)的强化学习微调已经上线! 文档:[RL on RoboCasa](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/robocasa.html)。
- [2025/12] 🎉 RLinf正式发布[v0.1](https://github.com/RLinf/RLinf/releases/tag/v0.1)版本。
- [2025/11] 🔥 基于[CALVIN](https://github.com/mees/calvin)的强化学习微调已经上线! 文档:[RL on CALVIN](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/calvin.html)。
- [2025/11] 🔥 基于[IsaacLab](https://github.com/isaac-sim/IsaacLab)的强化学习微调已经上线! 文档:[RL on IsaacLab](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/isaaclab.html)。
- [2025/11] 🔥 RLinf现在已经支持强化学习微调[GR00T-N1.5](https://github.com/NVIDIA/Isaac-GR00T)!文档:[RL on GR00T-N1.5](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/gr00t.html)。
- [2025/11] 🔥 基于[Metaworld](https://github.com/Farama-Foundation/Metaworld)的强化学习微调已经上线! 文档:[RL on Metaworld](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/metaworld.html)。
- [2025/11] 🔥 基于[Behavior 1k](https://github.com/StanfordVL/BEHAVIOR-1K)的强化学习微调已经上线! 文档:[RL on Behavior 1k](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/behavior.html) 。
- [2025/11] lora微调支持π₀和π₀.₅模型。
- [2025/10] 🔥 π₀和π₀.₅模型的强化学习微调已经上线! 文档:[π₀和π₀.₅模型强化学习训练](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/pi0.html)。更多技术细节请参考:[π₀ 与 π₀.₅ 模型强化学习微调技术报告](https://arxiv.org/abs/2510.25889)。机器之心与具身智能之心报道:[《RLinf上新πRL:在线强化学习微调π₀ 和 π₀.₅》](https://mp.weixin.qq.com/s/dFlpmqmE0qfhOQmGG25X9g), [《清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案》](https://mp.weixin.qq.com/s/S51P-Y1UYXzumnZzon2N1g)。
- [2025/10] 🔥 RLinf 正式支持在线强化学习!文档:[coding_online_rl](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/coding_online_rl.html),同时发布文章 [《首个开源的Agent在线强化学习框架RLinf-Online!让你的Agent今天比昨天更聪明》](https://mp.weixin.qq.com/s/jmohmDokuWLhQHFueSHZIQ)。
- [2025/10] 🔥 RLinf算法技术报告 [《RLinf-VLA:一个统一且高效的VLA+RL训练框架》](https://arxiv.org/abs/2510.06710) 已正式发布。
- [2025/09] 🔥 [示例库](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/index.html) 已更新,用户可以在其中找到多种可直接使用的示例!
- [2025/09] 🔥 我们的论文 [《RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation》](https://arxiv.org/abs/2509.15965)已正式发布。
- [2025/09] 🔥 机器之心关于 RLinf 的报道[《首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源》](https://mp.weixin.qq.com/s/Xtv4gDu3lhDDGadLrzt6Aw)已经发布。
- [2025/08] RLinf 已经开源,正式的 v0.1 版本即将发布。
## ✨ 核心特性
### 具身智能
| 模拟器 |
真机 |
模型 |
算法 |
|
|
|
- VLA 模型
- VLM 模型
- 自定义模型
- MLP-Policy ✅
- CNN-Policy ✅
|
|
### 智能体强化学习
智能体强化学习包括用于提升大语言模型推理能力的强化学习训练,例如[数学推理](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/reasoning.html);也包括针对各类智能体的强化学习训练,例如[编程智能体的在线强化学习训练](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/coding_online_rl.html)。我们相信,未来的具身智能也必将融合智能体的能力,以完成更复杂的任务。
### 高灵活性、高效性与高可扩展性
除了上述丰富功能外,RLinf 还具有高度灵活性,可支持多种强化学习训练工作流(PPO、GRPO、SAC等),同时隐藏了分布式编程的复杂性。用户无需修改代码即可轻松将强化学习训练扩展至大量GPU节点,满足强化学习训练日益增长的计算需求。
这种高灵活性使 RLinf 能够探索更高效的调度与执行模式。在具身强化学习中,混合执行模式的吞吐量可达现有框架的 **2.434** 倍。
多后端集成支持
- FSDP + HuggingFace/SGLang/vLLM: 快速适配新模型与新算法,非常适合初学者和快速原型验证。
- Megatron + SGLang/vLLM: 针对大规模训练进行了优化,为专家用户提供最大化效率。
## 快速开始
**安装步骤:** 请参考我们的[安装指南](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/start/installation.html)安装RLinf。鉴于具身强化学习的环境配置较为复杂,我们推荐直接使用我们提供的Docker镜像(即[安装方法一:Docker镜像](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/start/installation.html#installation-method-1-docker-image))。
**运行简单示例:** 环境配置完成后,用户可以参照[该文档](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/start/vla.html)的内容,运行基于ManiSkill3模拟器的具身强化学习基础示例。
用户可以查阅我们的[官方文档](https://rlinf.readthedocs.io/zh-cn/latest/index.html)与[示例库](https://rlinf.readthedocs.io/zh-cn/latest/rst_source/examples/index.html),来了解更多RLinf的使用教程与应用实例。
## 主要成果
### 具身智能
- RLinf 同时支持 PPO 与 GRPO 算法,为视觉-语言-动作(Vision-Language-Action, VLA)模型提供最先进的训练能力。
- 该框架与主流具身智能基准测试无缝集成,并在多样化的评测指标上均取得了优异表现。
#### OpenVLA 和 OpenVLA-OFT 结果
OpenVLA
|
OpenVLA-OFT
|
- 在 ManiSkill 环境 “PutOnPlateInScene25Mani-v3” 上,使用 OpenVLA 与 OpenVLA-OFT 模型进行训练。结果显示,在 PPO 与 GRPO 算法的对比中,PPO 始终表现优于 GRPO,且训练过程更加稳定。
| 在 ManiSkill 上的评测结果。表中数值表示任务的成功率(Success Rate) |
|
In-Distribution |
Out-Of-Distribution |
|
Vision |
Semantic |
Execution |
Avg. |
| OpenVLA (Base) |
53.91% |
38.75% |
35.94% |
42.11% |
39.10% |
RL4VLA (PPO) |
93.75% |
80.47% |
75.00% |
81.77% |
79.15% |
OpenVLA (RLinf-GRPO) |
84.38% |
74.69% |
72.99% |
77.86% |
75.15% |
OpenVLA (RLinf-PPO) |
96.09% |
82.03% |
78.35% |
85.42% |
81.93% |
|
| OpenVLA-OFT (Base) |
28.13% |
27.73% |
12.95% |
11.72% |
18.29% |
OpenVLA-OFT (RLinf-GRPO) |
94.14% |
84.69% |
45.54% |
44.66% |
60.64% |
OpenVLA-OFT (RLinf-PPO) |
97.66% |
92.11% |
64.84% |
73.57% |
77.05% |
| 统一模型在五个 LIBERO 任务组上的评测结果 |
| Model |
Spatial |
Object |
Goal |
Long |
90 |
Avg. |
OpenVLA-OFT (Base) |
72.18% |
71.48% |
64.06% |
48.44% |
70.97% |
65.43% |
OpenVLA-OFT (RLinf-GRPO) |
99.40% |
99.80% |
98.79% |
93.95% |
98.59% |
98.11% |
| Δ Improvement |
+27.22 |
+28.32 |
+34.73 |
+45.51 |
+27.62 |
+32.68 |
#### π0 and π0.5 Results
| 在四个LIBERO任务组上的评测结果 |
| Model |
LIBERO |
| Spatial |
Object |
Goal |
Long |
Avg. |
Δ Avg. |
| Full Dataset SFT |
| Octo |
78.9% |
85.7% |
84.6% |
51.1% |
75.1% |
— |
| OpenVLA |
84.7% |
88.4% |
79.2% |
53.7% |
76.5% |
— |
| πfast |
96.4% |
96.8% |
88.6% |
60.2% |
85.5% |
— |
| OpenVLA-OFT |
91.6% |
95.3% |
90.6% |
86.5% |
91.0% |
— |
| π0 |
96.8% |
98.8% |
95.8% |
85.2% |
94.2% |
— |
| π0.5 |
98.8% |
98.2% |
98.0% |
92.4% |
96.9% |
— |
| Few-shot Dataset SFT + RL |
| π0 |
SFT
|
65.3% |
64.4% |
49.8% |
51.2% |
57.6% |
— |
| Flow-SDE |
98.4% |
99.4% |
96.2% |
90.2% |
96.1% |
+38.5 |
| Flow-Noise |
99.0% |
99.2% |
98.2% |
93.8% |
97.6% |
+40.0 |
| Few-shot Dataset SFT + RL |
| π0.5 |
SFT
|
84.6% |
95.4% |
84.6% |
43.9% |
77.1% |
— |
| Flow-SDE |
99.6% |
100% |
98.8% |
93.0% |
97.9% |
+20.8 |
| Flow-Noise |
99.6% |
100% |
99.6% |
94.0% |
98.3% |
+21.2 |
### 数学推理
\* 我们使用默认设置对模型进行了 600 步的重新训练。
- RLinf 在数学推理任务上实现了当前最先进的性能,在多个基准测试(AIME 24、AIME 25、GPQA-diamond)中,1.5B 与 7B 规模的模型均稳定超越现有方法。
## 路线图
### 1. 系统级增强
- [X] 支持异构 GPU
- [ ] 支持异步流水线执行
- [X] 支持专家混合(Mixture of Experts, MoE)
### 2. 应用级扩展
- [X] 支持视觉-语言模型(VLMs)训练
- [ ] 支持深度搜索智能体训练
- [ ] 支持多智能体训练
- [ ] 支持更多具身模拟器的集成 (如 [GENESIS](https://github.com/Genesis-Embodied-AI/Genesis), [RoboTwin](https://github.com/RoboTwin-Platform/RoboTwin))
- [ ] 支持更多VLA模型 (如[WALL-OSS](https://huggingface.co/x-square-robot/wall-oss-flow))
- [ ] 支持世界模型(World Model)
- [x] 支持真实世界的具身智能强化学习
# 持续集成测试状态
RLinf 具有全面的 CI 测试,涵盖核心组件(通过单元测试)和具身、智能体和推理场景的端到端 RL 训练工作流。
以下是主分支 CI 测试状态的摘要:
| 测试名 | 状态 |
| -------- | ------ |
| 单元测试 |
|
| 智能体/推理端到端测试 |
|
| 具身智能端到端测试 |
|
| 调度器测试 |
|
## 贡献指南
我们欢迎对 RLinf 的贡献。在参与之前,请先阅读 [贡献指南](https://github.com/RLinf/RLinf?tab=contributing-ov-file#contributing-to-rlinf)。感谢以下贡献者,并诚邀更多开发者加入我们的开源项目,共建具身智能与强化学习系统。
## 引用与致谢
如果您觉得 **RLinf** 对您的研究或工作有所帮助,请引用以下论文:
```bibtex
@article{yu2025rlinf,
title={RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation},
author={Yu, Chao and Wang, Yuanqing and Guo, Zhen and Lin, Hao and Xu, Si and Zang, Hongzhi and Zhang, Quanlu and Wu, Yongji and Zhu, Chunyang and Hu, Junhao and others},
journal={arXiv preprint arXiv:2509.15965},
year={2025}
}
```
如果你在 RLinf 中使用了 RL+VLA,欢迎引用我们的算法技术报告和实证研究论文:
```bibtex
@article{zang2025rlinf,
title={RLinf-VLA: A Unified and Efficient Framework for VLA+ RL Training},
author={Zang, Hongzhi and Wei, Mingjie and Xu, Si and Wu, Yongji and Guo, Zhen and Wang, Yuanqing and Lin, Hao and Shi, Liangzhi and Xie, Yuqing and Xu, Zhexuan and others},
journal={arXiv preprint arXiv:2510.06710},
year={2025}
}
```
```bibtex
@article{liu2025can,
title={What can rl bring to vla generalization? an empirical study},
author={Liu, Jijia and Gao, Feng and Wei, Bingwen and Chen, Xinlei and Liao, Qingmin and Wu, Yi and Yu, Chao and Wang, Yu},
journal={arXiv preprint arXiv:2505.19789},
year={2025}
}
```
```bibtex
@article{chen2025pi_,
title={$$\backslash$pi\_$\backslash$texttt $\{$RL$\}$ $: Online RL Fine-tuning for Flow-based Vision-Language-Action Models},
author={Chen, Kang and Liu, Zhihao and Zhang, Tonghe and Guo, Zhen and Xu, Si and Lin, Hao and Zang, Hongzhi and Zhang, Quanlu and Yu, Zhaofei and Fan, Guoliang and others},
journal={arXiv preprint arXiv:2510.25889},
year={2025}
}
```
**致谢**
RLinf 的灵感来源并受益于更广泛开源社区的思想与工具。
我们特别感谢 VeRL、AReaL、Megatron-LM、SGLang 和 PyTorch Fully Sharded Data Parallel (FSDP) 的团队与贡献者。
如果我们不慎遗漏了您的项目或贡献,请提交 issue 或 pull request,以便我们能够给予您应有的致谢。
**联系方式:**
我们欢迎博士后、博士/硕士研究生以及实习生的加入。
诚邀您共同塑造强化学习基础设施与具身智能的未来!
- Chao Yu: zoeyuchao@gmail.com
- Yu Wang: yu-wang@tsinghua.edu.cn