# Spinning Up NEXT in Deep RL **Repository Path**: Zen07/spinning-up-next ## Basic Information - **Project Name**: Spinning Up NEXT in Deep RL - **Description**: 接续 OpenAI Spinning Up,持续整理和收录2020至今的强化学习范式转移的关键论文 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2025-12-15 - **Last Updated**: 2026-01-11 ## Categories & Tags **Categories**: Uncategorized **Tags**: 论文学习 ## README # Spinning Up NEXT in Deep RL: Modern RL Roadmap (2020-2025) > **"Standing on the shoulders of giants."** ## 📖 简介 (Introduction) OpenAI 的 [Spinning Up in Deep RL](https://spinningup.openai.com/) 是无数强化学习(RL)研究者和工程师的入门圣经。然而,Spinning Up in Deep RL 的论文清单主要覆盖到了 2019 年。 **2020 年至 2025 年是 RL 发生范式转移(Paradigm Shift)最剧烈的五年:** * **从游戏到语言**:RL 的主战场从 Atari/MuJoCo 转向了 LLM Alignment (RLHF)。 * **从在线到离线**:Offline RL 让利用海量静态数据成为可能。 * **从控制到序列建模**:Decision Transformer 把 RL 变成了 Sequence Modeling 问题。 * **从推理到思考**:System 2 RL (Reasoning) 正在开启新的时代。 本项目旨在**接续 Spinning Up 的清单**,整理 2020 年至今最值得一读的 RL 论文。这不是一个单纯的论文堆砌仓库,而是一个按**技术流派**整理的学习路线图。 *本项目由我边读边整理,持续更新中...* ## 🧭 阅读指南 (Legend) 为了提高阅读效率,我对论文进行了标记: * ⭐ **Must Read**:该领域的奠基之作,必读圣经。 * 🧠 **Deep Dive**:理论较深,适合想要深入理解数学原理的读者。 * 🛠️ **Engineering**:工程属性强,关注实现细节、大规模训练或特定技巧。 * 🔥 **Trending**:当前(2024-2025)最火的研究热点。 --- ## 🏗️ 目录 (Table of Contents) 1. [大语言模型与对齐 (RLHF & Alignment)](#1-大语言模型与对齐-rlhf--alignment) 2. [离线强化学习 (Offline RL)](#2-离线强化学习-offline-rl) 3. [世界模型 (World Models)](#3-世界模型-world-models) 4. [序列建模与扩散模型 (Sequence & Diffusion)](#4-序列建模与扩散模型-sequence--diffusion) 5. [通用智能体与探索 (Generalist & Exploration)](#5-通用智能体与探索-generalist--exploration) 6. [2025 前沿观察: 推理与 System 2 (Reasoning)](#6-2025-前沿观察-推理与-system-2-reasoning) --- ## 1. 大语言模型与对齐 (RLHF & Alignment) *这是 2022-2025 年的主旋律,彻底改变了 RL 在 AI 领域的地位。* ### 1.1 基础 (Foundations) * ⭐ **Learning to summarize from human feedback** (2020/2021) * *Stiennon et al. (OpenAI)* * **TL;DR**: RLHF 的工程化起点,主要验证了 "收集偏好 -> 训练 RM -> PPO 优化" 这一流程在文本摘要任务上的有效性。 * ⭐ **Training language models to follow instructions with human feedback (InstructGPT)** (2022) * *Ouyang et al. (OpenAI)* * **TL;DR**: **圣经级论文**。ChatGPT 的前身,详细阐述了 SFT -> RM -> PPO 的完整 RLHF 流程,证明了 RL 对于对齐人类意图的重要性。 ### 1.2 无 Reward Model 优化 (DPO Era) * ⭐ **Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO)** (2023) * *Rafailov et al. (Stanford)* * **TL;DR**: **颠覆者**。证明了不需要显式训练 Reward Model,直接通过偏好数据构建损失函数优化 Policy,数学推导优雅,工程极其稳定。 * **KTO: Model Alignment as Prospect Theoretic Optimization** (2024) * *Ethayarajh et al.* * **TL;DR**: 比 DPO 更进一步,不需要成对的偏好数据(A > B),只需要在这个数据上打标(Good/Bad)即可训练。 ### 1.3 AI 反馈与自我进化 (RLAIF) * **Constitutional AI: Harmlessness from AI Feedback** (2022) * *Bai et al. (Anthropic)* * **TL;DR**: RLAIF 的开山之作。让 AI 根据一组“宪法”规则自己给自己打分,解决人类标注瓶颈。 * **Self-Rewarding Language Models** (2024) * *Yuan et al. (Meta)* * **TL;DR**: 让模型在这个回合当 Actor 生成文本,下个回合当 Judge 评估文本,实现自我迭代增强。 --- ## 2. 离线强化学习 (Offline RL) *解决了“不能在实机上乱试”的问题,工业界落地的基石。* * ⭐ **Conservative Q-Learning for Offline Reinforcement Learning (CQL)** (2020) * *Kumar et al. (UC Berkeley)* * **TL;DR**: 解决了 OOD (Out of Distribution) 导致的 Q 值高估问题,通过正则化“压制”未见过动作的 Q 值。 * ⭐ **Offline Reinforcement Learning with Implicit Q-Learning (IQL)** (2021) * *Kostrikov et al. (UC Berkeley)* * **TL;DR**: **极度稳定**。完全避免了 OOD 动作采样,利用 Expectile Regression 进行价值估计,是目前 Offline RL 最稳健的基线之一。 --- ## 3. 世界模型 (World Models) *Model-based RL 的进化:在潜空间中“做梦”。* * **Mastering Atari with Discrete World Models (DreamerV2)** (2020) * *Hafner et al. (DeepMind)* * **TL;DR**: 引入了离散潜变量(Discrete Latent State),大大提高了世界模型在 Atari 游戏上的稳定性。 * ⭐ **Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)** (2020) * *Schrittwieser et al. (DeepMind)* * **TL;DR**: AlphaGo 的终极形态。不需要知道游戏规则,直接在隐空间里推演未来(Planning),结合 MCTS 吊打一切棋类。 * **Mastering Diverse Domains through World Models (DreamerV3)** (2023) * *Hafner et al.* * **TL;DR**: **通用性之王**。一套超参数,不需要调整,同时解决 Atari, Minecraft 和 连续控制任务。 --- ## 4. 序列建模与扩散模型 (Sequence & Diffusion) *打破 Actor-Critic 的传统架构,引入 Transformer 和 Diffusion。* * ⭐ **Decision Transformer: Reinforcement Learning via Sequence Modeling** (2021) * *Chen et al. (Berkeley/FB)* * **TL;DR**: **范式转移**。彻底抛弃 AC 结构,把 RL 看作是条件序列生成问题(输入状态+目标回报 -> 输出动作)。 * **Planning with Diffusion for Flexible Behavior Synthesis (Diffuser)** (2022) * *Janner et al.* * **TL;DR**: 将轨迹生成建模为扩散过程(Diffusion Process),打破了时序生成的限制,可以同时优化整条轨迹。 * 🛠️ **Diffusion Policy: Visuomotor Policy Learning via Action Diffusion** (2023) * *Chi et al. (Columbia/Toyota)* * **TL;DR**: 机器人操作领域的 SOTA。利用 Diffusion 生成动作序列,极好地处理了多模态分布问题。 --- ## 5. 通用智能体与探索 (Generalist & Exploration) * **A Generalist Agent (Gato)** (2022) * *DeepMind* * **TL;DR**: "Same network, same weights." 一个 Transformer 同时玩游戏、控制机械臂、聊天。 * **Voyager: An Open-Ended Embodied Agent with Large Language Models** (2023) * *Wang et al. (NVIDIA)* * **TL;DR**: **代码即策略**。利用 LLM 写代码来作为 Skill,在 Minecraft 中实现终身学习(Lifetime Learning)。 * **Eureka: Human-Level Reward Design via Coding Large Language Models** (2023) * *Ma et al.* * **TL;DR**: 让 LLM 自动写 Reward Function 代码,解决了 RL 调参中最痛苦的“奖励工程”问题。 --- ## 6. 2025 前沿观察: 推理与 System 2 (Reasoning) *🔥 Current Trending. 关注 Test-time Compute 和 CoT 强化。* * **STaR: Bootstrapping Reasoning With Reasoning** (2022) * *Zelikman et al.* * **TL;DR**: 自学推理者。通过生成 CoT -> 过滤正确答案 -> 微调模型,形成闭环。 * **Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking** (2024) * *Zelikman et al.* * **TL;DR**: 让模型在生成每一个 token 之前都在内部生成一段“内心独白”(Thought),从而提高推理能力。 * **DeepSeekMath / DeepSeek-R1 Technical Reports** (2024-2025) * *DeepSeek AI* * **TL;DR**: 探索了在大规模推理任务中,如何利用 GRPO (Group Relative Policy Optimization) 和过程奖励(Process Reward)来强化模型的长链条推理能力。 --- ## 📚 资源推荐 (Resources) * **ArXiv Sanity Preserver**: Andrej Karpathy 开发的论文筛选工具。 * **Papers with Code**: 查找论文对应的开源代码。 * **ICLR / NeurIPS / ICML**: 关注每年的 Outstanding Papers。 ## 🤝 贡献 (Contributing) 如果你发现我漏掉了 2020-2025 年间非常重要的 RL 论文,欢迎提交 Issue 或 Pull Request!让我们一起完善这份清单。 ## License MIT