# Spinning Up NEXT in Deep RL

**Repository Path**: Zen07/spinning-up-next

## Basic Information

- **Project Name**: Spinning Up NEXT in Deep RL
- **Description**: 接续 OpenAI Spinning Up，持续整理和收录2020至今的强化学习范式转移的关键论文
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2025-12-15
- **Last Updated**: 2026-01-11

## Categories & Tags

**Categories**: Uncategorized

**Tags**: 论文学习

## README

# Spinning Up NEXT in Deep RL: Modern RL Roadmap (2020-2025)

> **"Standing on the shoulders of giants."**

## 📖 简介 (Introduction)

OpenAI 的 [Spinning Up in Deep RL](https://spinningup.openai.com/) 是无数强化学习（RL）研究者和工程师的入门圣经。然而，Spinning Up in Deep RL 的论文清单主要覆盖到了 2019 年。

**2020 年至 2025 年是 RL 发生范式转移（Paradigm Shift）最剧烈的五年：**
*   **从游戏到语言**：RL 的主战场从 Atari/MuJoCo 转向了 LLM Alignment (RLHF)。
*   **从在线到离线**：Offline RL 让利用海量静态数据成为可能。
*   **从控制到序列建模**：Decision Transformer 把 RL 变成了 Sequence Modeling 问题。
*   **从推理到思考**：System 2 RL (Reasoning) 正在开启新的时代。

本项目旨在**接续 Spinning Up 的清单**，整理 2020 年至今最值得一读的 RL 论文。这不是一个单纯的论文堆砌仓库，而是一个按**技术流派**整理的学习路线图。

*本项目由我边读边整理，持续更新中...*

## 🧭 阅读指南 (Legend)

为了提高阅读效率，我对论文进行了标记：

*   ⭐ **Must Read**：该领域的奠基之作，必读圣经。
*   🧠 **Deep Dive**：理论较深，适合想要深入理解数学原理的读者。
*   🛠️ **Engineering**：工程属性强，关注实现细节、大规模训练或特定技巧。
*   🔥 **Trending**：当前（2024-2025）最火的研究热点。

---

## 🏗️ 目录 (Table of Contents)

1.  [大语言模型与对齐 (RLHF & Alignment)](#1-大语言模型与对齐-rlhf--alignment)
2.  [离线强化学习 (Offline RL)](#2-离线强化学习-offline-rl)
3.  [世界模型 (World Models)](#3-世界模型-world-models)
4.  [序列建模与扩散模型 (Sequence & Diffusion)](#4-序列建模与扩散模型-sequence--diffusion)
5.  [通用智能体与探索 (Generalist & Exploration)](#5-通用智能体与探索-generalist--exploration)
6.  [2025 前沿观察: 推理与 System 2 (Reasoning)](#6-2025-前沿观察-推理与-system-2-reasoning)

---

## 1. 大语言模型与对齐 (RLHF & Alignment)
*这是 2022-2025 年的主旋律，彻底改变了 RL 在 AI 领域的地位。*

### 1.1 基础 (Foundations)
*   ⭐ **Learning to summarize from human feedback** (2020/2021)
    *   *Stiennon et al. (OpenAI)*
    *   **TL;DR**: RLHF 的工程化起点，主要验证了 "收集偏好 -> 训练 RM -> PPO 优化" 这一流程在文本摘要任务上的有效性。
*   ⭐ **Training language models to follow instructions with human feedback (InstructGPT)** (2022)
    *   *Ouyang et al. (OpenAI)*
    *   **TL;DR**: **圣经级论文**。ChatGPT 的前身，详细阐述了 SFT -> RM -> PPO 的完整 RLHF 流程，证明了 RL 对于对齐人类意图的重要性。

### 1.2 无 Reward Model 优化 (DPO Era)
*   ⭐ **Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO)** (2023)
    *   *Rafailov et al. (Stanford)*
    *   **TL;DR**: **颠覆者**。证明了不需要显式训练 Reward Model，直接通过偏好数据构建损失函数优化 Policy，数学推导优雅，工程极其稳定。
*   **KTO: Model Alignment as Prospect Theoretic Optimization** (2024)
    *   *Ethayarajh et al.*
    *   **TL;DR**: 比 DPO 更进一步，不需要成对的偏好数据（A > B），只需要在这个数据上打标（Good/Bad）即可训练。

### 1.3 AI 反馈与自我进化 (RLAIF)
*   **Constitutional AI: Harmlessness from AI Feedback** (2022)
    *   *Bai et al. (Anthropic)*
    *   **TL;DR**: RLAIF 的开山之作。让 AI 根据一组“宪法”规则自己给自己打分，解决人类标注瓶颈。
*   **Self-Rewarding Language Models** (2024)
    *   *Yuan et al. (Meta)*
    *   **TL;DR**: 让模型在这个回合当 Actor 生成文本，下个回合当 Judge 评估文本，实现自我迭代增强。

---

## 2. 离线强化学习 (Offline RL)
*解决了“不能在实机上乱试”的问题，工业界落地的基石。*

*   ⭐ **Conservative Q-Learning for Offline Reinforcement Learning (CQL)** (2020)
    *   *Kumar et al. (UC Berkeley)*
    *   **TL;DR**: 解决了 OOD (Out of Distribution) 导致的 Q 值高估问题，通过正则化“压制”未见过动作的 Q 值。
*   ⭐ **Offline Reinforcement Learning with Implicit Q-Learning (IQL)** (2021)
    *   *Kostrikov et al. (UC Berkeley)*
    *   **TL;DR**: **极度稳定**。完全避免了 OOD 动作采样，利用 Expectile Regression 进行价值估计，是目前 Offline RL 最稳健的基线之一。

---

## 3. 世界模型 (World Models)
*Model-based RL 的进化：在潜空间中“做梦”。*

*   **Mastering Atari with Discrete World Models (DreamerV2)** (2020)
    *   *Hafner et al. (DeepMind)*
    *   **TL;DR**: 引入了离散潜变量（Discrete Latent State），大大提高了世界模型在 Atari 游戏上的稳定性。
*   ⭐ **Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)** (2020)
    *   *Schrittwieser et al. (DeepMind)*
    *   **TL;DR**: AlphaGo 的终极形态。不需要知道游戏规则，直接在隐空间里推演未来（Planning），结合 MCTS 吊打一切棋类。
*   **Mastering Diverse Domains through World Models (DreamerV3)** (2023)
    *   *Hafner et al.*
    *   **TL;DR**: **通用性之王**。一套超参数，不需要调整，同时解决 Atari, Minecraft 和 连续控制任务。

---

## 4. 序列建模与扩散模型 (Sequence & Diffusion)
*打破 Actor-Critic 的传统架构，引入 Transformer 和 Diffusion。*

*   ⭐ **Decision Transformer: Reinforcement Learning via Sequence Modeling** (2021)
    *   *Chen et al. (Berkeley/FB)*
    *   **TL;DR**: **范式转移**。彻底抛弃 AC 结构，把 RL 看作是条件序列生成问题（输入状态+目标回报 -> 输出动作）。
*   **Planning with Diffusion for Flexible Behavior Synthesis (Diffuser)** (2022)
    *   *Janner et al.*
    *   **TL;DR**: 将轨迹生成建模为扩散过程（Diffusion Process），打破了时序生成的限制，可以同时优化整条轨迹。
*   🛠️ **Diffusion Policy: Visuomotor Policy Learning via Action Diffusion** (2023)
    *   *Chi et al. (Columbia/Toyota)*
    *   **TL;DR**: 机器人操作领域的 SOTA。利用 Diffusion 生成动作序列，极好地处理了多模态分布问题。

---

## 5. 通用智能体与探索 (Generalist & Exploration)

*   **A Generalist Agent (Gato)** (2022)
    *   *DeepMind*
    *   **TL;DR**: "Same network, same weights." 一个 Transformer 同时玩游戏、控制机械臂、聊天。
*   **Voyager: An Open-Ended Embodied Agent with Large Language Models** (2023)
    *   *Wang et al. (NVIDIA)*
    *   **TL;DR**: **代码即策略**。利用 LLM 写代码来作为 Skill，在 Minecraft 中实现终身学习（Lifetime Learning）。
*   **Eureka: Human-Level Reward Design via Coding Large Language Models** (2023)
    *   *Ma et al.*
    *   **TL;DR**: 让 LLM 自动写 Reward Function 代码，解决了 RL 调参中最痛苦的“奖励工程”问题。

---

## 6. 2025 前沿观察: 推理与 System 2 (Reasoning)
*🔥 Current Trending. 关注 Test-time Compute 和 CoT 强化。*

*   **STaR: Bootstrapping Reasoning With Reasoning** (2022)
    *   *Zelikman et al.*
    *   **TL;DR**: 自学推理者。通过生成 CoT -> 过滤正确答案 -> 微调模型，形成闭环。
*   **Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking** (2024)
    *   *Zelikman et al.*
    *   **TL;DR**: 让模型在生成每一个 token 之前都在内部生成一段“内心独白”（Thought），从而提高推理能力。
*   **DeepSeekMath / DeepSeek-R1 Technical Reports** (2024-2025)
    *   *DeepSeek AI*
    *   **TL;DR**: 探索了在大规模推理任务中，如何利用 GRPO (Group Relative Policy Optimization) 和过程奖励（Process Reward）来强化模型的长链条推理能力。

---

## 📚 资源推荐 (Resources)

*   **ArXiv Sanity Preserver**: Andrej Karpathy 开发的论文筛选工具。
*   **Papers with Code**: 查找论文对应的开源代码。
*   **ICLR / NeurIPS / ICML**: 关注每年的 Outstanding Papers。

## 🤝 贡献 (Contributing)

如果你发现我漏掉了 2020-2025 年间非常重要的 RL 论文，欢迎提交 Issue 或 Pull Request！让我们一起完善这份清单。

## License

MIT