# 世界模型

**Repository Path**: haobotan/world-model

## Basic Information

- **Project Name**: 世界模型
- **Description**: 大模型与世界模型两大主流的LLM架构
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-03-09
- **Last Updated**: 2026-03-09

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 🌍 世界模型 (World Models)

[![Awesome](https://awesome.re/badge.svg)](https://awesome.re)
[![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg)](http://makeapullrequest.com)

> “智能的本质在于预测未来的能力。”

这是一个为构建**世界模型**（World Models）而策划的路线图和资源合集。世界模型是一种人工智能系统，它通过学习环境的内部模拟来进行推理、规划和行动。本仓库涵盖了从基于 RNN 的基础模型到现代基于扩散模型（Diffusion）和 Transformer 的基础世界模型的演变过程。

## 📖 目录

- [世界模型的分类](#-世界模型的分类)
- [精选项目列表 (从入门到精通)](#-精选项目列表)
  - [Level 0-1: 基础阶段 (RSSM)](#-level-0-1-基础阶段--rl-centric)
  - [Level 2: 基于 Transformer 的模型](#-level-2-基于-transformer-的模型)
  - [Level 3: 英雄级 (生成式与扩散模型)](#-level-3-英雄级生成式与扩散模型)
- [标准数据集](#-标准数据集燃料)
- [评估指标](#-评估指标评分标准)
- [术语表](#-术语表)
- [快速开始](#-快速开始)

---

## 🧠 世界模型的分类

在选择仓库之前，请先了解目前主导该领域的三种主要架构方法：

| 架构类型                      | 机制                                                       | 优点                                     | 缺点                                   | 示例          |
| :---------------------------- | :--------------------------------------------------------- | :--------------------------------------- | :------------------------------------- | :------------ |
| **RSSM** (循环状态空间)       | 使用 RNN 预测确定性（世界规则）和随机性（不确定性）状态。  | 推理速度极快；非常适合控制和机器人领域。 | 难以生成高保真的视觉画面。             | DreamerV3     |
| **JEPA** (联合嵌入预测架构)   | 预测未来的抽象**特征**，而非像素。不进行生成，仅进行理解。 | 可扩展性极高；忽略视觉噪声。             | 无法“梦”见视频（无法将其思维可视化）。 | V-JEPA        |
| **生成式** (扩散/Transformer) | 生成未来状态的完整高保真视频（自回归或扩散）。             | 类似“矩阵”的模拟；视觉细节丰富。         | 计算成本高；推理速度慢。               | Sora, Diamond |

---

## 🏆 精选项目列表

### 🟢 Level 0-1: 基础阶段 & 以强化学习为中心
**最适合：** 理解基础知识、机器人技术、控制系统。

| 项目名称                | GitHub 仓库                                                  | 论文 / 文档                              | 架构      | 计算需求 | 核心创新                                                     |
| :---------------------- | :----------------------------------------------------------- | :--------------------------------------- | :-------- | :------- | :----------------------------------------------------------- |
| **World Models (原创)** | [ha-schmidhuber/world-models](https://github.com/ctallec/world-models) | [论文](https://worldmodels.github.io/)   | VAE + RNN | ⚡ 低     | 开创性论文。解耦视觉 (V) 和记忆 (M)，在“梦境”中训练控制器 (C)。 |
| **DreamerV3**           | [danijar/dreamerv3](https://github.com/danijar/dreamerv3)    | [论文](https://arxiv.org/abs/2301.04104) | RSSM      | ⚡⚡ 中    | 黄金标准。通过固定超参数掌握多种领域（从 Atari 到 Minecraft）。 |
| **TD-MPC2**             | [nicklashansen/tdmpc2](https://github.com/nicklashansen/tdmpc2) | [网站](https://www.tdmpc2.com/)          | TOLD      | ⚡⚡ 中    | 局部轨迹优化。对于连续控制任务（如机械臂）非常高效。         |

### 🟡 Level 2: 基于 Transformer 的模型
**最适合：** 长视界推理、离散环境、样本效率。

| 项目名称 | GitHub 仓库                                                  | 论文 / 文档                                | 架构          | 计算需求 | 核心创新                                                     |
| :------- | :----------------------------------------------------------- | :----------------------------------------- | :------------ | :------- | :----------------------------------------------------------- |
| **IRIS** | [eloialonso/iris](https://github.com/eloialonso/iris)        | [论文](https://arxiv.org/abs/2209.00588)   | Transformer   | ⚡⚡ 中    | 用 Transformer 替换 RNN 来建模离散潜在 token。比 DreamerV2 具有更高的样本效率。 |
| **LWM**  | [LargeWorldModel/LWM](https://github.com/LargeWorldModel/LWM) | [网站](https://largeworldmodel.github.io/) | RingAttention | ⚡⚡⚡ 高   | 百万级 token。使用 RingAttention 建模 1 小时以上的视频上下文。真正的“基础世界模型”。 |

### 🔴 Level 3: 英雄级 (生成式与扩散模型)
**最适合：** 高保真模拟、视频生成、交互式环境。

| 项目名称       | GitHub 仓库                                                  | 论文 / 文档                                           | 架构           | 计算需求 | 核心创新                                                     |
| :------------- | :----------------------------------------------------------- | :---------------------------------------------------- | :------------- | :------- | :----------------------------------------------------------- |
| **DIAMOND**    | [eloialonso/diamond](https://github.com/eloialonso/diamond)  | [网站](https://diamond-wm.github.io/)                 | Diffusion      | ⚡⚡⚡ 高   | 2024 年 SOTA（最先进技术）。首个完全在**扩散**世界模型内训练的 RL 智能体。比离散 token 更好地处理视觉细节。 |
| **GenieRedux** | [insait-institute/GenieRedux](https://github.com/insait-institute/GenieRedux) | [论文](https://arxiv.org/abs/2402.15391)              | ST-Transformer | ⚡⚡⚡ 高   | Google **Genie** 的开源复现版。根据单个图像提示生成可玩的 2D 平台游戏世界。 |
| **V-JEPA**     | [facebookresearch/jepa](https://github.com/facebookresearch/jepa) | [Hugging Face](https://huggingface.co/facebook/vjepa) | JEPA           | ⚡⚡⚡ 高   | 非生成式。通过预测潜在特征而非像素来学习物理/语义。可扩展性极强。 |

---

## 🛢 标准数据集 (燃料)

没有数据就无法构建世界模型。以下是用于训练和测试这些模型的行业标准环境。

| 数据集 / 环境               | 类型        | 难度   | 为什么使用它？                                               |
| :-------------------------- | :---------- | :----- | :----------------------------------------------------------- |
| **DeepMind Control Suite**  | 物理 (关节) | 🟢 简单 | 测试连续控制（行走、奔跑）的标准。                           |
| **Atari 100k**              | 2D 像素     | 🟡 中等 | 样本效率的基准。你的模型能在 2 小时内学会《太空侵略者》吗？  |
| **Minecraft (Contractors)** | 3D 体素     | 🔴 困难 | 开放式、长视界、部分可观测性。世界模型的终极测试（参见 DreamerV3）。 |
| **RealEstate10K**           | 视频漫游    | 🔴 困难 | 用于视频生成式世界模型，测试 3D 一致性和无限视角合成。       |
| **CARLA**                   | 自动驾驶    | 🔴 困难 | 用于安全关键型世界建模的高保真驾驶模拟器。                   |

---

## 📏 评估指标 (评分标准)

如何知道你的世界模型是否达到了“英雄”级别？

*   **FVD (Fréchet Video Distance):** 衡量“梦”出的 rollout 视频与真实视频之间的视觉质量。**越低越好**。
*   **零样本泛化 (Zero-Shot Generalization):** 模型能否仅通过规划，就在从未见过的关卡中控制智能体？
*   **重建损失 (Reconstruction Loss):** VAE/编码器能多准确地重现当前帧？
*   **想象视界 (Imagination Horizon):** 模型能向未来预测多少步，而模拟不会崩溃成噪声？

---

## 📖 术语表

*   **潜在空间 ($z$):** 世界的压缩表示。模型不是以像素思考，而是以压缩的“概念”思考。
*   **RSSM (循环状态空间模型):** 一种混合网络，使用确定性路径 (RNN) 来记忆历史，使用随机路径 (VAE) 来考虑多种可能的未来。
*   **后验坍塌 (Posterior Collapse):** 一种失败模式，模型忽略潜在代码，只是猜测平均图像。
*   **基于模型的强化学习 (Model-Based RL):** 智能体通过在“世界模型”中想象后果来学习策略，而不是在现实世界中试错。

---

## ⚡ 快速开始

要开始使用最稳定的实现 (**DreamerV3**)，请在 Google Colab 或本地 GPU 机器上运行以下命令：

```bash
# 克隆仓库
git clone https://github.com/danijar/dreamerv3
cd dreamerv3

# 安装依赖
pip install -r requirements.txt

# 在简单任务上运行训练 (无需复杂设置)
python3 main.py --logdir ./logdir/cartpole --configs gymnasium --task CartPole-v1
```