# 世界模型 **Repository Path**: haobotan/world-model ## Basic Information - **Project Name**: 世界模型 - **Description**: 大模型与世界模型两大主流的LLM架构 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-09 - **Last Updated**: 2026-03-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 🌍 世界模型 (World Models) [![Awesome](https://awesome.re/badge.svg)](https://awesome.re) [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg)](http://makeapullrequest.com) > “智能的本质在于预测未来的能力。” 这是一个为构建**世界模型**(World Models)而策划的路线图和资源合集。世界模型是一种人工智能系统,它通过学习环境的内部模拟来进行推理、规划和行动。本仓库涵盖了从基于 RNN 的基础模型到现代基于扩散模型(Diffusion)和 Transformer 的基础世界模型的演变过程。 ## 📖 目录 - [世界模型的分类](#-世界模型的分类) - [精选项目列表 (从入门到精通)](#-精选项目列表) - [Level 0-1: 基础阶段 (RSSM)](#-level-0-1-基础阶段--rl-centric) - [Level 2: 基于 Transformer 的模型](#-level-2-基于-transformer-的模型) - [Level 3: 英雄级 (生成式与扩散模型)](#-level-3-英雄级生成式与扩散模型) - [标准数据集](#-标准数据集燃料) - [评估指标](#-评估指标评分标准) - [术语表](#-术语表) - [快速开始](#-快速开始) --- ## 🧠 世界模型的分类 在选择仓库之前,请先了解目前主导该领域的三种主要架构方法: | 架构类型 | 机制 | 优点 | 缺点 | 示例 | | :---------------------------- | :--------------------------------------------------------- | :--------------------------------------- | :------------------------------------- | :------------ | | **RSSM** (循环状态空间) | 使用 RNN 预测确定性(世界规则)和随机性(不确定性)状态。 | 推理速度极快;非常适合控制和机器人领域。 | 难以生成高保真的视觉画面。 | DreamerV3 | | **JEPA** (联合嵌入预测架构) | 预测未来的抽象**特征**,而非像素。不进行生成,仅进行理解。 | 可扩展性极高;忽略视觉噪声。 | 无法“梦”见视频(无法将其思维可视化)。 | V-JEPA | | **生成式** (扩散/Transformer) | 生成未来状态的完整高保真视频(自回归或扩散)。 | 类似“矩阵”的模拟;视觉细节丰富。 | 计算成本高;推理速度慢。 | Sora, Diamond | --- ## 🏆 精选项目列表 ### 🟢 Level 0-1: 基础阶段 & 以强化学习为中心 **最适合:** 理解基础知识、机器人技术、控制系统。 | 项目名称 | GitHub 仓库 | 论文 / 文档 | 架构 | 计算需求 | 核心创新 | | :---------------------- | :----------------------------------------------------------- | :--------------------------------------- | :-------- | :------- | :----------------------------------------------------------- | | **World Models (原创)** | [ha-schmidhuber/world-models](https://github.com/ctallec/world-models) | [论文](https://worldmodels.github.io/) | VAE + RNN | ⚡ 低 | 开创性论文。解耦视觉 (V) 和记忆 (M),在“梦境”中训练控制器 (C)。 | | **DreamerV3** | [danijar/dreamerv3](https://github.com/danijar/dreamerv3) | [论文](https://arxiv.org/abs/2301.04104) | RSSM | ⚡⚡ 中 | 黄金标准。通过固定超参数掌握多种领域(从 Atari 到 Minecraft)。 | | **TD-MPC2** | [nicklashansen/tdmpc2](https://github.com/nicklashansen/tdmpc2) | [网站](https://www.tdmpc2.com/) | TOLD | ⚡⚡ 中 | 局部轨迹优化。对于连续控制任务(如机械臂)非常高效。 | ### 🟡 Level 2: 基于 Transformer 的模型 **最适合:** 长视界推理、离散环境、样本效率。 | 项目名称 | GitHub 仓库 | 论文 / 文档 | 架构 | 计算需求 | 核心创新 | | :------- | :----------------------------------------------------------- | :----------------------------------------- | :------------ | :------- | :----------------------------------------------------------- | | **IRIS** | [eloialonso/iris](https://github.com/eloialonso/iris) | [论文](https://arxiv.org/abs/2209.00588) | Transformer | ⚡⚡ 中 | 用 Transformer 替换 RNN 来建模离散潜在 token。比 DreamerV2 具有更高的样本效率。 | | **LWM** | [LargeWorldModel/LWM](https://github.com/LargeWorldModel/LWM) | [网站](https://largeworldmodel.github.io/) | RingAttention | ⚡⚡⚡ 高 | 百万级 token。使用 RingAttention 建模 1 小时以上的视频上下文。真正的“基础世界模型”。 | ### 🔴 Level 3: 英雄级 (生成式与扩散模型) **最适合:** 高保真模拟、视频生成、交互式环境。 | 项目名称 | GitHub 仓库 | 论文 / 文档 | 架构 | 计算需求 | 核心创新 | | :------------- | :----------------------------------------------------------- | :---------------------------------------------------- | :------------- | :------- | :----------------------------------------------------------- | | **DIAMOND** | [eloialonso/diamond](https://github.com/eloialonso/diamond) | [网站](https://diamond-wm.github.io/) | Diffusion | ⚡⚡⚡ 高 | 2024 年 SOTA(最先进技术)。首个完全在**扩散**世界模型内训练的 RL 智能体。比离散 token 更好地处理视觉细节。 | | **GenieRedux** | [insait-institute/GenieRedux](https://github.com/insait-institute/GenieRedux) | [论文](https://arxiv.org/abs/2402.15391) | ST-Transformer | ⚡⚡⚡ 高 | Google **Genie** 的开源复现版。根据单个图像提示生成可玩的 2D 平台游戏世界。 | | **V-JEPA** | [facebookresearch/jepa](https://github.com/facebookresearch/jepa) | [Hugging Face](https://huggingface.co/facebook/vjepa) | JEPA | ⚡⚡⚡ 高 | 非生成式。通过预测潜在特征而非像素来学习物理/语义。可扩展性极强。 | --- ## 🛢 标准数据集 (燃料) 没有数据就无法构建世界模型。以下是用于训练和测试这些模型的行业标准环境。 | 数据集 / 环境 | 类型 | 难度 | 为什么使用它? | | :-------------------------- | :---------- | :----- | :----------------------------------------------------------- | | **DeepMind Control Suite** | 物理 (关节) | 🟢 简单 | 测试连续控制(行走、奔跑)的标准。 | | **Atari 100k** | 2D 像素 | 🟡 中等 | 样本效率的基准。你的模型能在 2 小时内学会《太空侵略者》吗? | | **Minecraft (Contractors)** | 3D 体素 | 🔴 困难 | 开放式、长视界、部分可观测性。世界模型的终极测试(参见 DreamerV3)。 | | **RealEstate10K** | 视频漫游 | 🔴 困难 | 用于视频生成式世界模型,测试 3D 一致性和无限视角合成。 | | **CARLA** | 自动驾驶 | 🔴 困难 | 用于安全关键型世界建模的高保真驾驶模拟器。 | --- ## 📏 评估指标 (评分标准) 如何知道你的世界模型是否达到了“英雄”级别? * **FVD (Fréchet Video Distance):** 衡量“梦”出的 rollout 视频与真实视频之间的视觉质量。**越低越好**。 * **零样本泛化 (Zero-Shot Generalization):** 模型能否仅通过规划,就在从未见过的关卡中控制智能体? * **重建损失 (Reconstruction Loss):** VAE/编码器能多准确地重现当前帧? * **想象视界 (Imagination Horizon):** 模型能向未来预测多少步,而模拟不会崩溃成噪声? --- ## 📖 术语表 * **潜在空间 ($z$):** 世界的压缩表示。模型不是以像素思考,而是以压缩的“概念”思考。 * **RSSM (循环状态空间模型):** 一种混合网络,使用确定性路径 (RNN) 来记忆历史,使用随机路径 (VAE) 来考虑多种可能的未来。 * **后验坍塌 (Posterior Collapse):** 一种失败模式,模型忽略潜在代码,只是猜测平均图像。 * **基于模型的强化学习 (Model-Based RL):** 智能体通过在“世界模型”中想象后果来学习策略,而不是在现实世界中试错。 --- ## ⚡ 快速开始 要开始使用最稳定的实现 (**DreamerV3**),请在 Google Colab 或本地 GPU 机器上运行以下命令: ```bash # 克隆仓库 git clone https://github.com/danijar/dreamerv3 cd dreamerv3 # 安装依赖 pip install -r requirements.txt # 在简单任务上运行训练 (无需复杂设置) python3 main.py --logdir ./logdir/cartpole --configs gymnasium --task CartPole-v1 ```