在文本生成大模型席卷市场五年之后，一个被低估的方向正快速升温——世界模型（World Model）。它不讲段子，也不擅长文艺创作，但对现实世界的理解深得多。

世界模型与语言模型的决裂

大多数 AI 爱好者关注的还是 ChatGPT、Claude 或 Gemini，它们背后的语言模型基于海量文本训练，所习得的是大数据下的统计规律。这让它们在回答日常问题时游刃有余，却在面对涉及物理规律、空间感知或因果推理的问题时频频栽跟头。

世界模型提出了另一套逻辑。它试图让 AI 模拟真实世界的动态变化，构建一个“脑内宇宙”。这意味着 AI 不仅知道苹果会掉下来，还能在“看到”苹果掉落前预测其轨迹，并据此做出反应。在设计机器人、自主导航车辆乃至虚拟游戏代理中，这样的“物理直觉”是决策的基础。

产业动手了，模型也不再只读书

2025 年底，多家科技公司已经对这一方向下注。NVIDIA 推出的 Cosmos 平台正把世界模型用于物理仿真和数据生成。DeepMind 最近开源了 Genie，一个能在二维像素世界中学习规则、规划行为的模型。

一项来自清华大学前沿实验室的研究甚至走得更远。他们构建了一个叫 HyperWind 的全视角仿真平台，让模型在风洞、火灾、交通网等真实场景中“训练世界感”。这不像训练猫生成图像，而是在造出一支能理解流体力学的“AI 建筑队”。

目前的趋势表明，世界模型不是 GPT 5 也不是 Gemini Ultra 的下一步，而是完全独立的新分支。这或许意味着通用人工智能的未来路径不止一条：一种会写诗，另一种能盖房。

语言模型擅长解释，而世界模型更像是一个具象的物理引擎，它预测、模拟并反馈。相比之下，生成 1000 字的演讲稿远比准确模拟一个自动驾驶转弯时的力学细节要简单。

业界普遍认为，世界模型不但会改变 AI 应用的交互形式，也可能决定哪家厂商拿下 AGI 的入场券。理解世界不是靠读文本，而是靠“动手”。

世界模型的概念并不新鲜，早在 2018 年 OpenAI 就有相关研究，但过去的六年里，它始终像个“备胎”。如今它正在从学术论文跃入市场产品，真正登上 AI 进化的中心舞台。