
机器之机杼剪部
「寰球模子,是所有东说念主齐会抵达的极度。这条路我现在如故 all-in 了,你跟不跟?」谢赛宁曾在前段时辰摄取采访时说说念。
毫无疑问,「寰球模子」是本年最受概述的主见之一。不管你是作念视频生成如故具身智能,投资东说念主齐难免问一句,「你们辞寰球模子上有什么筹谋?」
开云体育(中国)官方网站然则,一个无语的近况是:对于什么是寰球模子,全球还莫得达成共鸣。
李飞飞与 World Labs 团队在近期发表的著述中对这一杂乱进行了系统的澄澈,为通盘领域提供了一个和洽的讲话和念念考框架。

著述聚首:https://x.com/drfeifei/status/2062247238143996275
这篇著述在酬酢媒体上激勉了浅薄的念念考,相配值得一读。

以下是咱们证实原文整理的内容。
问题的根源:见识杂乱
著述起初指出,刻下业界在指摘「寰球模子」时,存在严重的见识污染。筹谋机视觉、机器东说念主学、强化学习和生成 AI 等多个领域齐宣称在缔造寰球模子,但各自指代的内容却迥然相异。一个能生成视觉恶果传神但物理上不行能的火焰的视频模子、一个随性创作可玩游戏的讲话模子、以及一个能准确模拟根除流程的物理引擎 —— 这三样东西如今齐被冠以「寰球模子」的名号。
李飞飞觉得,这个问题的深层原因是对「寰球」自己界说的暗昧。正如古希腊玄学家对寰球的推行众说纷纭不异,当代 AI 也承袭了这一问题,且碰巧发生在这个领域最需要精准界说的时间。
表面框架:强化学习中的轮回
为了厘清见识,著述援用了强化学习领域的经典表面 —— 部分可不雅测马尔可夫有计划流程(POMDP)。这一框架描摹了智能体与寰球的互动轮回:
智能体取舍行动 → 行动改造寰球情景 → 产生不雅察信息 → 驱动下一走路动
在这个流程中,「情景」指的是寰球在某一时间的完好描摹 —— 包括所有物体、位置、速率和属性。然则,智能体恒久无法凯旋感知情景自己,只可通过不雅察(图像、传感器数据、视频帧等)取得对现实的单方面解析。
李飞飞觉得,面前被称为「寰球模子」的各类系统,推行上齐是这个轮回的不同投影。它们各自输出轮回中的不同部分。
三种功能性的寰球模子
基于这一框架,作家提议了三种不同功能的寰球模子:
渲染器(Renderer)
渲染器的职责是输出不雅察信息,时时以东说念主眼大概领悟的像素样式呈现。掂量渲染器蛮横的主要秩序是视觉保真度 —— 画面有多传神。
文中例如包括文本生成视频模子(如无东说念主机航拍视效)和交互式系统(如 Google 的 Genie 3 或 World Labs 的 RTFM),这些系统能证实用户输入及时生成画面。其特色是对三维结构莫得显式领悟 —— 它呈现的是不雅看者会看到的样式,而非推行情况。这便是为什么一个城市在俯瞰图上看起来良好绝伦,但从城市里面驾驶却会发现建筑物「崩坏」。
模拟器(Simulator)
模拟器输出的是寰球情景自己 —— 在几何、物理或能源学上齐诚恳于现实的暗意。比较渲染器只需视觉劝服力,模拟器需要餍足更严苛的结构协议:几何关联必须经得起推敲,物理流程必须礼服牛顿定律,动态举止必须相宜物理规章。
模拟器面向两类使用者:一是建筑师、假想师、电影制作主说念主、游戏缔造者等专科东说念主士,他们需要卓著视觉真实感的准确性;二是强化学习智能体、机器东说念主甩手器、自动驾驶系统等筹谋机门径,它们将模拟工具作大限度试验场景,在编造环境中测试现实中危急、兴盛或不行能履行的场景。
筹谋器(Planner)
筹谋器输出的是动作 —— 智能体在给定不雅察和目的的情况下应该取舍的下一走路动。某种兴味上,筹谋器是渲染器的逆流程:渲染器将行动四肢输入调整为不雅察,筹谋器则以不雅察为输入产生行动,由此闭合感知 - 行动轮回。
文中提到的视觉讲话行动模子(VLA)、基于模子的系统和新兴的寰球行动模子,齐是筹谋器的结束样式 —— 力争让机器东说念主在非结构化环境中作念出正确有计划。
三者的隐敝关联
固然这三类不错单独界定,但它们分享吞并个根基:对寰球怎么运作的深层认识 —— 几何、物理、能源学。表面上,kaiyun体育中国2026世界杯入口一个信得过领悟寰球的模子应该大概完成所有三项任务:从多个角度渲染一个杯子的样式,模拟杯子被鞭策时会发生什么,以及筹谋一只手该怎么去提起这个杯子。
正如著述所指出的,刻下最道理的研究如故运行故意志地暗昧这三个类别之间的界限。

为何模拟器是要津
尽管模拟器的学术保养度最低,但在功能上最为要津,著述故意用通盘章节来强调这少许。
渲染器因其交易老到度而取得最多公众保养。好多文生图、文生视频家具正在耗尽者和企业商场中快速膨大。然则,渲染器优化的是视觉真实度而非物理准确性,这个天花板很进击:它们的输出弥散好意思不雅,却不及以用于建筑假想或机器东说念主试验。
筹谋器最具眩惑力且最不老到,与机器东说念主学领域紧密辩论。固然往时两年出现了在视频中看起来令东说念主印象潜入的机器东说念主演示,但需要坦诚的是,这些演示简直齐局限于高度受限的实验室环境,物体种类有限、任务时辰短。莫得任何系统被考证能应付真实部署所需的复杂性、各类性和不息性。演示视频与信得过能在厨房、仓库或手术室可靠责任的机器东说念主之间仍存在巨大鸿沟。
模拟器则是勾搭两者的桥梁。淌若说讲话是对寰球的抽象,像素是对寰球的投影,那么几何、物理和能源学便是寰球自己。模拟器必须在这个层面上运作 —— 提供阿谁结构主干,从中既不错为东说念主类耗尽养殖出视觉进展(供渲染器使用),也不错养殖转移作后果(供筹谋器使用)。
掌捏模拟的模子不错将其领悟投影为像素供东说念主类耗尽,也不错投影为动作预计供具身智能体使用。而仅掌捏渲染或筹谋的模子,两者齐作念不了。
从交易角度看,左右空间巨大。NVIDIA 的 Omniverse 揣测在工场、仓库、供应链和数字孪生领域就有逾越 1 万亿好意思元的可寻址商场。机器东说念主试验、自动驾驶测试、建筑可视化、工程假想和药物发现齐依赖某种样式的模拟。
领域内最顾惜的未解问题也齐集结在这里。具有显式几何、材质属性和物理标注的三维数据比试验渲染器的互联网视频少好几个数目级。仿真到现实的 gap 仍然存在。生成式模拟器还引入了新的风险:AI 生成的几安在视觉上看似正确,但可能含有自相交或造作的圭臬,从而产生无兴味的物理。多物理场模拟(刚体、可变形物体、流体、布料交互)的限度化仍然比单域模拟贵得多。
畛域的和会趋势
刻下领域最进击的模式是这三个类别运行互相和会。这背后的共同瞻念察是:渲染、模拟和作用于寰球所需的学问在很猛进程上是疏通的。
著述提到,一些机器东说念主实验室的最新责任标明,经过预试验的视频渲染器不错四肢搭伙寰球和动作预计的主干,这为渲染器和筹谋器之间搭建了桥梁。World Labs 的 Marble 如故从单个模子同期输出高斯散射和碰撞网格,暗昧了渲染器和模拟器之间的畛域。系统在各个层级齐从被迫输出演进到交互系统:渲染器形成了动作条目化的,模拟器生成的寰球愈加可控和可裁剪,筹谋器从被迫反馈升级到主动推理。

和洽寰球模子的愿景
逻辑上的极度是一个和洽的寰球模子 —— 一个基础模子大概渲染像片级真实感的视图,产生物理精准的结构,筹谋行动序列,并证实下贱耗尽者的需求在输出模态间活泼切换。
然则仍有诸多勤快挑战需要面对。数据环境不平衡 —— 渲染器领有充足的互联网视频,而模拟器和筹谋器靠近 3D 财富和机器东说念主演示的严重枯竭。优化视觉好意思感可能葬送机器东说念主或高保真模拟所需的精准性。在单一架构内团结这些张力是刻下寰球模子研究的界说性洞开问题,也恰是 World Labs 在络续发展 Marble 时神敢于于惩办的课题。
明确的主见
自上世纪八十年代末以来,业界一直在押注一个假定:弥散丰富的寰球模子是任何智能体不雅察寰球、构建寰球和作用于寰球所需的一说念。现在,这个「大赌注」正在驱动通盘新一代的研究。
赋予这个「大赌注」重量的是如故在进行中的不休:三条印迹 —— 每一条齐在孤苦鞭策和塑造着数十亿好意思元的产业 —— 起初是孤苦的研究模样,现在运行进展得像是一个合座。当它们的畛域运行垮塌时,将重塑某种更精深的东西:机器智能与其所栖身的物理寰球之间的关系 —— 空间智能的历久演进。
讲话赋予了机器考虑寰球的智商。而寰球模子kaiyun体育(中国)2026世界杯,则是机器最终来领悟、想象、推理和与寰球互动的情势。
