Workflow
世界建模
icon
搜索文档
英伟达Jim Fan:“世界建模”是新一代预训练范式
36氪· 2026-02-05 15:34
核心观点 - 英伟达机器人主管Jim Fan提出,继“下一个词预测”之后,“世界建模”将成为新的预训练范式,并预测2026年将成为大世界模型为机器人及多模态AI奠定基础的第一年 [1][2][5] 技术范式转变 - 预训练范式正从“下一个词预测”转向“世界建模”,即“下一个物理状态预测” [5] - 世界建模的定义是在给定一个动作的条件下,预测下一个合理的世界状态(或一段更长时间范围内的状态) [5] - 视频生成模型是世界模型的一种实现形式,其“下一个状态”是一系列RGB帧(通常为8–10秒,最长可达数分钟),“动作”是一段文本描述 [5] - 训练过程是对数十亿小时视频像素的未来变化进行建模,视频世界模型本质上是可学习的物理模拟器和渲染引擎 [6] 当前技术路线与局限 - 2025年物理AI领域以视觉语言动作模型为主,即在预训练视觉语言模型上接入机器人动作解码器 [8] - 视觉语言动作模型更像是“语言 > 视觉 > 动作”的等级递减结构,其中大多数参数用于知识而非物理能力 [9] - 视觉语言动作模型的设计在知识检索上很强,但物理能力分配不足,且多阶段嫁接的设计不够简洁优雅 [9] - 视觉语言模型中,视觉编码器在训练中会主动丢弃细节,而机器人操作恰恰依赖这些细节 [24] 世界模型的优势与愿景 - 世界模型能够捕捉反事实情景,即预测如果采取不同动作未来可能会如何不同,这本身就是一种推理 [6] - 世界模型从根本上以视觉为中心,而视觉语言模型本质上是以语言为中心的 [6] - 从生物学角度看,视觉主导了人类皮层计算,约三分之一的大脑皮层用于处理像素,视觉是连接大脑、运动系统和物理世界的最高带宽通道 [10] - 自然界例证表明,高灵巧物理智能(如猿类)几乎不依赖语言,它们拥有对物理世界如何运作的稳健心理表征,其物理技能远超当前最先进的机器人 [10][12][13] - 世界模型是连接虚拟与物理两个领域的桥梁,其真正价值在于跨任务、跨领域的泛化能力,就像大语言模型作为基座模型能兼容多种任务一样 [26] 未来发展方向 - 2026年将迎来物理AI的爆发,大世界模型将首次为机器人领域以及更广义的多模态AI奠定真实基础 [2][5] - 新的预训练形式将出现:下一个世界状态不应只包含RGB,还必须覆盖3D运动、本体感觉与触觉 [5][16] - 新的推理形式将出现:在视觉空间中的思维链,而非语言空间中的思维链,可以通过模拟几何关系和接触来解决物理谜题 [5][17][18] - YouTube的海量视频和智能眼镜的兴起,将以远超文本训练规模的原始视觉流捕捉世界 [15] - 2026年将是多模态、多轮交互代理(机器人/具身通用智能体)之年,比赛的胜者必然会更重视视觉模态 [29] - 2026年或许是机器人技术最终停止依赖语言模型,转而构建原生系统的一年 [30] 面临的挑战 - 从像素到物理的跃迁仍然很陡峭,要让世界模型成为可靠的动作生成骨干,必须解决几何一致性、同一性保持、推理速度和动作采样等问题 [28] - 在数据量和计算需求上,这一目标将使当前的动作策略扩展显得相对温和 [28] - 即便未来模拟完美,仍需解决动作该如何解码、像素重建是否是最优目标、需要多少机器人数据、远程操作的扩展是否仍然可行等问题 [19] 行业动态与商业布局 - 谷歌、英伟达等公司都在虚拟游戏、视频以及物理机器人领域同步布局世界模型 [26] - 李飞飞创办的World Labs正以约50亿美元估值进行新一轮融资,规模最高可达5亿美元 [31] - Yann LeCun创办的AMI Labs也吸引了包括Cathay Innovation在内的潜在投资者,传闻其融资估值可能达到35亿美元 [31]
英伟达Jim Fan:「世界建模」是新一代预训练范式
量子位· 2026-02-05 12:10
文章核心观点 - AI预训练范式正在发生第二次重大转变,从“下一个词预测”转向“世界建模” [6] - “世界建模”被定义为在给定动作条件下,预测下一个合理的世界状态 [5][9] - 2026年将成为大世界模型为机器人及广义多模态AI奠定真实基础的关键一年 [3][8] - 当前世界模型的应用炒作集中在AI视频和游戏,但其根本价值在于服务物理AI和具身智能 [7][10] - 世界模型将催生以视觉为中心、而非语言为中心的新推理形式 [10][25] 世界模型的定义与范式转变 - “世界建模”是继“下一个词预测”之后的第二个预训练范式,可称为“下一个物理状态预测” [6] - 世界模型本质上是可学习的物理模拟器和渲染引擎,能捕捉反事实情景并进行推理 [13] - 视频生成模型是世界模型的一种实现形式,其“下一个状态”是一系列RGB帧(通常8–10秒,最长数分钟),“动作”是描述文本 [11] - 训练过程是对数十亿小时视频像素的未来变化进行建模 [12] 当前技术路线的局限与对比 - 当前主流的视觉语言模型路线本质是以语言为中心,视觉是“二等公民” [14] - 2025年物理AI领域以视觉语言动作模型为主,它更像是“语言 > 视觉 > 动作”的等级递减结构 [15][16] - VLA模型参数多用于知识而非物理理解,其设计在知识检索上强,但物理能力分配不足 [16][17] - VLA模型不会随着视觉语言模型的规模扩大而自然增强物理能力 [34] 以视觉为中心的必要性与生物启示 - 从生物学看,视觉皮层主导了人类大脑的计算,是连接大脑、运动系统和物理世界的最高带宽通道 [18] - 视觉闭合了“感知—运动回路”,这是机器人最需要解决的回路,且中间不需要语言 [18] - 猿类拥有高超的物理技能但语言能力有限,证明高灵巧物理智能几乎不依赖语言 [19][20][21] - 猿类拥有对“如果……会怎样”的稳健心理表征,即对物理世界运作的理解 [21] 世界模型带来的新变革与挑战 - 新的预训练目标:下一个世界状态不应只包含RGB,还必须覆盖3D运动、本体感觉与触觉 [10][24] - 新的推理形式:将出现“在视觉空间中的思维链”,通过模拟几何关系和接触解决物理问题,无需依赖语言 [10][25][43] - 面临的新挑战包括:动作如何解码、像素重建是否是最优目标、需要多少机器人数据、远程操作扩展是否可行等 [26][27] - 技术挑战具体包括:几何一致性、同一性保持、推理速度(降低实时循环延迟)、动作采样等 [44] 行业展望与商业动态 - 世界模型是一类全新的基础模型,是连接虚拟与物理领域的桥梁,其真正价值在于跨任务、跨领域的泛化能力 [37] - 世界模型作为基座模型,可以兼容视频生成与具身操控两种应用 [39] - 谷歌、英伟达等公司正在虚拟游戏、视频以及物理机器人领域同步布局世界模型技术 [40] - 商业层面快速推进:李飞飞创办的World Labs正以约50亿美元估值进行新一轮融资,规模最高可达5亿美元 [47] - LeCun创办的AMI Labs融资估值可能达到35亿美元 [47] - 2026年将是多模态、多轮交互代理之年,胜者必然更重视视觉模态 [45] - 2026年可能是机器人技术停止依赖语言模型,转而构建原生系统的一年 [46]
第二代AI预训练范式:预测下个物理状态
机器之心· 2026-02-04 19:20
文章核心观点 - 英伟达高级研究科学家Jim Fan提出,以预测下一个词为核心的第一代AI预训练范式(大语言模型)在应用于物理世界时存在局限,行业正转向以“世界建模”为核心的第二代预训练范式,其核心是预测下一个物理状态[1][2][4] - 第二代范式“世界建模”或“预测下一个物理状态”将视觉置于首位,旨在构建可学习的物理模拟器,其深远影响尚未被大众完全认知,预计2026年将成为“大世界模型”为机器人学及多模态AI奠定真实基础的元年[8] - 当前主流的视觉-语言-动作模型本质上是“语言优先”,视觉信息处于次要地位,其大部分参数用于知识而非物理理解,这种设计在解决物理世界问题时显得“头重脚轻”[9][10] - 从生物学和自然界的证据来看,视觉是连接物理世界的高带宽通道,高级物理智能可以独立于强大语言能力而存在,这支持了以视觉和物理建模为核心的发展路径[11][12] - 世界建模将带来新型的预训练(如融合3D运动、触觉感知)和新型的推理(在视觉空间进行“思维链”),并开启一系列全新的基础性问题探索,标志着AGI研究尚未收敛,正回归挑战第一性原理的时代[12][13] 对现有AI技术范式的批判 - 当前以大语言模型为代表的第一代AI范式基于“对下一词的预测”,在将其应用于物理世界时出现了明显的“水土不服”[4] - 视觉语言模型本质上是“语言优先”,视觉信息像“二等公民”,在物理规模上远逊于大语言模型[9] - 视觉-语言-动作模型是“LVA”结构,重要性排序为语言 > 视觉 > 动作,其设计擅长知识检索但在物理理解上“头重脚轻”[9][10] - VLM中的大部分参数分配给了知识(如识别品牌),而非物理理解(如预测液体泼洒的后果)[10] 第二代预训练范式:“世界建模” - 第二代范式被定义为“世界建模”或“预测下一个物理状态”,即在特定动作约束下预测下一个合理的物理世界状态[8] - 视频生成模型是其实例化体现,预测的“下一状态”是一系列RGB帧(通常为8-10秒,最长几分钟),“动作”是文本描述,训练涉及对数十亿小时视频像素的未来变化进行建模[8] - 世界模型是可学习的物理模拟器和渲染引擎,能捕捉“反事实”,即推理在不同动作下未来演化的差异[8] - 世界模型从根本上将视觉置于首位,这与当前“语言优先”的范式形成根本区别[8] 支持世界建模范式的论据 - 生物学上,视觉主导皮层计算,大脑皮层约三分之一部分专门处理视觉信息,而语言仅依赖相对紧凑区域,视觉是连接物理世界的高带宽通道[11] - 自然界存在证明,如类人猿语言能力微弱但物理技能远超最先进机器人,表明高级物理智能可独立于强大语言模型存在,它们拥有稳健的“如果…会怎样”物理世界心理图景[12] - YouTube全部存量和智能眼镜兴起,将捕捉到规模远超人类历史所有文本的原始物理世界视觉流,为世界模型提供数据基础[12] 对未来发展的预测与展望 - 预测2026年将成为“大世界模型”为机器人学以及更广泛的多模态AI奠定真实基础的元年[8] - 将见证新型预训练:下一个世界状态可能不限于RGB图像,3D空间运动、本体感觉和触觉感知才刚刚起步[12] - 将见证新型推理:发生在视觉空间而非语言空间的“思维链”,通过模拟几何形状和接触点解决物理难题,语言只是瓶颈和脚手架而非根基[12] - 将面临全新的基础性问题探索,如动作指令解码、训练目标优化、机器人数据需求等,行业可能正迈向机器人领域的“GPT-3时刻”[13] - 这标志着AGI研究尚未收敛,行业回到了“研究的时代”,正在挑战第一性原理[13]
KAIST团队:基于双流扩散的世界模型增强VLA模型
具身智能之心· 2025-11-05 08:02
研究背景与核心问题 - 视觉-语言-动作模型是机器人通用策略学习的重要方向,但其关键缺陷是无法建模动作对环境的影响,缺乏对物理过程的显式理解[3] - 现有增强方案面临模态冲突的核心挑战,即强行统一处理动作和视觉两种特性迥异的模态会导致目标互相干扰[3][7] - 本工作提出双流扩散框架,核心目标是在保持模态特异性的同时实现跨模态知识共享,以解决联合预测的模态冲突问题[5] 相关工作梳理 - 视觉-语言-动作模型主要分为自回归生成和扩散生成两类动作生成方式,论文采用扩散生成方案,因其更易建模复杂动作分布[6] - 统一联合扩散架构用单一模型处理拼接后的动作和视觉模态,但强行统一低维动作和高维视觉会导致目标互相干扰[7] - 因果扩散架构用分离模型处理两种模态,但仅支持单向条件传递,无法实现双向知识迁移[7] - 现有模型多聚焦于模仿学习,忽略了动作如何影响未来状态的物理动态建模,这是双流扩散框架需补充的核心方向[8] 方法详解:双流扩散框架 - 框架通过架构设计、训练算法、采样策略三部分协同解决模态冲突,核心是解耦模态处理并保留跨模态交互[10] - 采用双流多模态扩散Transformer架构,动作流和视觉流保持独立传递,仅在跨模态注意力层临时合并以实现信息交换[15] - 采用解耦联合训练算法,核心是模态独立噪声调度,让动作和视觉按自身特性学习,同时捕捉双向因果关系[15] - 提出异步联合采样策略,推理时按模态需求分配去噪步数,视觉嵌入需更多步骤,动作则少量步骤即可收敛[16][18] 实验验证与分析 - 在模拟场景RoboCasa的24个任务中,100个演示数据下双流扩散框架平均成功率比GR00T-N1.5高18%,比FLARE高5%[20] - 在模拟场景GR-1的24个任务中,1000个演示数据下双流扩散框架在拾取放置和关节操作任务中的平均成功率达到0.420,优于基线的0.308[20][22] - 在真实场景Franka Research 3机械臂的4个任务中,双流扩散框架平均成功率为0.677,优于GR00T-N1.5的0.547和FLARE的0.557[24] - 通过无动作视频预训练,双流扩散框架平均成功率从0.501提升至0.585,证明其能利用低成本视频数据学习环境动态[26] - 消融实验显示,12层多模态扩散Transformer结合解耦噪声调度时性能最优,平均成功率达0.501[30] 结论与展望 - 双流扩散框架的核心创新点包括双流多模态扩散Transformer架构、解耦训练算法和异步联合采样策略[33] - 未来可探索结合更多无动作视频进行更大规模预训练,以提升模型对多样环境的适应能力[33] - 未来可融入触觉、力觉等模态,进一步增强机器人对环境的感知与动态建模能力[33]
世界模型VLA!DriveVLA-W0:7000万数据解锁自动驾驶VLA Scaling(中科院&引望)
自动驾驶之心· 2025-10-17 08:03
文章核心观点 - 中科院与华为引望的研究团队提出了一种名为DriveVLA-W0的新型自动驾驶视觉-语言-动作模型训练范式,旨在解决VLA模型因“监督不足”而无法充分利用其庞大模型容量的问题[2] - 该范式通过引入世界建模任务,让模型预测未来图像,从而生成密集的自监督信号,促使模型学习驾驶环境的底层动态规律,最终放大数据扩展定律并提升模型性能[2][4] - 实验表明,DriveVLA-W0在NAVSIM基准测试及包含7000万帧的内部数据集上,性能显著优于传统的BEV和VLA基线模型,并验证了其能加速模型性能随数据规模增大的提升速度[4][11] 背景与问题 - 当前自动驾驶领域追求通过海量数据训练基础模型,存在两种主流范式:基于BEV表征的专用模型和基于视觉-语言-动作的通用模型[5] - VLA模型的核心挑战在于“监督不足”:模型规模庞大,但仅通过稀疏、低维的动作信号进行监督,导致其大部分表征能力未被充分利用,性能甚至可能不及更小的专用BEV模型[5] - 单纯增加仅含动作监督的训练数据量无法解决这一根本性局限[5] 技术方案:DriveVLA-W0范式 - **核心创新**:将世界建模作为强自监督目标,补充稀疏的动作信号,通过预测未来图像为每个时间步提供密集的监督信号[5][9] - **针对不同架构的适配**: - 对于使用离散视觉token的VLA模型,设计了自回归世界模型,预测未来图像的离散视觉token序列[4][7] - 对于基于连续视觉特征的VLA模型,设计了扩散世界模型,在连续潜在空间中生成未来图像像素[4][7] - **模型架构**:基于两种主流VLM backbone构建基准模型变体,分别是处理离散视觉表征的Emu3和处理连续视觉特征的Qwen2.5-VL[12][19] - **效率优化**:引入了基于混合专家的轻量级动作专家,将动作生成与大型VLA骨干网络解耦,使推理延迟降至基准模型的63.1%[11][20] 实验结果与性能 - **在NAVSIM基准上的表现**:DriveVLA-W0在仅使用1个摄像头的情况下,综合性能指标达到90.2,优于使用更多传感器的其他VLA和BEV方法[25] - **在内部数据集上的扩展性**:在包含7000万帧的大规模内部数据集上,DriveVLA-W0展现出显著的数据扩展放大效应[4][11] - 对于VLA模型,增加世界建模后,在70M数据规模下,ADE指标提升了28.8%,碰撞率降低了19.7%[28] - 对于VLA模型,在相同条件下,ADE指标提升了3.7%,碰撞率降低了15.9%[28] - **动作专家的研究发现**:随着数据规模从NAVSIM的10.3万帧扩大到内部数据集的7000万帧,动作解码器的性能趋势出现反转[11][28] - 在小规模数据上,复杂的流匹配解码器更具优势[11] - 在大规模数据下,更简单的自回归解码器成为最优选择,在内部数据集上其ADE指标优于基于查询的方法10.5%,碰撞率降低34.9%[28] 意义与贡献 - **理论贡献**:明确指出“监督不足”是阻碍VLA模型扩展的关键瓶颈,并提出通过世界建模获取密集自监督信号的解决方案[11][30] - **实践价值**:世界建模不仅提升了模型在不同动作分布领域的泛化能力,更重要的是放大了数据扩展定律,实现了仅靠动作监督扩展无法达到的效果[11] - **行业影响**:研究表明,采用密集的预测性世界建模是充分释放大规模数据潜力、实现更具通用性驾驶智能的关键一步[31]