世界模型
搜索文档
“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
硬AI· 2025-12-13 20:45
文章核心观点 - AI视频生成独角兽Runway发布其首款通用世界模型GWM-1 标志着公司战略从影视特效供应商向物理世界AI架构师进化 战场从比拼画质升级到比拼对物理世界的理解 [2] - GWM-1的核心突破在于连贯性与交互性 它是一个能够理解物理规律、几何结构及环境动态的模拟系统 能通过逐帧预测模拟世界演变 支持长达数分钟的连贯实时交互 [2] - Runway的最终愿景是将不同领域和动作空间统一到一个单一的基础世界模型中 [6] - 面对谷歌、英伟达等巨头的竞争 Runway需证明其有能力成为物理世界的AI架构师 这是评估其估值能否迈向下一阶段的关键 [20] 拆解GWM-1:从“像素预测”到“通用模拟” - 世界模型旨在让AI内部构建对现实世界运行机制的模拟 使其具备无需遍历所有现实场景的推理、规划和行动能力 [5] - Runway认为 教模型直接预测像素是实现通用模拟的最佳路径 [5] - 目前的GWM-1是由三个针对不同领域进行后训练的自回归模型组成的系列 均建立在Runway最新的Gen-4.5基座模型之上 [5] GWM-Worlds:可交互的数字环境探索界面 - GWM-Worlds采用逐帧预测方式 用户可在任何时刻根据应用场景进行干预 模型会模拟接下来发生的事情 [8] - 模型提供探索数字环境的界面 用户可通过提示词或参考图像设定场景 模型将以24fps帧率和720p分辨率生成环境 [8] - 与传统视频生成不同 用户可实时改变镜头视角、环境条件或物体状态 模型能理解几何与光影 确保长序列运动中画面连贯性 [8] - 除了用于游戏设计预览和VR环境生成 其更深远意义在于为AI Agent提供训练场 教导它们如何在物理世界中导航和行动 [8] GWM-Robotics:解决具身智能的“数据饥渴” - GWM-Robotics展示了Runway进军工业与具身智能领域的野心 [10] - 该模型旨在通过生成高质量的合成数据 模拟极端天气、突发障碍等长尾场景 帮助机器人在虚拟空间进行策略评估 从而大幅降低训练成本并在投入真实世界前预判违规风险 [11] - Runway正通过SDK向部分企业开放GWM-Robotics 并与多家机器人公司接触 试图在SaaS订阅收入外开辟面向B端工业客户的新业务 [11] GWM-Avatars:统一视频与语音的交互终端 - GWM-Avatars是一个将视频生成与语音结合的统一模型 宣称其生成的数字人能进行长时间连续对话且无画质损耗 [14] - 若该技术效果属实且能规模化落地 或将对客户服务及在线教育行业产生颠覆性影响 [15] 基座进化与算力军备 - Runway同期发布了Gen-4.5模型更新 补齐了原生音频和多镜头编辑短板 新版本支持生成长达一分钟的视频 并能保持角色一致性、生成原生对话和背景音效 [18] - 为支撑从创意生成迈向世界模拟的庞大算力需求 Runway宣布与云服务商CoreWeave达成协议 未来将利用其云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理 [18]
专家指具身智能大规模落地仍处于早期阶段
中国新闻网· 2025-12-13 20:33
行业现状与核心观点 - 当前具身智能已取得认知智能与物理智能的双线突破,但大规模落地仍处于早期阶段 [1] - 行业未来方向仍在持续竞争与快速演化中,模型路线、数据范式及最佳机器人形态仍未定型 [1] 行业面临的三大核心焦点问题 - 模型路线之争:大模型范式在语言、图像、视频领域成功,但其是否适用于机器人控制仍未被证明,业界正在探索多种途径 [1] - 数据训练范式之争:数据是限制机器人能力跃升的核心瓶颈,混合数据、多模态数据、世界模型生成数据等方向均在探索中 [1] - 形态路线之争:人形机器人是否是“真需求”存在分歧,特斯拉、Figure AI等企业坚持全人形路线,而中国国内今年涌现多款强调“工程可落地性”的“轮-臂式复合机器人”,旨在短期内形成可规模化的商业应用 [1] 技术路径与未来展望 - 利用大模型提升机器人的泛化能力已成为业界共识,但如何有效应用仍存在多条技术路径,行业在持续探索中 [2] - 未来在VLA(视觉-语言-动作模型)基础上引入世界模型,借助其对物理世界的理解、预测与推演能力,有望成为进一步提升机器人大模型能力的重要发展路径 [2]
“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
华尔街见闻· 2025-12-13 18:36
AI视频生成行业技术演进 - AI视频生成领域的竞争焦点正从单纯比拼画质,进化到比拼对物理世界的理解[1] - AI视频生成独角兽Runway于12月11日正式发布其首款通用世界模型GWM-1,进入由谷歌、英伟达等巨头领先的“世界模拟”战场[1] Runway通用世界模型GWM-1核心突破 - GWM-1被设计为能够理解物理规律、几何结构及环境动态的模拟系统,其核心突破在于“连贯性”与“交互性”[1] - 该模型基于对物理规律和环境动态的理解,能通过逐帧预测来模拟世界随时间演变的过程,并支持长达数分钟的连贯实时交互[1] - “世界模型”旨在让AI在内部构建对现实世界运行机制的模拟,使其能够在无需遍历现实所有场景的情况下,具备推理、规划和行动的能力[3] - 构建世界模型首先需要构建卓越的视频模型,教模型直接预测像素是实现通用模拟的最佳路径[3] - 目前的GWM-1是由三个针对不同领域进行后训练的自回归模型组成的系列,均建立在Runway最新的Gen-4.5基座模型之上[3] - 公司的最终愿景是将不同的领域和动作空间统一到一个单一的基础世界模型中[3] GWM-Worlds:可交互的数字环境 - GWM-Worlds是建立在Gen-4.5基座模型之上,采用逐帧预测方式的自回归模型[4] - 用户可在任何时刻根据应用场景进行干预,模型会模拟接下来发生的事情[4] - 该模型提供了一个用于探索数字环境的界面,用户可通过提示词或参考图像设定场景,模型将以24fps的帧率和720p的分辨率生成环境[4] - 用户可以实时改变镜头视角、环境条件或物体状态,模型能够理解几何与光影,确保生成的画面在长序列运动中保持连贯性[4] - 除了游戏设计预览和VR环境生成外,GWM-Worlds更深远的意义在于为AI Agent提供训练场,教导它们如何在物理世界中导航和行动[4] GWM-Robotics:进军工业与具身智能 - GWM-Robotics的推出展示了Runway进军工业与具身智能领域的野心[6] - 该模型旨在通过生成高质量的“合成数据”,模拟各种环境变数,以解决机器人研发中获取“长尾场景”真实数据成本极高的痛点[6] - 这能帮助机器人在虚拟空间中进行策略评估,大幅降低训练成本,并在投入真实世界前预判其违规风险[6] - 公司正通过SDK向部分企业开放GWM-Robotics,并与多家机器人公司保持积极接触,试图在SaaS订阅收入之外开辟面向B端工业客户的新业务[6] GWM-Avatars:人机交互终端 - GWM-Avatars瞄准人机交互,是一个将视频生成与语音结合的统一模型[8] - Runway宣称其生成的数字人能进行长时间连续对话且无画质损耗[8] - 若该技术效果属实且能规模化落地,或将对客户服务及在线教育行业产生颠覆性影响[8] 基座模型升级与算力支撑 - Runway同期发布了Gen-4.5模型更新,补齐了原生音频和多镜头编辑的短板[10] - 新版本支持生成长达一分钟的视频,并能保持角色一致性、生成原生对话和背景音效,继续从“C端玩具”迈向“B端生产力工具”[10] - 为支撑从创意生成迈向世界模拟的庞大算力需求,Runway宣布与云服务商CoreWeave达成协议[10] - 未来将利用CoreWeave云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理[10] 公司战略与行业竞争格局 - Runway的战略版图正从影视创意工具向机器人模拟器等领域极速扩张[11] - 在世界模型这一新赛道上,公司已不再拥有视频生成初期的先发优势[11] - 面对谷歌、英伟达等拥有深厚底层资源和科研积累的巨头,公司需要证明自己不仅是一家影视行业的“特效供应商”,而是有能力成为物理世界的“AI架构师”[11] - 这将是评估其估值能否迈向下一阶段的关键[11]
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网· 2025-12-13 17:13
文章核心观点 世界模型作为具身智能发展的关键方向,目前研究尚处起步阶段且共识未成,但已在通用空间感知、三维感知视频生成、数字人重建、物理世界建模及三维生成技术等多个关键子领域取得显著进展,这些技术旨在为机器人或AI系统提供对物理世界的深刻理解、交互与预测能力,并正从研究走向应用 [2] 面向具身智能的通用空间感知技术 - 浙江大学研究员彭思达团队聚焦赋予机器人三项基础空间感知能力:相机定位、深度估计和物体运动估计,这些是机器人决策和规划的关键支撑 [5] - 团队提出使用人类行为数据训练机器人的思路,将人类视为特殊机器人,通过记录日常行为获取训练数据,此过程依赖上述三项感知技术 [6] - 在相机定位方面,团队于2021年提出LoFTR模型,使用Transformer进行图像稠密特征匹配,以解决传统方法在恶劣环境或大视角差异下匹配不佳的问题 [7] - 在深度估计方面,针对现有方法在物体边缘产生“飞点”的问题,团队提出Pixel-Perfect-Depth思路,移除VAE并在像素空间优化,同时整合语言特征以增强模型全局理解能力 [8] - 在物体运动估计(三维跟踪)方面,团队提出SpatialTracker方法,将二维图像反投影至三维空间进行3D tracking,以实现比传统二维跟踪更鲁棒的效果 [9] 迈向三维感知的视频世界模型 - 腾讯ARC Lab研究员胡文博指出,尽管Sora展现了不错的3D一致性,但视频细节的垂直性与平整性仍有提升空间,且视频本质是2D的,而世界是3D的,因此探索3D感知的视频世界模型至关重要 [12] - 团队从重建和生成两方面发力,重建工作包括从视频估计深度(DepthCrafter)、从视频估计点云进行4D重建(GeometryCrafter)以及从单目视频重建运动(Holi4D) [13] - 在生成方面,ViewCrafter借助重建的3D点云控制视频扩散模型,实现以点云为条件的图像生成与更新,这被视为早期世界模型的记忆机制 [14] - TrajectoryCrafter工作允许用户通过单目视频探索背后的4D世界,通过注入重建的3D信息,能生成指定相机位姿的动态视频、子弹时间特效和复现Dolly Zoom特效 [16] - VerseCrafter模型实现了场景交互,在单图重建几何的基础上,通过标注可移动物体,能生成固定相机、只动物体、相机物体同动等逼真的交互观测结果 [16] 数字人重建技术的进展与展望 - 西湖大学修宇亮教授团队推出的UP2You方案,将单个数字人建模时间从传统DreamBooth等方法所需的3至4小时大幅压缩至1.5分钟,其核心是将日常“脏数据”转化为对重建友好的多视角正交图片 [20] - UP2You方案的优势在于重建质量随输入图片数量增加而稳定提升,能规避脏数据弊端并放大数据量优势 [21] - ETCH工作旨在根据高精度穿衣人体模型得到解剖学正确的内部人体结构,通过向量定义衣服与皮肤间的厚度关系,解决了此前建模结果普遍偏胖的问题,该工作获ICCV 2025 Highlight Paper [21][22] - Human3R工作实现了人物及场景的实时动态呈现,在同时进行场景重建和人体状态预测、追踪的基础上,达到实时15 FPS且仅占用8GB显存,仅需一张商用GPU即可实现SOTA性能 [22] - 修宇亮教授展望指出,更强大的通用3D重建模型正使数字人重建任务迎刃而解,未来相关任务将逐渐转变为在视觉基础模型上进行微调 [23] 创新基础模型以强化物理世界建模 - 中山大学王广润博士指出,物理空间智能面临“感知-规划-执行”端到端实现的挑战,但高质量数据匮乏 [26] - 团队在推理计算上提出全局迭代生成方法,相比顺序生成,具备全局性、渐进精化、快速性及便于多模态统一的优势 [26] - 团队提出全新的原位Tweedie离散扩散模型,该模型可在one-hot单纯形上实现严格扩散过程,直接在扩散空间去噪,不依赖嵌入、掩码或马尔科夫性,且去噪过程中token语义能从混乱噪声逐步稳定为清晰表征 [26] - 针对现有VLA模型的瓶颈(泛化不足、动作控制粗糙、建模范式矛盾),团队构建了新的E0具身大模型 [27] - 王广润博士提出了物理建模与空间建模解耦的思路,并介绍其实验室构建了一个24小时运行的无人机化物理智能评测平台,用于无痛测评VLA模型 [28] 三维生成技术的价值与未来角色 - 香港中文大学(深圳)韩晓光教授梳理了三维生成技术的发展:从“类别限定”时代,到Dreamfusion开启的“开放世界”文本生成3D时代,再发展到当前大模型时代(如Adobe大型重建模型、混元3D),单图生成3D的效果和速度已大幅提升 [32] - 韩晓光教授指出三维生成的三大趋势:更精细(追求几何细节)、更结构化(模型可自动拆解部件)、更对齐(确保3D模型与输入2D图像精确对应) [32] - 针对Sora等视频生成模型对三维内容创作构成的“存在性”冲击,韩晓光教授分析视频生成存在细节可控性差、长程记忆缺失等难题,为3D技术留下了价值空间,并提出了四种可能的2D与3D结合路径 [33] - 在世界模型是否需要3D的问题上,韩晓光教授认为,无论是为VR/AR提供可交互的触觉反馈,还是为机器人提供仿真训练环境,或是实现虚拟到实体的智能制造,3D都是不可或缺的基石 [33] - 韩晓光教授强调,3D作为一种人类可直观理解、可解释的显式表示,是构建可信、安全AI系统的关键途径,有助于在模型效果与可解释性之间取得平衡,带来安全感 [34] 圆桌讨论:世界模型的未来展望 - 彭思达认为世界模型发展需同时关注算法提升与硬件迭代,并预测3D tracking技术将在2027年慢慢收敛,同时自监督学习会出现巨大突破 [37] - 胡文博致力于开发给个人使用的世界模型,让使用者能够体验未知、虚构或他人的世界 [37] - 王广润期待世界模型在交互层面的应用,看好从当前状态到未来更高级别(如从PI0到PI1)的发展过程 [37] - 韩晓光认为到2026年,做好3D的骨架和可移动部分对具身智能依然非常有用,并呼吁继续探索3D方向 [37] - 修宇亮指出需从多模态表征统一的角度解决数字人的情绪价值问题,但面临情绪价值难以量化、缺乏基准的挑战 [38] - 主持人赵昊呼吁该领域需要形成共识与合作,一个关于“世界模型”的技术联盟正在酝酿之中 [39]
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 17:13
文章核心观点 文章通过港中深助理教授韩晓光的视角,探讨了在视频生成模型(如Sora)兴起的背景下,三维生成与世界模型构建的必要性及其不可替代的价值 核心观点认为,尽管端到端的“炼丹”式AI在性能上取得突破,但为了满足人类对可解释性、安全感和精细可控的需求,尤其是在构建可交互的虚拟世界、发展具身智能以及实现数字到实体制造等领域,三维生成与显式的、结构化的建模方法是不可或缺的 [2][3][4][58][61][63] 三维生成发展历程与现状 - 三维生成在深度学习兴起前就已存在,早期主要聚焦于“类别限定”的生成,即为椅子、车辆等特定类别分别训练模型 [9] - “开放世界”的三维生成大约从2023年的Dreamfusion工作开始兴起,实现了从文本直接生成3D模型,但基于优化方法,生成速度较慢,通常需要半小时到一小时 [11][12][14] - 当前进入大模型时代,例如Adobe的Large Reconstruction Model和上海科大的Clay工作提出了“原生模型”概念,商业应用如腾讯混元3D的3.0版本已能实现从单张图像生成高质量三维模型 [16] 三维生成的发展趋势 - 趋势一:更精细,追求几何层面的极致细节表现,例如数美万物的Spark 3D [19] - 趋势二:更结构化,生成的三维模型需要能被拆解成独立部件以便编辑,例如混元3D的“X-Part”工作 [19] - 趋势三:更对齐,解决生成模型与输入图像在细节上不对应的问题,例如输入图像栅栏有5条横杠而生成模型变成6条的问题 [20] 视频生成兴起对三维生成的冲击与反思 - 视频生成技术(如Sora)的出现对三维内容创作领域造成冲击,因为它能用文本指令直接输出视频,跳过了传统三维建模、绑定、渲染等复杂流程 [24][28] - 视频生成当前存在核心局限:物理模拟不够真实、3D空间不一致、内容可控性不足(如难以精细修改视频中物体的特定属性) [29][30] - 尽管Sora2和谷歌Veo3已展示出初步的可控能力(如控制视角变化),但真正的危机感促使行业思考视频生成模型是否真的不需要3D [34][37] 视频模型与三维结合的潜在路径 - 路径一:完全不用3D,采用纯2D的端到端范式,依赖海量视频数据训练 [38] - 路径二:利用3D仿真作为“世界模拟器”,先根据条件生成可控但不真实的CG视频,再用神经网络将其转化为真实视频 [39] - 路径三:将3D信息作为控制信号输入,例如基于三维重建的场景模型来生成空间一致的长视频,以解决“长程记忆”问题 [38][39] - 路径四:用3D合成数据辅助训练,利用3D仿真批量生成可控的、带标注的视频数据,以增强端到端视频模型的训练 [39] 世界模型的分类与三维的必要性 - 世界模型的核心是对真实世界进行数字化,以计算方式理解和表达规律,并用于预测 [41] - 第一类:服务于“人类共同体”的宏观世界模型,如气候模拟、社会系统推演 [43] - 第二类:服务于“个人”的体验与探索模型,核心是可交互性,需要数字化物理与交互规律以构建沉浸式虚拟世界 [43] - 第三类:给机器用的世界模型,如用于自动驾驶或具身智能机器人,需要能根据动作预测环境变化 [44] - 为实现可交互的世界模型(如VR体验需要触觉反馈),3D是必要的 [45] 具身智能与三维生成的关系 - 发展具身智能的主流方法是“向人类学习”,这需要首先对人类与物体的交互过程进行精确的、动态的数字化捕捉与还原,3D乃至4D的还原是必要基础 [48] - 为了让机器人安全高效地探索和学习,需要创造可交互的三维仿真环境,因此具身智能同样离不开3D [48] 从数字到实体的制造需求 - 在三维打印、智能制造、CAD模型生成等领域,实现从虚拟设计到实体制造的个性化定制,3D是绝对的基础,例如牙齿生成项目就是为了制造精确的牙齿模型 [50][52] 技术路线之争:显式与隐式 - 隐式(数据驱动)路径:构建端到端神经网络,依赖“潜变量”编码所有信息,是典型的“黑箱”逻辑 [56] - 显式(模型驱动)路径:显式地重建三维模型,并基于明确的几何与物理公式进行计算和判断,依赖对世界的明确建模 [57] - 可解释性与安全感:显式的、可视化的3D/4D信息是人类能够直观理解和信任的维度,能带来安全感,而高维的“潜变量”则让人难以理解其运作原理 [57][58][59] - 当前AI时代过分追求性能而可解释性不足,实现可解释性需要3D作为人类能够直观理解的基石 [61][63]
何小鹏立“赌约”:明年8月底前达到特斯拉FSD效果
每日经济新闻· 2025-12-13 14:46
行业技术路线分歧 - 2025年辅助驾驶行业在发展方向上出现VLA与世界模型的技术路线分歧,理想汽车与小鹏汽车是选择VLA方案的代表 [4] - VLA被视为端到端方案的智能增强版,其架构包含视觉感知、大语言模型和动作执行,大语言模型作为中台负责将感知信息转译为规划与决策 [5] - 世界模型指AI系统通过感知数据构建对物理世界的内部模拟,从而具备预测、推理和生成合理行为链的能力,在辅助驾驶中能实现理解世界与预测未来 [9] - 华为、蔚来、商汤等企业布局世界模型路线,华为乾崑自研的WEWA架构包含云端世界引擎与车端世界行为模型,省去语言环节直接通过视觉信息控车 [8][10] VLA方案的核心观点与优势 - VLA模型的核心突破在于引入思维链,通过语言模型实现对环境理解与决策推理的可解释性,摆脱传统端到端模型的黑盒难题 [5] - VLA模型天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境 [5] - 理想汽车自动驾驶负责人认为,模型关键是与整个具身智能系统适配,数据起决定意义,其拥有数百万辆车构建的数据闭环,能在当前算力下将驾驶水平做到接近人类 [6][8] - 小鹏汽车计划在下个季度发布VLA 2.0,公司董事长与自动驾驶团队立下赌约,目标是2026年8月30日前其VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果 [1] 对VLA方案的质疑与不同看法 - 宇树科技创始人王兴兴对VLA模型持怀疑态度,认为它是一个相对傻瓜式的架构,在与真实世界交互时,其数据质量和能采集的数据不太够用 [5] - 华为智能汽车解决方案BU CEO靳玉志表示华为不会走向VLA路径,认为该路径看似取巧,并非走向真正自动驾驶的路径 [8] 技术融合趋势与未来展望 - 行业分析认为VLA与世界模型在技术上并非对立关系,而是产业玩家在实现端到端能力后,在能力优化侧重点上出现的分化,双方技术融合趋势明显 [11] - 小鹏汽车发布的第二代VLA架构被描述为既是VLA模型也是世界模型,世界模型作为记录器存在,公司正用其VLA数据训练世界模型 [12][14] - 小马智行CTO表示大部分公司两种技术都用,世界模型和VLA模型不是同一维度的东西,两者不矛盾,选择不同路线是因为目标不同 [12] - 行业观点认为,VLA与世界模型的深度融合,有望成为高阶智驾系统实现类人驾驶决策能力的关键拐点 [14] - 业内预计在未来2至3年内,辅助驾驶的技术架构还将迎来1至2轮迭代,到2028年有望收敛至相对稳定的状态 [15]
何小鹏立“赌约”:明年8月底前达到特斯拉FSD效果!理想高管回应宇树王兴兴质疑,多家车企押注的VLA,靠谱吗?
每日经济新闻· 2025-12-13 14:31
文章核心观点 - 智能驾驶行业在技术路线上出现分化,以理想汽车和小鹏汽车为代表的企业选择VLA(视觉-语言-动作)模型方案,而以华为、蔚来等为代表的企业则更看重世界模型(World Model)方案,双方各执一词但技术未来有望深度融合 [6][7][9][12] 行业技术路线分歧 - 辅助驾驶行业技术底座经历了从“激光雷达+高精地图”到“BEV+Transformer”,再到“端到端”的范式迁移,2025年行业在发展方向上出现了VLA与世界模型的“分歧” [6] - VLA被视为端到端方案的“智能增强版”,其架构中V(视觉)负责感知,A(动作)负责控制指令,L(大语言模型)作为“中台”进行信息转译与决策推理 [7] - 世界模型指AI系统通过感知数据构建对物理世界的内部模拟,从而具备预测、推理和生成合理行为链的能力,在辅助驾驶中能实现理解世界并提前决策 [10] - 理想汽车与小鹏汽车是选择VLA方案的代表企业,而华为、蔚来、商汤等企业则在世界模型技术路线上进行布局 [6][9][11] VLA方案支持方观点 - 小鹏汽车董事长何小鹏宣布,小鹏VLA 2.0将在下个季度发布,并因是第一个版本而“压力很大” [1] - 何小鹏与公司自动驾驶团队立下“赌约”:若2026年8月30日前小鹏VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果,他将在硅谷筹建特色中国风味食堂,反之自动驾驶负责人需在金门大桥裸跑 [3] - 理想汽车自动驾驶研发高级副总裁郎咸朋认为,VLA是自动驾驶最好的模型方案,模型关键要与整个具身智能系统适配,而数据起决定意义 [4] - 郎咸朋强调,空谈架构不如看疗效,理想汽车拥有数百万辆车构建的数据闭环,能在当前算力下将驾驶水平做到接近人类 [8] - 清华大学车辆与运载学院助理研究员颜宏伟表示,VLA是多模态大模型驱动的智能体架构,其核心突破在于引入思维链,实现了环境理解与决策推理的可解释性 [7] - 元戎启行CEO周光认为,VLA模型融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,且天然集成海量知识库,泛化能力更强 [7] 世界模型方案支持方观点 - 华为智能汽车解决方案BU CEO靳玉志明确表示不会走向VLA路径,认为该路径看似取巧,并非走向真正自动驾驶的路径 [9] - 华为更看重WA(世界行为模型),即World Action,中间省掉Language环节,直接通过Vision信息输入控车,其自研的WEWA架构包含云端的世界引擎(WE)与车端的世界行为模型(WA) [9] - 宇树科技创始人王兴兴对VLA模型持怀疑态度,认为它是一个相对比较傻瓜式的架构,在和真实世界交互时,其数据质量和能采集的数据不太够用 [7] 技术融合趋势 - 尽管企业各执一词,但VLA与世界模型两者并不矛盾,未来有望深度融合 [12] - 国海证券研报指出,VLA与世界模型在技术上并非同级或对立关系,产业玩家在实现端到端能力后,在能力优化侧重点上出现分化,双方技术融合趋势明显,均在向对方领域渗透 [12] - 理想汽车董事长李想提到,VLA可以拆解为预训练、后训练和强化学习三个层面,强化学习中最重要的一步就是在世界模型里闭环学习 [12] - 郎咸朋表示,世界模型的高算力需求决定了它更适合在云端做数据生成和极度逼真的仿真测试和强化训练 [12] - 小马智行CTO楼天城认为,大部分公司两种技术都用,世界模型和VLA模型不是一个维度的东西,而是交错的,不矛盾不冲突 [13] - 小鹏汽车有将两种技术融合的趋势,其发布的第二代VLA架构中,世界模型是作为二代VLA的一个记录器存在,在用VLA数据训练世界模型 [13][16] - 小鹏汽车自动驾驶产品高级总监袁婷婷表示,小鹏的二代VLA既是VLA模型,也是世界模型 [16] - 小米汽车主任科学家陈龙认为,VLA管“抽象思考”,世界模型管“物理感知”,两者结合才是通往更强通用具身智能 [16] - 国元证券认为,未来VLA与世界模型的深度融合,有望成为高阶智驾系统实现类人驾驶决策能力的关键拐点 [16] 技术演进与公司动态 - 小鹏汽车第一代VLA方案是V到L再到A,第二代VLA是V+L到A,把L转移到了输入端,何小鹏解释称第一代涉及两次语言转换会带来大量信息损耗,第二代以视觉为核心,把模型看到的世界直接转换成运动轨迹 [13][16] - 长安汽车智能驾驶高级总工程师预测,未来2至3年内辅助驾驶的技术架构还将迎来1至2轮迭代,到2028年有望收敛至相对稳定的状态 [17]
2026 将近,世界模型到底更「世界」了吗?
机器之心· 2025-12-13 10:30
文章核心观点 - 近期Runway发布新产品,将视频生成推向可交互的“世界模拟”,引发了关于“世界模型”本质的讨论:它究竟是面向创作的界面、用于训练的模拟器,还是面向推理的认知框架[1] - 世界模型的概念在2024至2025年间经历了快速演变,从强化学习语境中的内部环境模型,扩展到更通用的世界演化建模,并与LLM一同被视为通向AGI的关键路线[4][8] - 当前业界对世界模型的定义存在模糊与分裂,主要围绕“如何建模”展开技术路线之争,例如OpenAI的Sora强调像素级模拟,而Meta的V-JEPA强调抽象表征预测[6][7] - 国内外厂商积极布局世界模型,但其动机各异,有的为补充数据引擎,有的为搭建时空认知新框架,融资热潮进一步加剧了概念歧义[3][8] 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变? - **2024年初的强化学习语境**:世界模型最初定义相对收敛,被视为智能体的“内部环境模型”,是一个从当前状态和动作预测下一状态的函数,旨在将试错成本转移到内部推演,提高样本效率和规划能力[4][5] - **工程化能力拆解**:同一时期,世界模型被定义为三类能力的组合:将高维感知压缩为可用表征、在时间上预测未来、以及利用预测进行规划和决策,Transformer和自监督学习开始被纳入讨论,但整体仍是强化学习的延展[6] - **概念外推与通用化**:进入2024年,业内理解开始延伸,将其从“针对具体子任务的动态模型”外推到更通用的世界演化建模,并认为存在“语言生成→图像生成→3D生成→世界生成(同时具备时序与空间序建模)”的趋势链条[6] - **概念边界模糊化**:同时,世界模型的概念边界变得更模糊,表征形式(视频序列还是3D表征)、物理规律的融入方式、输入关系组织等均被视为未收敛的开放问题[6] - **技术路线分化(2024年2月)**: - **OpenAI的Sora路线**:被称为“world simulators”,强调在像素空间中学习现实世界的三维结构与物理规律,并能够模拟世界演化[6] - **Meta(LeCun)的V-JEPA路线**:强调世界模型不是在像素层面补全,而是在抽象表示空间预测被遮蔽的视频片段,允许丢弃不可预测信息以换取更高训练效率,其训练更强调自监督与未标注数据预训练[6] - **核心争议转移**:主题从“要不要做世界模型”转变为“世界模型如何建模”,争议焦点在于应从像素层逐步抽象,还是直接在抽象空间跳过像素细节[7] - **对现有路线的批评**:有研究者认为当前路线(如Sora和V-JEPA)只学到了部分物理规律,距离“完整世界模型”还有差距,提出构成“连贯世界模型”还需要孤立对象的表征、跨时空的先验变化规律以及康德范畴,并指出Sora的缺陷无法通过扩大训练规模弥补,V-JEPA则仍未理解康德范畴[7] 界面、模拟器还是认知框架,世界模型的定义依旧模糊? - **地位提升至与LLM同级**:进入2025年,世界模型被推至与LLM同级的位置,分析认为Google DeepMind、Meta和Nvidia等公司正从纯LLM转向世界模型,目标是实现“Physical AI + 超级智能”,部分原因是LLM路线提升放缓[8] - **与LLM及VLA的差异**: - 世界模型的目标是在内部构建包含物理、时间、空间维度的环境表征,用于规划和决策,可应用于无人机、自动驾驶、机器人等领域[8] - 有观点指出,当前LLM更像启发式方法拼盘,离真正的世界模型还很远[8] - 与视觉语言动作模型相比,世界模型代表了更底层的认知方式,强调物理规律和空间理解,更适合长期演进[8] - **概念同名但内核分裂**:发展至今,世界模型出现了“概念同名但内核分裂”的现象,它可以指代系统内部的潜在状态、给智能体训练用的类游戏模拟器,或任何能生成可走动3D场景的内容管线[8] - **融资热潮放大歧义**:世界模型的融资热潮进一步放大了这种歧义,只要产品贴上世界模型标签,往往很少有人继续追问其是否真正支持预测、规划和泛化[8] - **技术路线三分法**:有分析将世界模型的技术路线重新划分为界面、模拟器和认知框架三条路径[9] 重押还是凑数,国内外各厂商如何布局世界模型? - **布局动机各异**:大厂布局世界模型,动机可能是在补充“数据引擎”,也可能是在搭建“时空认知”的新框架[3]
GAIR 2025 正式开幕:当AI变革行至产业深海,我们又将如何破暗寻光?
雷峰网· 2025-12-12 10:49
GAIR 2025大会概况 - 第八届GAIR全球人工智能与机器人大会于12月12日在深圳博林天瑞喜来登酒店举办[2] - 大会共开设四个主题论坛与两个闭门会议,聚焦大模型、AI算力、世界模型、数据&一脑多形、AI硬件等领域的创新脉搏[2] - 大会旨在汇聚前瞻学者与行业先锋,搭建创造未来的思想与商业策源地,让AI思想火花碰撞出产业实践的全新范式[4][10] 大会历史与定位 - GAIR大会始于2016年,至今已举办八届,每届都在时代最前沿镌刻下新的记录[5] - 2018年,GAIR成为国内首个突破5000名AI专家参会的AI大会[5] - 2023年,GAIR代表中国AI顶会首次出海,正式在新加坡落地[5] - 当前AI大模型浪潮已从“技术破壁”迈入了“价值深耕”阶段[4] 本届大会亮点 - 汇聚全球院士、顶会主席、企业技术领袖,共话AI大模型的世纪变革[6] - 探讨领域包括具身智能、AI算力、世界模型、AI硬件等[6] - 呈现青年学者与前辈的跨代际共鸣,以及AI商业化浪潮下的机遇与挑战[6] 与会重要机构与人物 - 指导委员会主席为中国工程院院士、鹏城实验室主任高文[13] - 大会主席包括加拿大皇家科学院院士杨强、GAIR研究院创始人朱晓蕊[13] - 组委会主席包括清华大学教授杨士强、雷峰网创始人林军[13] - 大会程序主席为KDD China主席、京东集团副总裁郑宇[13] - 参与院士及专家包括中国工程院外籍院士郭毅可、欧洲科学院院士刘向阳、日本工程院院士Kazuhiro Kosuge等[17][21] - 参与企业及投资机构代表来自京东、腾讯、摩尔线程、诺亦腾、并行科技、燧原科技、英诺天使基金、IO资本等[13][17][26][27]
倒反天罡,Meta抄阿里千问作业,没拿授权
36氪· 2025-12-11 19:51
文章核心观点 - Meta在研发新一代旗舰AI大模型“牛油果”时,未经授权使用了阿里巴巴的开源模型“通义千问”进行微调优化,此举引发伦理争议,同时标志着中国开源AI模型在全球影响力显著提升,Meta自身则从开源霸主转向闭源策略 [1][4] - Meta在AI领域面临内部领导层变动与战略分歧,创始人级AI科学家离职,新任年轻首席AI官主导闭源开发,公司为追赶竞争对手进行了大规模收购与挖角,但在当前的AI热潮中并未获得明显优势 [5][6][7] - 全球AI格局正在发生深刻变化,中国AI技术凭借性价比优势正在获得国际认可并出海,预测未来十年全球AI市场将形成中美双强格局,中国市场份额有望从约30%提升至40%-45% [8][9] Meta的“牛油果”项目与战略转向 - Meta正在开发下一代旗舰AI大模型“牛油果”,目标性能直指GPT-5,计划于2026年第一季度发布 [2] - 在“牛油果”研发中,Meta引入了阿里巴巴的通义千问开源模型进行微调优化,但事先未向阿里索要授权 [1] - “牛油果”模型标志着Meta从Llama系列的开源路线彻底转向闭源专有模型,仅通过API和托管服务向企业开放 [4] - 通义千问为开源模型,全球累计下载量已突破7亿次 [1] Meta的AI领导层与内部变动 - Meta AI奠基人、首席AI科学家杨立坤(图灵奖得主)已于上月离职,其AI理念与业界主流存在分歧,不看好大语言模型作为AGI核心路径,主张发展“世界模型” [5][6] - Meta新任首席AI官为亚历山大王,年仅28岁,于2025年7月空降,主导闭源AI开发并拥有实权 [6] - 为加强AI实力,Meta于2025年6月以148亿美元(约1045亿元人民币)收购了亚历山大王创办的AI数据标注公司49%的股份,并从OpenAI等公司高薪挖人 [6][7] 中国AI模型的全球影响力提升 - 阿里巴巴通义千问模型被Meta用于微调“牛油果”,显示其技术影响力 [1] - 新加坡国家人工智能计划在其最新的东南亚语言大模型项目中,放弃Meta的Llama系列,全面转向阿里千问开源架构 [8] - 爱彼迎CEO表示公司正大量依赖阿里千问模型,并认为其“比OpenAI更好更便宜” [8] 全球AI竞争格局未来展望 - 预测未来十年,全球AI领域将形成中美双强格局,中国AI市场占有率将从目前的30%左右提升至40%-45%,美国则从约50%降至45%-50% [9] - 从全球市占率考虑,OpenAI和谷歌可能占据美国市场前两名,合计份额约30%;中国则以阿里、字节和DeepSeek为首,合计占据约25%的份额 [9] - 更多发展中国家可能出于性价比考虑采用中国AI技术,而欧洲和中东国家可能因数据隐私等因素选择美国技术 [9]