Workflow
世界模型
icon
搜索文档
Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景
机器之心· 2026-02-07 15:00
文章核心观点 - Waymo推出了基于DeepMind Genie 3构建的全新世界模型Waymo World Model,旨在通过生成高度逼真、可交互的3D仿真环境,为自动驾驶系统提供大规模、超真实的训练与测试能力,以应对现实世界中罕见和极端的“长尾”场景[1][4] 技术基础与架构 - 模型建立在Google DeepMind的通用世界模型Genie 3之上,并针对自动驾驶需求进行了专业化适配[4] - 模型能够生成高度逼真且可交互的3D环境,并支持生成高保真、多传感器数据,包括摄像头图像和激光雷达点云[4] - 通过专门的后训练流程,将Genie 3从庞大2D视频数据中学习到的世界知识,迁移到了Waymo硬件套件独有的3D激光雷达输出中,实现了跨传感器模态的场景生成[8] 核心能力与优势 - **大规模仿真经验**:Waymo Driver在真正驶上公共道路前,已在虚拟世界中行驶了数十亿英里,远超其近2亿英里的真实道路行驶里程[4] - **处理罕见与极端场景**:模型可以模拟现实中几乎无法大规模复现的罕见事件,例如遭遇龙卷风、大象、长角牛等[4][9][10] - **强大的模拟可控性**:通过三种主要机制实现高度可控的仿真[11] - **驾驶行为控制**:创造响应迅速的仿真器,遵循特定驾驶输入,用于模拟“如果…会怎样”的反事实事件[11] - **场景布局控制**:允许自定义道路布局、交通信号灯状态以及其他道路使用者的行为,以创建定制场景[13] - **语言控制**:最灵活的工具,可用于调节时间、天气状况,甚至生成完全合成的长尾场景[16][17][19] - **真实感与准确性**:可将普通相机拍摄的视频(如行车记录仪视频)转换为多模态仿真,呈现Waymo Driver在同一场景下的“所见”,该过程在真实感和事实准确性上达到最高水平[22] - **可扩展推理**:通过高效变体模型,可以在显著降低计算量的同时模拟更长的场景(如4倍速播放),并保持高真实感与高保真度,支持大规模仿真[24][25] 应用与行业影响 - 该模型是支撑Waymo进行大规模虚拟测试的核心基础设施,使自动驾驶系统能够在现实世界之外,提前掌握应对真实世界复杂挑战的能力[4] - 通过模拟罕见、极端边缘场景(如逆向行驶车辆、极端天气、动物穿行、繁忙街区穿行等),为自动驾驶系统设立了更严格的安全基准,确保其在现实道路上遇到类似挑战前已具备应对能力[5][6][9][27][28]
全新视角看世界模型:从视频生成迈向通用世界模拟器
机器之心· 2026-02-07 12:09
文章核心观点 - 视频生成与世界模型是人工智能领域的热点,其目标是从生成逼真短片发展为可用于推理、规划与控制的通用世界模拟器,并与具身智能、自动驾驶等前沿场景深度交织,被视为通往通用人工智能的重要路径[2] - 当前研究存在定义模糊、分类重叠等问题,限制了技术标准化发展,为此快手可灵团队与香港科技大学(广州)团队联合发表了一篇系统综述,旨在弥合当代“无状态”视频架构与经典“以状态为中心”世界模型理论之间的鸿沟[2][3] - 该综述首次提出了以“状态构建”与“动态建模”为双支柱的全新分类体系,并倡导将评估标准从单纯的“视觉保真度”转向“功能性基准”,为视频生成演进为鲁棒的通用世界模拟器提供了清晰的路线图[3] 核心理论贡献 - 提出了全链路视角,涵盖从底层理论定义、中层架构设计到上层功能性评估的全生命周期分析,确保对视频世界模型全方位的理解[8] - 首次将当代“无状态”的视频扩散架构与经典的基于模型强化学习、控制理论进行深度映射,为世界模型找到了坚实的理论根基[8] - 明确了“持久性”与“因果性”是迈向通用世界模拟器的两大核心关隘,为业界从被动的“像素预测”转向具备闭环交互与因果干预能力的模拟器提供了清晰的路径参考[8] - 深度梳理了2024至2025年间涌现的视频生成最新工作,反映了当前技术从视觉保真度向物理一致性转化的前沿趋势[8] 世界模型的三大基石与核心操作 - 观察:环境的原始感官数据,在视频模型中表现为高维的像素级输入,提供世界的局部、间接视图[8] - 状态:模型通过提炼历史观察,过滤噪声,形成的足以解释当前世界的“内部表示”[8] - 动态变化:预判未来的“引擎”,它刻画了状态随时间演变的规律,让模型具备在脑海中“预演”物理法则的能力[9] - 状态估计:把高维、连续的观测序列压缩成一个紧凑的状态表示,用来刻画环境在当前时刻的关键状态[13] - 状态转移:刻画环境在动作作用下的因果演化,是世界模型的“内部模拟引擎”,用于预测未来状态或观测[13] 世界模型的学习方式 - 闭环学习:世界模型与策略模型联合训练,世界模型的参数更新直接受策略目标影响,可进一步分为顺序组合架构与统一架构[14] - 开环学习:将世界模型视为通过大规模被动数据预训练得到的独立模拟器;策略模型可在自身优化中调用世界模型进行“想象/规划”,但世界模型不接收来自策略奖励信号或损失函数的梯度更新[14] 支柱一:状态构建 - 现代视频生成模型在状态层面存在关键差距:多数模型缺乏显式压缩状态,而以观测序列充当隐式状态,随时间增长带来计算/记忆负担并削弱长程持久性[12] - 隐式状态范式:不构建固定大小的显式状态变量,而是通过外部记忆机制管理历史观测,动态提炼出“工作记忆”来支撑生成所需的长期一致性与上下文连贯[16] - 显式状态范式:将状态构建内化为模型自身的压缩过程,把历史上下文持续蒸馏进一个全局更新的潜在变量中,使其成为对视频演化过程的固定维度、可递推的数学摘要[17] - 隐式状态的管理机制主要包括压缩、检索和巩固三种核心操作,以处理长上下文信息[18] - 显式状态根据其与生成骨干的融合程度,可分为耦合状态与解耦状态[19] - 隐式状态与显式状态的系统性对比:隐式状态机制依赖外部管理,上下文选择多为启发式学习或基于规则,持久性受限于窗口,计算复杂度随历史长度线性或二次增长;显式状态机制依赖内部递归,上下文选择基于学习的物理/转移规律,支持全局连续性和无限时长,计算复杂度为常数[23] - 总体取舍是:隐式状态目前更稳妥地支持高保真视频生成,而显式状态更像通往高效、可长期推理的自主智能体与世界模拟的前沿方向[22] 支柱二:动态建模 - 现代视频生成模型在动态层面存在关键差距:标准模型常以双向注意力“一次性渲染”固定时长片段,缺少显式时间因果推进[12] - 增强因果推理能力的两条主要路径:一是因果架构重构,从模型结构与训练目标入手,把生成过程从“一次性渲染”改造成“按时间顺序预测”;二是因果知识集成,引入具备更强推理能力的多模态大模型作为“规划者/导演”,先在高层完成规划,再由视频生成模型负责高保真“渲染”[25] 评估标准的演进 - 主张将评估从“视觉美感”推进到“功能基准”,并提出三条核心评价轴:质量、持久性和因果性[26] - 质量:关注基础视觉保真度、短程时序相干性以及文本/条件对齐能力,代表性工具如VBench/VBench++等[44] - 持久性:关注长时程生成的稳定性与一致性,并通过“场景重访”等记忆任务检验模型能力,相关评测包括WCS以及基于rFID的重建一致性测试等[44] - 因果性:重点检验模型是否真正内化物理与逻辑规律,评测包括时间顺序与物理有效性,以及反事实干预下的响应是否合理,并进一步延伸到agent-in-the-loop的任务成功率与规划表现[44] 未来研究方向 - 视频生成迈向世界模拟的关键在于补齐两项核心能力:持久性与因果性[27] - 持久性方面:隐式状态需要从固定窗口等启发式记忆升级为可学习、可动态筛选的信息管理机制;显式状态则要在压缩效率与细节保真之间找到更好的平衡[27] - 因果性方面:一条路线是通过架构与数据设计提升因果推断能力,另一条路线是引入理解模型的推理先验来约束生成,但如何有效对齐生成与理解仍是核心挑战[27]
特斯拉2026年资本支出将超过200亿美元,副总裁陶琳公布六大投资方向
新浪科技· 2026-02-06 23:47
公司2026年战略规划与资本支出 - 特斯拉2026年资本支出将超过200亿美元 [1] 资本支出分配详情 - 第一 Cybercab量产推进 美国工厂核心产线建设已基本完成 2025年已完成大部分前期投入 2026年将持续投入以确保规模化量产 [1] - 第二 AI算力中心建设 这是最核心的投资方向 位于美国德州的训练中心累计投入已超过100亿美元 2026年仍将大幅追加投资 该中心将支撑公司所有AI相关应用 包括自动驾驶与机器人模型训练 并作为统一“世界模型”的计算基础 服务包括中国在内的全球市场 [1] - 第三 机器人工厂改造升级 公司已启动对Model S/X产线的升级改造 2026年将推进更大规模改造工程 目标是在年底具备Optimus机器人的量产能力 [1] - 第四 储能业务扩张 公司将持续加大储能制造投入 以提升整体产能与交付能力 满足快速增长的全球能源需求 [1] - 第五 全球制造体系升级 重点是同步提升硬件自动化水平与软件能力 让整个制造体系更加高效、智能 并具备更强的规模化复制能力 [2] - 第六 充电网络持续建设与开放 公司将继续扩大充电网络覆盖范围 并逐步向更多车企开放 [2]
两会时间︱民建中央召开2026年全国两会新闻通气会
21世纪经济报道· 2026-02-06 18:17
民建中央2026年两会建言重点方向 - 2026年工作将全面贯彻落实中共二十届四中全会精神,为“十五五”开局起步凝心聚力 [1] - 建言研究紧扣中央经济工作会议部署,重点聚焦建设强大国内市场、培育壮大新动能、增强高质量发展动力活力、推动多领域合作共赢、促进城乡融合和区域联动、推动全面绿色转型、用心为群众办实事、积极稳妥化解重点领域风险等方面 [2] 经济与产业政策关注领域 - 2025年提交全国政协大会的提案中,经济类提案占比保持在60%以上 [2] - 2026年将围绕建设现代化产业体系、因地制宜发展新质生产力、建设强大国内市场等深入开展调研 [2] 科技创新与消费提振具体举措 - 在推动科技创新与产业创新深度融合上,关注完善创新联合体建设、加强农业科技装备,前瞻布局具身智能、世界模型,建设人工智能开源社区 [2] - 在大力提振消费方面,关注培育情绪价值消费新场景 [2]
Roblox(RBLX.US)2025Q4电话会:如果进入中国市场 将采用隔离部署方式
智通财经网· 2026-02-06 16:59
核心观点 - Roblox公司对2026年业务前景保持信心,强调平台内容生态健康、用户质量高,并对18岁以上用户群体的快速增长和AI技术应用持乐观态度 [1][2][3] - 公司重新评估并明确了中国市场的战略,计划采用隔离部署方式,并强调与腾讯的持续良好合作关系 [1][11] - 公司认为年龄验证功能的推广是平台长期发展的关键,并已看到其成为行业标杆的潜力 [1][9][12] 财务表现与展望 - 2025年第四季度毛利率达到2020年以来第二高水平,改善主要得益于成本较低的支付平台转移带来的成本顺风,以及预订收入增长带来的固定成本杠杆效应 [6] - 公司为2026年设定了略宽的指引范围,反映了长期预测的不确定性,且指引中未假设会出现类似“Grow a Garden”或“Steal a Brainrot”级别的病毒式爆款 [2][3] - 2026年第一季度预订收入指引环比下降超过20%,公司解释为主要由于当前季度没有大型病毒式爆款,但在没有爆款的情况下仍能实现40%到44%的顶线增长,表明平台基础健康 [13] 用户与平台生态 - 18岁以上用户群体增长速度超过50%,公司用于服务18岁以下用户的技术栈(从云端服务到社交图谱)同样适用于拓展成年用户群体 [1][11] - 年龄验证结果显示的用户年龄略低于用户自报年龄,公司认为这恰恰印证了平台作为文化现象的成功规模 [1][11] - 新用户在2025年第三、四季度的行为模式(参与、消费、留存)与核心用户非常相似,表明用户质量高 [2] - 平台内容多样性增加,2025年第四季度,排名前10名之外的体验在参与度和预订收入上的增长速度比第三季度更快,这一趋势在2026年初得以延续 [2] 技术发展与AI战略 - 公司正在整个技术栈中应用AI,包括利用3D上采样技术提升场景真实感,以及使用130亿小时的视频和真实3D世界数据训练NPC [3] - 内部世界模型团队取得突破,整合了Roblox内部数据构建世界模型,该方案可用于内容创作及其他场景 [4] - 公司强调其核心技术是构建3D云同步的多人平台,这与当前市场上主流的视频生成模型有本质区别,是其应对竞争的关键差异化因素 [4][6][7] - AI将推动“游戏”定义的扩展,公司愿景是连接人们进行玩耍、学习和工作的混合娱乐未来 [3][6] 业务板块进展 - **广告业务**:预计在2026年将实现健康增长,但目前规模仍小,并非主要收入贡献者,公司正谨慎地建设广告产品、集成技术并与创作者合作扩大库存 [10] - **发现功能**:公司专注于为每个用户进行个性化推荐,以长期连接优质用户与优质内容,而非短期收益优化,这促进了内容组合多样性的增加 [5] - **直接支付**:公司通过引导用户在成本较低的平台上购买Robux(游戏内货币)来优化成本结构,这在第四季度表现好于预期,并预计长期将继续推动利润率扩张 [6] 中国市场战略 - 公司重申与腾讯保持良好合作伙伴关系,并看到中国市场的巨大机会 [1][11] - 如果进入中国市场,公司将采用隔离部署方式,并强调其基础设施设计独特,可以抽象并在多个地点部署 [1][11] 公司治理与费用 - 公司从长期视角看待股权激励费用,认为尽管费用可能因股价在某些时点出现峰值,但创造股东价值将最终使激励费用随时间下降,过去几年的情况正是如此 [8]
当视频不再被观看,而是被「进入」:谷歌世界模型与教育想象的边界
36氪· 2026-02-06 07:09
核心观点 - 以Google DeepMind的Project Genie为代表的世界模型技术,标志着生成式AI正从生成内容转向生成可交互、可探索的“世界”或“空间”,这正在重新定义视频等媒介的本质,并可能对游戏、教育等多个行业产生深远影响 [1][2][4] 行业前瞻:视频媒介的范式转变 - 行业观点认为,到2026年,视频将不再只是被动观看的内容,而会演变成一种可被进入、操控和持续演化的“空间媒介” [2] - 这一转变的本质在于视频首次具备了环境属性,能够承载规则、因果与反馈,成为一个“活的环境”,可用于机器人训练、游戏演化、原型设计及智能体学习 [2] - 随着技术开放和创作者采用,全新的叙事形式可能出现,例如“生成式Minecraft”,由玩家共同构建不断演进的宇宙,用户将成为动态共享现实的共同作者 [3] - 生成式AI正在逼近由游戏引擎与仿真系统长期垄断的“世界构建”领域 [3] 技术突破:世界模型的核心特征 - 与传统视频生成模型专注于“画面连续”的时间序列预测不同,以Genie为代表的世界模型旨在生成一个能维持状态、规则与因果关系的“环境” [4] - Genie的突破点不在于画质,而在于三点:场景具备基本的时间连续性;用户行为会改变后续状态,形成简单因果链;世界的生成逻辑更接近“状态更新”而非“逐帧预测” [4] - Project Genie证明了自然语言正成为一种定义世界状态与规则的接口,而不仅仅是内容生成指令 [12] - 当前技术仍存在局限,包括世界规则脆弱、复杂交互易崩塌、长时间一致性难以维持以及物理、逻辑与语义间存在缝隙 [12] 潜在应用:教育领域的变革可能 - 世界模型在教育领域的核心价值在于可能大幅降低高质量、沉浸式学习情境的构建成本,使体验式学习得以规模化 [13] - 理想状态下,该技术可使历史学习变为进入可观察的社会结构,使科学学习变为推演规则系统,使职业技能训练在高度仿真环境中完成 [14] - 这种技术将学习从被动“理解”转变为主动“参与”,让学生在规则、反馈与修正中构建认知 [14] - 然而,技术应用面临明确挑战:学习效果评估困难、沉浸式环境可能增加学生认知负担、教师角色面临边缘化风险、以及如何将教学目标有效嵌入世界规则 [14] - 世界模型对教育行业的短期影响有限,它更像是对“教育如何被呈现与参与”的底层假设的一次松动,将讨论起点从“规模化交付内容”转向“构建可参与的学习环境” [15][16] 当前发展阶段与产业影响 - Project Genie仍处于较为早期的实验性原型阶段,是Genie系列研究的阶段性成果 [1] - 行业分析指出,该技术目前对于游戏引擎、游戏开发商的商业模式及竞争格局尚无法形成实质性影响 [15] - 该技术路径为游戏广告等行业带来了潜在利好 [15] - 世界模型目前是一条正在展开的技术路径,而非即刻可兑现的产业变量 [15]
36Kr-2026年具身智能产业发展研究报告:软硬件迭代加速,人形机器人蓄力规模突破
36氪研究院· 2026-02-05 19:09
报告行业投资评级 - 报告未明确给出统一的行业投资评级,但指出中国具身智能产业处于全球第一梯队,并已进入快速发展与产业化攻坚的关键阶段 [6][27][29] 报告核心观点 - 未来,具身智能将实现从技术闭环向生态协同的跨越,转化为可规模部署的通用劳动力,其场景落地将沿技术成熟度与环境复杂度逐级展开,形成多层市场空间 [5] - 中国市场将开启生态层面的综合较量,竞争转向技术底座、盈利能力与供应链体系等 [5] - 人形机器人作为主要载体,正迈入规模化放量和商业落地的关键阶段,2026年是规模化放量的关键年 [2][6][58] - 产业发展的核心突破口在于机器人大脑的演进,尤其是“世界模型”(空间大模型)的技术突破,以实现更高维度的环境理解与自主决策 [6][65][67] 中国具身智能产业发展概况 - **定义与范畴**:具身智能强调智能体通过物理实体与环境交互来实现自主学习和进化,核心在于“感知-理解-行动”的深度融合 [15][16] - **产业载体**:主要载体为机器人,按形态分为人形机器人和非人形机器人,两者在场景、技术成熟度、订单规模上存在差异 [16] - **政策驱动**:已形成国家顶层设计引领、部委专项支持、地方创新实践落地的多层次政策体系,2025年被首次写入《政府工作报告》并纳入“十五五”规划建议 [17][18] - **技术驱动**:发展依托大模型、多模态融合与仿真训练等技术的系统性突破 [21] - 大模型提供通用认知与任务规划能力,使机器人能理解自然语言并自主规划 [21] - 多模态融合与局部运动控制技术提升环境中的稳定性和鲁棒性 [21] - 仿真与硬件协同推动系统迭代,关键硬件持续突破 [21] - **需求驱动**:主要受劳动力结构性短缺、公共服务缺口及对高效率连续作业的需求驱动 [22][24] - 例如,预计到2030年全球护士缺口达1300万人,推动养老陪护机器人落地 [24] - 激光除草机器人可减少约80%除草剂使用量 [24] - **发展现状**:中国处于全球第一梯队,产业链成熟度较高,成本和场景密度优势明显 [6][27] - 企业数量超过230家,其中人形机器人企业超过150家 [27] - 供应链优势明显,中国拥有25家手部零部件供应商(美国7家),30家腿部线性执行器供应商(美国6家),整机成本可控制至海外同类产品的50%左右 [27] - **市场规模**:市场规模从2018年的2133亿元增长至2025年的9150亿元,并有望于2026年突破万亿元关口 [27] - **资本动态**:成为最受关注的战略性赛道之一,融资规模爆发式增长 [28][29] - 2025年融资事件超305起,总额超过380亿元,参与投资机构超600家,融资额是2024年同期的4倍 [29] - 资本构成以产业资本为核心,科技互联网巨头及传统企业CVC积极布局 [29] 中国具身智能产业生态分析 - **产业链结构**:上游为软硬件开发(技术基石),中游为产品制造(传导中枢),下游为应用领域(价值变现) [36] - **上游发展新动向**: - AI大模型与多模态感知是驱动上游发展的关键力量,推动向“感知-认知-决策-执行”完整闭环演进 [38] - 技术路径呈现从专用小模型向“通用大模型+垂直场景微调”方向演进的趋势 [38] - 运动控制系统存在硬件标准化缺失与软硬件协同不足的瓶颈 [39][41] - **中游发展新动向(人形机器人)**: - **技术构成与成本**:本体分为大脑(AI大模型)、小脑(运动控制)、肢体(执行器)三部分 [42][44][45][46] - 一台功能完备的人形机器人成本中,执行器和传感器合计占比60%以上,执行器系统约占45% [46][47] - **国产化程度**:核心部件国产化分化明显,结构件、电池、控制器国产化率较高;但力传感器、丝杠等高端部件国产化率低,依赖进口 [48][50] - 例如,行星滚柱丝杠国内加工良率仅60%(海外超85%),六维力传感器精度为±2%(海外±0.5%) [48] - **灵巧手**:向高自由度和高感知能力发展,是提升通用作业能力的关键 [51][54] - **中游发展新动向(规模化与商业化)**: - **规模化放量**:2026年人形机器人产业迈入规模化放量关键阶段 [58] - 2025年国内出货量达1.8万台,同比增超650%,2026年有望提升至6.25万台,乐观估计达10万-20万台级 [58] - 成本持续下行,例如优必选Walker系列2025年成本较2024年下降25%,宇树科技UnitreeR1起售价仅2.99万元 [58] - **商业化落地**:节奏加快,工业领域成为商业化扩张关键一步 [6][64] - 已出现千台级别订单,如银河通用与百达精工合作部署超1000台,数字华夏意向订单超1500台 [64] - 预计2030年中国人形机器人市场规模将达到254.04亿元,比2025年增长十倍以上 [63][64] - **下游发展新动向(应用场景)**: - **工业领域**:应用最成熟,向柔性制造、自主决策和生态协同方向发展,汽车制造是最大应用领域(2024年占比43.3%) [36][72][73] - **服务领域**:实现场景全覆盖,具有场景细分精准化、交互体验拟人化、产品形态轻量化三大特点 [74][76] - **特种领域**:在灾害救援、能源巡检等极端环境适配能力提升,任务闭环化作业成主流 [77] - **交通出行领域**:向协同化、立体化演进,聚焦自动驾驶、智能补能及低空出行 [77] 典型案例分析 - **银河通用**:具身多模态大模型通用机器人创新企业,确立“合成数据驱动+多模态大模型”技术路径,累计融资超8亿美元 [80][81] - 核心竞争力在于构建了从百亿数据集、具身大模型到机器人本体的全栈自研体系 [81] - 商业化在工业制造、即时零售仓储、智慧城市服务、医疗康养等多场景深度落地,已获数千台订单 [83][85] - **元鼎智能 (Aiper)**:专注庭院智能场景,是无线智能泳池机器人品类开创者,累计出货量近300万台 [86][87] - 形成“泳池机器人+水质治理+庭院灌溉”产品矩阵,并将“认知级AI”引入清洁领域 [87][89] - 在亚马逊无线泳池机器人品类市占率领先,部分型号超50%,并获全球龙头Fluidra战略投资 [89] - **数字华夏**:聚焦多模态交互智能,以“让AI惠及每一个人”为使命 [90][92] - 构建“2+3+N”产品与服务体系,核心为“巨号”交互平台与RAAS场景平台 [92] - 核心竞争力在于全栈自研的仿生交互技术(如微表情识别)和“平台+生态”商业化策略,产品已进入金融、能源等头部客户 [93][96][97] - **擎朗智能**:具身服务机器人领域领跑者,成立于2010年,累计出货量突破10万台,覆盖全球60余国 [98][100] - 构建“通用+专用”多形态机器人矩阵,并发布垂域模型KEENON ProS,走通“通用人形+专用服务”协作模式 [99][100]
世界模型,是自动驾驶的终极答案吗?
36氪· 2026-02-05 12:30
行业核心趋势:世界模型成为智能驾驶新焦点 - 世界模型是继端到端、VLA后,智驾领域最时髦的技术名词,多家公司推出相关概念,如小鹏的“世界基座模型”、蔚来的“端到端世界模型”、华为的“世界行为模型”,地平线、理想、元戎启行、Momenta也在进行相关研发 [2] - 在广义语境中,世界模型本质是在虚拟世界再造真实世界,使AI能理解现实世界的物理规律、因果关系和环境动态,被科学家和科技公司视为实现“物理世界AI”的关键拼图 [3] - 当前智驾行业谈论的“世界模型”在技术路径上差异不大,主要是对传统仿真工具进行范式升级,旨在还原度、颗粒度、场景丰富度和自由度更高的虚拟世界中,解决端到端模型的测试与验证问题,以训练出更拟人化的智驾模型 [4] 技术驱动因素:端到端普及暴露传统仿真短板 - 过去两三年,头部智驾方案从规则栈转向AI驱动的端到端模型,感知、预测、规划被整合进一张网络,配合更大模型和更高算力,旨在使驾驶行为更拟人 [7] - 端到端模型的“黑盒”特性导致新版本OTA可能表现不稳定甚至“退步”,核心问题在于AI驱动使得模型评估和回归验证变得困难,研发人员难以定位错误原因 [8][9] - 端到端的普及凸显了传统仿真器的短板,传统仿真器在规则时代主要用于问题重现和增加特定场景数据,但无法支撑端到端模型所需的大规模、系统性闭环验证 [10] 核心应用定位:世界模型作为云端仿真与验证系统 - 截至目前,智驾行业的世界模型仅应用于云端,尚未部署到车端,其主要作用是充当仿真器,用于测试和验证端到端模型 [6] - 头部玩家如理想和小鹏均将世界模型作为仿真器应用,理想为使其VLA在仿真环境中进行强化学习,提出了包含自车和他车轨迹的驾驶世界模型;小鹏也在采用世界模型进行仿真测试以评测新算法 [10] - 世界模型在工程上被定位为端到端时代的“验证与反证系统”,用于在云端重放、改写、扩增现实驾驶场景,检验车端大模型输出的稳定性和可复现性,并形成可追踪的错误证据链 [14] - 世界模型的核心能力包括对物理世界的数字化建模与抽象,以及基于此对物理世界进行合理的想象和预测,例如通过给定图片预测未来变化 [14] 技术路径与挑战:生成质量、幻觉与算法瓶颈 - 世界模型的好坏取决于其能否在云端生成足够真实和多样性的数据,仅回放真实数据并非真正的世界模型,训练数据的质量会显著影响生成结果的质量 [15] - 世界模型底层是生成式模型,天生存在“幻觉”风险,目前最难的是保证生成内容符合真实世界的物理规律和行为逻辑,否则将导致车端模型学到错误知识,性能变差 [16] - 行业普遍处于早期阶段,国内厂商基于世界模型最长能生成30-60秒视频片段,但动态物体在时空一致性和多视角一致性上存在较大问题 [16] - 前理想汽车辅助驾驶负责人指出,世界模型的瓶颈首先在于算法层面未有突破,图像模型的自监督训练尚未找到像语言模型那样顺畅的范式,图像信息密度低,对驾驶决策有用的信息占比极低,模型需从海量噪声中提取极少有效信号 [17][18] - 由于基础技术尚未明确突破,车企对世界模型的投入更多是研究性质,目前世界模型主要停留在用于训练与验证的第一阶段,而非能支撑决策规划的第二阶段 [18] 效率价值与未来展望 - 基于世界模型,车企在云端仿真时可以无限制地生成所需场景,根据指令生成视频作为训练数据,效率远高于真实数据采集与训练,能带来模型迭代速度的断代式领先 [16] - 特斯拉采用了“世界模拟器”的概念,其基于海量数据集训练,根据当前状态与动作生成未来状态,并与车端端到端模型形成闭环评估,其方法更倾向于用神经网络“拟合”世界,渲染通过计算生成,以增强模型泛化能力 [11][14] - 业内观点认为,如果世界模型足够成熟且算力可支撑,未来有望部署到车端,实现通过预测世界变化并进行有利决策,从而解决自动驾驶和机器人相关问题,但目前尚无公司在车端应用世界模型 [18][19]
中金:2026年大模型将取得更多突破 向实现AGI长期目标更进一步
智通财经· 2026-02-05 09:39
2025年大模型技术进展与2026年展望 - 2025年全球大模型在推理、编程、Agentic以及多模态等能力方向取得明显进步,但模型通用能力在稳定性、幻觉率等方面仍存在短板 [1] - 展望2026年,大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,并向实现AGI长期目标更进一步 [1] 2026年模型架构与训练范式演进 - 预计2026年预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶 [1] - 模型架构方面,基于Transformer的架构延续,平衡性能与效率的MoE成为共识,不同注意力机制路线仍在优化与切换 [1] - 训练范式方面,预训练阶段将通过Scaling-Law、高质量数据和强化学习共同提高模型能力 [1] - 随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群在预训练阶段重现Scaling-Law,模型参数量和智能上限都将进一步提升 [1] 强化学习的重要性提升 - 强化学习的引入提高了模型的智能上限,让模型可以更有逻辑、更符合人类偏好进行思考和推理 [2] - 强化学习的本质是“自我生成数据+多轮迭代”,关键在于大规模算力与高质量数据 [2] - 海外OpenAI、Gemini等模型厂商以及国内DeepSeek、阿里千问等均重视强化学习 [2] - 预计2026年海内外模型厂商强化学习占比将进一步提升 [2] 持续学习、模型记忆与世界模型的新突破 - 持续学习和模型记忆旨在解决大模型的“灾难性遗忘”问题,让模型具备选择性记忆机制 [3] - Google提出的Titans、MIRAS、Nested Learning等算法和架构核心是让模型可以根据任务的时间跨度和重要性动态调整学习和记忆方式,实现持续学习甚至终身学习 [3] - 聚焦理解物理世界因果规律的世界模型在Genie 3和Marble等不同模型路径的探索下具备突破机遇 [3]
中金 | AI十年展望(二十六):2026关键趋势之模型技术篇
中金点睛· 2026-02-05 07:52
文章核心观点 - 2025年全球大模型在推理、编程、Agentic及多模态等能力上取得明显进步,已能应用于真实生产力场景,但模型在稳定性、幻觉率等方面仍有短板 [1][3] - 展望2026年,预计预训练Scaling-Law将重现,旗舰模型参数量将更上一个台阶,强化学习、模型记忆、上下文工程等领域将取得更多突破,推动模型向AGI目标迈进 [1][2][4] - 中美大模型发展路径不同:海外厂商追求智能上限,国内厂商在有限算力下通过开源和工程优化追求效率与性能平衡,但两者相互借鉴,共同推动AI产业发展 [12][14] 技术视角:模型能力进展与短板 - **2025年能力进展**:海内外模型在推理、编程、Agentic及多模态能力上持续迭代,在文本、搜索、编程、图像&视频多模态任务等多个领域已达到真实生产力水平,进步超过2023年预期 [3] - **现存短板**:模型通用能力在可靠性、幻觉率方面未完全解决,记忆能力有提升空间;细分领域上,强逻辑&数学推理能力稳定性不足,对真实世界的理解和建模能力较弱,智能呈现“锯齿状” [4] - **2026年展望**:模型将在长板层面继续进化,并寻找有效路径补齐短板,从ChatBot到Agent,从短context生成到长思维链任务,从文本交互到原生多模态演进 [4] 模型细分能力复盘 - **推理**:强化学习激励模型形成更长思维链解决复杂任务,“测试时计算”成为主流工程杠杆,模型学会并行思考与反思;模型推理与工具调用结合形成“交错思维链”,以完成更复杂的Agent任务,但产业也开始优化思维链效率以控制成本与延迟 [6] - **编程**:在模型推理能力提升驱动下,AI编程从代码补全进化为具备工程闭环能力的开发者代理,能拆需求、搭框架、调接口、跑测试;前端追求极致视觉还原与即时预览,后端模型已具备架构思维,通过“慢思考”推演降低幻觉率,预计2026年编程仍是落地最快场景之一 [6] - **Agentic**:2025年工具调用能力成为标配,核心技术突破之一是交错思维链的使用,让智能体在思考与行动间无缝高频切换,提升实时修正能力并降低幻觉与记忆遗忘,能自主拆解数十个子任务并实现复杂长程任务闭环 [9] - **多模态**:图片生成在质量、理解与控制能力上大幅跃升,迈入可控、可用、可规模化生产阶段;以Gemini-3为代表的原生多模态架构普及,统一token化训练,并将强化学习引入视觉和音频领域以加强时空逻辑和动作因果理解 [9][10] 海内外头部模型竞争格局 - **海外头部玩家**:OpenAI、Anthropic、Gemini以AGI为远期目标,从不同维度加速探索;OpenAI文本类推理实力突出,同步提升多维度能力维持领跑;Gemini后来居上,基于预训练高质量数据与Scaling Law及后训练强化学习,基础与多模态能力大幅提升;Anthropic聚焦代码及Agent领域,走出别具一格变现路径 [11] - **国产大模型**:整体能力与海外头部模型维持约半年静态差距,在海外模型推出3个月到半年后,国内头部厂商能推出能力相当的模型并达到SOTA水准;第一梯队包括阿里Qwen-3、字节豆包1.8、DeepSeek-V-3.2、Kimi-K2、智谱GLM-4.7、MiniMax-M2 [12] - **发展路径差异**:海外厂商算力资源丰富,通过算力Scaling Law+算法优化+高质量数据齐头并进迭代基座模型,追求智能上限;国内厂商在有限资源下,通过开源路线、工程及算法优化追求效率与性能平衡,并在应用端开拓更具创新思维 [14] 模型架构:优化与创新 - **架构延续与优化**:主流模型参数规模已达万亿以上,厂商更聚焦模型架构、算法、工程共同优化,在扩大参数规模的同时提升参数利用效率 [14] - **MoE架构成为共识**:MoE架构采用稀疏激活模式,通常仅激活模型总参数的10-20%,显著降低计算量,实现计算需求与模型规模的有效解耦;国产模型如DeepSeek-V3.2、MiniMax-M2、Qwen-2.5均使用MoE架构 [17] - **MoE优化挑战**:面临计算效率、专家负载不均、参数通信等问题,需通过更复杂算法和硬件基础设施解决,例如通过辅助损失函数实现负载均衡,并通过芯片与算法协同设计提升效率 [18] - **注意力机制优化**:模型厂商基于效果在不同注意力机制(Full-Attention、Linear-Attention、Hybrid-Attention)间优化与切换,以平衡精度与效率,例如阿里千问深耕Linear-Attention,DeepSeek-V3.2引入Sparse-Attention将计算复杂度从O(N^2)降至O(Nk) [20] 工程优化:降本提速与规模化 - **核心目标**:工程侧优化聚焦降本提速与规模化生产,包括推理侧思考链工程化、实时路由机制分配模型类型、长上下文规模化落地等 [21] - **具体实践**:GPT-5引入实时路由模式,根据用户提示词自动分发请求;海内外厂商通过混合注意力机制、KV Cache压缩、算子优化、上下文重写与压缩等不同路径提升上下文处理效率 [21][22] 训练范式演进 - **预训练Scaling-Law重现**:预计2026年预训练阶段在算法和工程优化下仍有提升空间,随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群实现Scaling Law,模型参数量和智能上限将进一步提升 [1][22] - **强化学习重要性提升**:强化学习成为解锁模型高级能力的关键,其本质是“自我生成数据+多轮迭代”,依赖大规模算力与高质量数据;预计2026年强化学习在训练阶段占比将进一步提升 [2][23] - **强化学习占比数据**:DeepSeek V3.2后训练计算预算占预训练成本的10%+,估计海外模型厂商相关比重更高,可能在30%左右 [23] - **强化学习路径演进**:正从静态离线向动态在线演进,长期趋势是模型持续向半自动验证甚至不可验证的场景中进行在线学习 [26] 前沿技术路线展望 - **持续学习与模型记忆**:旨在解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制;Google提出的MIRAS、Titans、Nested Learning、HOPE等算法和架构是让模型根据任务时间跨度和重要性动态调整学习和记忆方式的关键 [2][28] - **嵌套学习(Nested Learning)**:模仿人脑处理记忆的方式,通过分层学习和优化机制实现持续学习新范式 [29] - **HOPE架构**:作为嵌套学习的工程实现,是基于自修改Titans+连续记忆系统的多层次记忆系统,通过“快”“慢”系统协作对抗灾难性遗忘 [32] - **模型记忆成为Agent刚需**:ChatGPT通过四层上下文堆栈工程化优化记忆,未来技术演进路径包括分层记忆、将长期记忆更新至模型参数 [35] - **世界模型**:聚焦理解物理世界因果规律,是实现AGI的重要拼图;主要技术路径包括李飞飞团队的3D物理空间(Marble模型)、LeCun的基于控制理论的JEPA架构、Google DeepMind的交互式视频引擎(Genie 3) [36][40] 海外头部模型厂商巡礼 - **OpenAI**:2025年模型在推理、Agentic、多模态、代码方面全方位提升,发布GPT-4.1、o4-mini、GPT-5、Sora-2等;预计2026年将加速商业兑现,拓展企业端和广告市场 [41][42] - **Gemini**:2025年能力大幅跃升,Gemini-3发布使Google成为世界第一梯队;原生多模态图像生成模型Nano banana Pro具备空间推理和光影控制能力;预计2026年将聚焦综合能力提升并加速探索世界模型 [43][45][47] - **Anthropic**:2025年延续在编程领域优势,加强代码和Agent体验;推出Claude Code(截至25年底ARR已突破10亿美元)和Cowork,探索企业场景;预计2026年将提升记忆能力并探索更多Agent泛化场景 [48][49][52] - **商业化与IPO前景**:截至26年1月,OpenAI估值达8,300亿美元,25年收入预计200亿美元,计划26年Q4启动IPO;Anthropic估值达3,500亿美元,25年收入90亿美元,也将在26年启动IPO [61] 国内头部模型厂商巡礼 - **阿里通义千问**:2025年推出Qwen-3等模型提升全模态能力,领跑中国市场;预计2026年将探索B端Agent市场机遇,让Qwen Agent作为“Orchestrator”编排垂类Agent,并可能探索世界模型技术 [53] - **字节豆包**:2025年提升基座模型能力,豆包1.8具备超长上下文与多模态、Agent能力;截至25年12月底,豆包大模型日均使用量达50万亿+(自发布以来提升417倍),日活用户突破1亿;预计2026年将延续多模态优势并深挖Agent机会 [54][55] - **DeepSeek**:2025年引领大模型走向开源普惠,发布R1、DeepSeek-Janus-Pro、DeepSeek-V3.2等;架构上采取稀疏注意力机制降低计算复杂度;预计2026年将持续追求技术优化与提升多模态能力 [56][57]