世界模型 - 财报，业绩电话会，研报，新闻 - Reportify

世界模型

搜索文档

流形空间CEO武伟：当AI开始“理解世界”，世界模型崛起并重塑智能边界｜「锦秋会」分享

锦秋集· 2025-11-05 22:01

过去三年，我们见证了AI从会说话、会作画，走到会写代码、会生成视频。 2025年，新的问题呼之欲出—— AI 能否真正理解它所看到的世界？世界模型（World Model）正是答案之一。它不是为了让AI生成更多画面，而是让AI在"脑中"拥有一个可推演的世界——能预测下一帧视频、下一步动作、下一个结果。这是从语言智能走向具身智能的关键一跃，也被视为"通用智能"的前夜。对创业者而言，世界模型意味着新的智能接口。谁能构建出更稳定的世界模拟引擎，谁就能在自动驾驶、机器人、仿真训练等场景里，真正掌握AI的学习能力。 2025年11月1日，首期锦秋会@2025 Experience With AI上，Manifold AI流形空间CEO武伟的分享了自己对这个问题的回答。 2025年锦秋基金已完成了对流形空间的投资。武伟认为：正如武伟演讲引用费曼所言： "如果我不能创造它，我就无法理解它。" AI的真正进化，是通过创造去理解世界。 ⬇️以下为武伟在锦秋基金首期锦秋会@2025 Experience With AI大会上的分享，由锦秋基金整理编辑，略有删减。世界模型是AI智能的下一个基础范式——它不 ...

机器人何时能迎来自己的“DeepSeek时刻”？

虎嗅APP· 2025-10-24 17:53

文章核心观点 - 文章通过对话北京人形机器人创新中心CTO唐剑，探讨了具身智能领域的发展现状、技术挑战及未来方向，核心聚焦于“世界模型”作为实现机器人智能涌现的关键技术路径 [5][6][15] - 世界模型被视为具身智能的“DeepSeek时刻”，其通过引入奖励机制和双模驱动架构，在有限算力下实现性能超越，并坚持开源以推动行业演进 [16][20][27] - 公司认为世界模型是提升机器人泛化能力、实现其在开放世界中可靠行动的必选项，而非可选技术路线 [21][24][31] 从AI控制到具身智能的起点 - 唐剑的研究方向从传统的基于数学建模的系统控制转向“经验驱动”的控制方式，后者通过历史数据和经验学习控制规律，适用于复杂系统 [9] - 经验驱动控制在自动驾驶领域的应用体现为“端到端控制”，如特斯拉FSD 12.0版本，将感知、规划、控制三模块合并，提升复杂场景下的泛化能力 [11] - 具身智能被视为比自动驾驶更高维度的挑战，因其自由度更高、环境更开放、任务类型更繁杂，对理解能力和泛化能力要求极高 [12] 世界模型与具身智能的“DeepSeek时刻” - 公司将世界模型类比为具身智能的“DeepSeek时刻”，基于三点相似性：在有限资源下超越SOTA性能、训练范式有突破（如奖励机制）、坚持开源 [16] - 公司世界模型采用“双模驱动”结构，世界模型与VLM相互促进，VLM为世界模型提供奖励反馈，确保生成内容符合物理规律和因果一致性 [16][17] - 公司世界模型同样引入GRPO机制进行微调，并计划开源新的VLM模型Pelican，形成更紧密的认知与物理交互闭环 [19][20] 世界模型的本质与行业分歧 - 世界模型的核心是帮助机器人理解世界，其不仅是“像人”，更要在认知上接近人，能理解、预判并在物理世界中行动 [21] - 行业对世界模型尚无统一定义，公司区分了面向娱乐的视频生成模型和面向机器人操作的模型，后者强调严格的物理一致性与时空一致性 [24][26][27] - 世界模型被视为具身智能的必选项，而非类似自动驾驶激光雷达的技术路线选择分歧，因为它是实现机器人开放世界行动可靠性的基础 [20][21] 世界模型的三种用途与进化方向 - 世界模型主要用途包括：与机器人大脑形成闭环互相促进、直接生成机器人训练所需的轨迹数据、作为机器人操作模型的一部分具备物理理解与控制能力 [25] - 公司当前世界模型基于视频生成的DiT架构，但未来可能采用全新架构，以更好地注入物理约束，如牛顿定律、能量守恒等 [27][28] - 世界模型的应用处于早期阶段，其核心目标是提高机器人的泛化能力，以支持从工业场景向更复杂的商业和家庭生活场景拓展 [28][29][31] 数据、算力与智能涌现的挑战 - 具身智能尚未出现类似ChatGPT的“突破时刻”，因其数据主要为轨迹数据，数据量级、采集难度和成本远高于语言模型，进化更慢 [14] - 目前无人能准确给出具身智能的“Scaling Law”，即智能能力随数据、算力、算法增长的规律，其是否存在及曲线形态均为未知 [20] - 公司使用“百卡级”算力训练出2B、7B、14B规模的世界模型，并在多项主要指标上超过SOTA模型，如英伟达的Cosmos Predict 2 [16]

VLM（多模态大模型）

VLM（多模态大模型）

独家｜对话北京人形机器人创新中心CTO唐剑：世界模型有望带来具身智能的“DeepSeek时刻”

虎嗅· 2025-10-23 15:06

文章核心观点 - 世界模型被视为推动具身智能发展的关键路径，有望带来类似DeepSeek的低成本、高性能突破 [1][9] - 具身智能的复杂度远超自动驾驶，是智能系统的“天花板级”挑战，其发展更依赖长期数据积累而非短期突破 [7][8] - 公司通过“双模驱动”架构和引入奖励机制，在有限算力下开发出性能超越SOTA的世界模型 [9][10][11] 技术理念与方法 - 倡导“经验驱动”的控制方式，通过历史数据学习控制规律，而非依赖精确的数学建模 [3][4] - 以游泳运动员训练类比AI学习过程，强调通过反复实践积累经验而非先掌握理论 [5] - 在自动驾驶领域验证了端到端控制架构的有效性，并将其思路延伸至具身智能 [6] 世界模型的技术特点 - 采用世界模型与多模态大模型相互促进的“双模驱动”结构 [9][11] - 引入奖励机制和基于强化学习的微调，形成自我优化闭环 [9][10][11] - 使用GRPO算法微调多模态大模型，实现认知与物理交互的紧密闭环 [11][12] - 当前模型基于DiT架构，但未来可能迭代全新架构以更好捕捉物理规律 [19][20] 世界模型的应用价值 - 主要用途包括：与机器人大脑形成闭环、直接生成训练数据、作为机器人操作模型的一部分 [17] - 核心目标是提高机器人在开放环境中的泛化能力，这对商业和家庭场景至关重要 [21][22] - 通过蒙特卡洛树搜索等技术，让机器人在虚拟世界中模拟多种方案并选择最优路径 [11][17] 行业现状与挑战 - 具身智能尚未出现类似ChatGPT的“突破时刻”，数据量级、采集难度和成本远高于语言模型 [8][9] - 行业目前缺乏明确的Scaling Law，智能能力随数据、算力增长的规律未知 [13] - 世界模型在物理规律和时空一致性方面要求远高于视频生成模型 [18][19] - 具身智能落地将经历工业场景、商业场景、家庭生活场景三个阶段 [21]

机器人(SZ:300024)

智能驾驶深度报告：世界模型与VLA技术路线并行发展

国元证券· 2025-10-22 16:56

报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2] 报告核心观点 - 智能驾驶行业正沿着"端到端"和"智驾平权"两大方向加速进化 [3][16] - 端到端智能驾驶技术已演进分化出VLA和世界模型两条核心并行发展路径 [64][69] - VLA技术路线适合快速迭代和现有量产平台兼容世界模型路线则代表更底层的认知方式强调物理规律和空间理解力适合长期演进 [69] - 新能源车销量与智驾功能形成协同增长闭环推动智能驾驶快速渗透 [9] 智能驾驶行业发展回顾 - 中国新能源车渗透率从2019年较低水平一路攀升先后突破10%、30%、50%等关键关口 [9] - 中国新能源汽车L2级别智能驾驶功能渗透率从2019年的约7%起步到2025H1已上升至65%左右 [9] - 2024年中国智能网联汽车产业规模已攀升至11082亿元同比增长34% 预计到2030年产业规模有望突破5万亿元 [15] - 截至2025年6月中国智能驾驶产业主体数量快速增长注册相关企业总数已超过7000家 [15] 智驾沿"端到端"、"智驾平权"加速 - 高阶智驾功能搭载率从2024年1–4月的11.8%提升至2025年同期的18.6% [21] - 20–30万元价位段汽车的L2++智能驾驶功能搭载率从2024年Q1的25.15%升至2025年4–5月的47.11% 实现近乎翻倍增长 [27] - 头部自主品牌将智能驾驶价格门槛拉低例如比亚迪秦PLUS智驾版售价11.98万元已搭载高速NOA功能中长期目标是在10万元级别车型上实现高速NOA全面标配 [21] 端到端智能驾驶复盘 - 端到端自动驾驶架构演进分为四个主要阶段：感知"端到端"/"BEV+ transformer"、决策规划模型化/"占用网络"、模块化端到端/两段式端到端、OneModel/一段式端到端 [32] - BEV感知通过融合多传感器数据形成360°全方位无死角感知视野结合Transformer注意力机制实现对关键区域聚焦处理 [37][41] - 占用网络通过对三维空间进行体素级划分与占用预测构建更高精度的全局环境表示能够识别未被标注的"泛目标" 提升系统环境理解力 [46] - 一段式端到端模型将传统"感知—规划—控制"流程统一映射到单一模型中减少任务拆解带来的累积误差但缺乏可解释性且需要海量高质量数据 [57][59] VLA技术路线 - VLA模型将视觉、语言与动作三大模态深度耦合其核心流程可拆解为四步：环境感知、转化为语言Token、生成驾驶建议、转化为车辆控制轨迹 [69][76] - VLA技术落地的三大关键抓手包括：3D中间表征、长时序记忆、效率/能耗优化 [93] - VLA工程化难点包括：极端工况下的模型稳定性、长尾场景的泛化能力、多源数据的时序同步与时空一致性 [94][97] - VLA技术发展趋势围绕"空间—时间—成本"三条核心路径系统化演进：空间维度向高精度三维语义建模过渡时间维度发展长时记忆与预测成本维度通过MoE技术和模型蒸馏实现结构化算力优化 [111] 世界模型技术路线 - 世界模型是一类能够模拟和推演真实环境状态的生成式AI框架通过对环境物理规律和因果关系的建模实现对现实世界的"内在理解"与"主动推理" [117] - 世界模型的演进脉络分为三个阶段：Dyna算法奠定理论基础、《World Models》推动进入深度学习阶段、以Dreamer系列为代表的加速落地阶段 [121] - 世界模型在智能驾驶中的四大价值包括：大幅降低数据成本、升级安全标准、提升时空一致性、具备认知推理能力 [127][133] - 世界模型工程化难点包括：长期可扩展内存瓶颈、仿真与现实世界的差异、决策与责任机制缺失、隐私与数据安全挑战 [134][138] - 世界模型未来趋势是与强化学习深度结合通过在虚拟环境中交互试错使模型具备主动探索与优化能力有效降低错误策略导致的安全风险与成本消耗 [144]

端到端智能驾驶

视觉-语言-动作大模型

智能驾驶系统

端到端智能驾驶

视觉-语言-动作大模型

智能驾驶系统

自动驾驶“黑话”使用手册：新势力造车又“造词”

36氪· 2025-10-20 16:33

行业技术趋势与话语权竞争 - 自动驾驶行业出现大量技术“黑话”，如VLA（视觉语言动作模型）和“世界模型”，这反映了车企在硬件同质化后围绕下一代技术话语权的争夺战 [1] - 智驾能力成为新势力最关键的身份标签，抢先定义未来意味着抢占用户认知与技术品牌高度 [1] - 存在“期货式”技术发布现象，有车企高管坦言团队常在技术未成熟时被推至台前发布，导致交付节点压力巨大 [2] 技术演进路径：从规则到特斯拉引领 - 2022年前行业技术路径由特斯拉和Waymo定义，早期辅助驾驶基于工程师编写的规则，分为感知、规划、控制三大模块 [3] - 特斯拉自2016年起引领行业从规则时代走向AI，并在2021年AI DAY公布BEV+Transformer架构，将多摄像头2D图像统一投射形成360°鸟瞰图，实现跨摄像头特征“前融合” [3] - BEV+Transformer使特斯拉摆脱对高精地图依赖，仅凭传感器实现广泛场景泛化，并在FSD Beta V11将NOA功能从高速扩展到城市道路 [4] - 2022-2023年，小鹏XNGP、蔚来NOP+、理想AD Max 3.0、华为ADS2.0相继实现自研BEV+Transformer方案量产，并展开无图NOA“开城”竞速 [4] 范式转移：端到端技术 - 特斯拉在2022年AI DAY推动以“端到端”为核心的范式转移，用庞大神经网络同时处理感知、规划，取代30万行代码 [5][6] - 中国新势力集体转向端到端架构，小鹏和华为早期采用保守的“多段式”端到端，将感知和规划模块分别用模型取代 [6] - 小鹏在2024年中向所有扶摇架构车型推送“一段式”端到端系统，华为ADS 3.0宣布升级为“端到端”架构 [6][7] - 地平线将端到端系统演化分为三代：第一代两段式、第二代一段式加重后处理、第三代更彻底的端到端 [8] - 地平线CEO余凯在2024年4月坦言，当时国内还没有真正的一段式端到端 [8] 新范式：VLA模型的应用与竞赛 - VLA模型最初用于让机器人理解人类语言指令并执行动作，自动驾驶汽车被视为“轮式机器人” [9][10] - 特斯拉的端到端系统架构被认为应用了VLA理念，元戎启行是首个公开宣称将VLA技术应用于自动驾驶的公司 [10] - 理想在2025年3月将其双系统方案切换为VLA方案，并于2025年8月在理想i8上率先实现量产 [10] - 小鹏计划2025年三季度推送其VLA方案，在车端堆了2200 Tops算力，其中约1200 Tops用于辅助驾驶 [11] 算力竞赛：云端与车端 - 算力竞赛蔓延到云端，特斯拉2025年预计累计储备8.5万颗英伟达H100，小鹏云端算力规模为10 EFlops，理想超过13 EFlops [11] - 小鹏和理想用云端算力研发大参数量基座模型，小鹏基座模型参数量为720亿，是主流VLA模型的35倍 [12] 世界模型：从仿真到车端控制 - 世界模型研究始于2018年，让AI智能体通过“想象”进行规划学习，特斯拉通过占用网络构建3D空间的做法应用了此思路 [13] - 理想和小鹏将世界模型用于仿真测试和云端训练，理想用其搭建“考试系统”，小鹏用其训练720亿参数基座模型 [13] - 蔚来和华为更激进地将世界模型直接部署于车端，蔚来命名NWM，能在行驶中每0.1秒生成216种可能轨迹并选优 [14] - 华为2025年4月发布WEWA架构，同样将世界模型用于实时控车，并视其为“通向自动驾驶的终极方案” [15] 关键技术术语解析 - BEV+Transformer：特斯拉提出的视觉感知技术，将多摄像头2D图像投射到统一3D俯视坐标系形成360°环境感知 [18] - 占用网络：用于3D环境感知的AI模型，将周围空间划分为微小体素来识别未知物体，特斯拉提出后国内车企跟进自研 [19] - 端到端：系统接收传感器信号后直接输出行驶轨迹控制车辆，特斯拉FSD V12首次应用 [29] - VLA：视觉-语言-动作模型，通过海量“图像-文本-动作”数据协同训练，使机器能根据语言指令或视觉理解执行动作 [31] - 世界模型：让智能体内部对真实世界动态规律建模模拟的模型，用于预测未来状态序列 [39]

新势力卖车，为何满嘴“黑话”？

虎嗅· 2025-10-20 15:22

行业技术演进背景 - 自动驾驶行业技术术语频出，如“端到端”、“VLA”、“世界模型”，反映了下一代技术话语权的争夺[1] - 当硬件配置趋于同质化，智能驾驶能力成为新势力车企最关键的身份标签和品牌差异化要素[1] - 技术“黑话”不仅是技术路线的宣言，更是对技术品牌的精心包装，但背后存在落地体验落差与研发团队承压的问题[2] 技术架构演进：从规则到BEV - 早期辅助驾驶系统基于工程师编写的规则，分为感知、规划、控制三大模块[4] - 特斯拉在2021年AI DAY上公布BEV+Transformer技术架构，将多个摄像头2D图像统一投射到俯视坐标系形成360°鸟瞰图，有效解决遮挡与透视问题[4] - BEV+Transformer实现了跨摄像头特征的“前融合”，相比传统“后融合”方法大大提升了感知能力，并使特斯拉摆脱了对高精地图的依赖[5][6] - 2022-2023年，小鹏XNGP、蔚来NOP+、理想AD Max 3.0、华为ADS2.0相继实现自研BEV+Transformer方案量产，并展开无图NOA的“开城”竞速[8] 范式转移：端到端技术 - 特斯拉在2022年AI DAY披露FSD Beta V12架构，用一个庞大神经网络同时处理感知、规划，取代30万行代码，推动以“端到端”为核心的范式转移[9] - 中国新势力集体转向端到端架构，但早期出于安全考量，小鹏和华为采用相对保守的“多段式”端到端，将感知和规划模块分别用模型取代[10] - 小鹏在2024年中才向所有扶摇架构车型推送“一段式”端到端系统，华为ADS 3.0也宣布升级为“端到端”架构[10] - 理想在2024年发布“端到端+VLM”双系统方案，端到端模型负责“快思考”处理常规场景，VLM模型负责“深思考”应对复杂情况[12] - 地平线将端到端系统演化分为三代：第一代两段式、第二代一段式加重后处理、第三代更彻底的端到端，实现更拟人驾驶体验[14][16] 新一代技术架构：VLA与世界模型 - VLA模型将视觉感知、语言理解与物理动作控制关联，让机器根据人类语言指令或视觉场景理解执行动作[15][46] - 理想在2025年3月将双系统方案切换为VLA方案，并于2024年8月在理想i8上率先实现量产；小鹏计划2024年三季度推送其VLA方案[18] - 世界模型让AI智能体通过“想象”进行规划学习，再迁移到真实环境；蔚来直接将世界模型部署到车端命名为NWM，华为发布WEWA架构同样将世界模型用于实时控车[21][24][25] - 特斯拉通过占用网络构建3D空间的做法应用了世界模型思路，理想和小鹏将世界模型用于仿真测试和云端训练[23] 算力竞赛与模型研发 - 小鹏在车端堆叠2200 Tops算力，其中约1200 Tops用于辅助驾驶，理想的AD Max算力为700 Tops，蔚来的神玑NX9031芯片算力1000 Tops[18] - 小鹏CEO何小鹏预测特斯拉下一代硬件平台AI 5算力将在2000 Tops-4000 Tops之间[18] - 算力竞赛蔓延到云端：特斯拉2025年计划储备累计8.5万颗英伟达H100，小鹏云端算力规模为10 EFlops，理想超过13 EFlops[18][55] - 小鹏基座模型参数量为720亿，是主流VLA模型的35倍，通过知识蒸馏技术生成较小模型再部署到车端；理想基座模型起初用于智能座舱后延用到自动驾驶[19][54] 传感器技术路线 - 自动驾驶存在纯视觉与激光雷达两大感知路线：特斯拉坚持纯视觉，理想今年起标配激光雷达，小鹏取消激光雷达改用摄像头+4D毫米波雷达，华为和蔚来在高阶方案中搭载激光雷达[36] - 激光雷达成本已下降到200美元，4D毫米波雷达常被当作激光雷达的“平替”[36] - “无图”方案通过车载传感器实时感知理解道路，不依赖高精地图，对车辆感知和决策能力要求更高[37]

专访信通院孙鑫：大模型快速迭代需软硬件深度协同｜四中全会预热

21世纪经济报道· 2025-10-18 09:21

人工智能发展趋势 - 基础大模型迭代速度加快，多模态模型理解能力整体提升90%，TOP1模型迭代周期从去年的几个月缩短至几周[4] - 软硬件深度协同、高效融合成为大模型研发新范式，极致的软硬协同是支撑大模型快速迭代的关键[1][4] - 智能体成为大模型应用的主要形态，正在加速形成智能体经济[1][5] - 开源模型发展激活公有云、一体机等AI市场，极大降低了大模型落地应用门槛[5] 模型能力增强方向 - 语言基础超级模型深度集成多种能力，模型推理能力成为重要指标，通过路由融合和Agentic RL技术提升效率与场景表现[7] - 多模态大模型深度融合理解和生成能力，原生多模态架构逐渐成熟[7] - 世界模型加速构建数据生成、动作解释等四类核心能力，未来通用世界模型将成为AI通向AGI的关键基石[9][10] - 具身智能以突破具身图灵测试为目标，通过数据-模型-本体联合设计实现生物级感觉运动能力[10] 智能体技术发展 - 智能体是数字员工的初级形态，能自主完成复杂任务且性能优于单一模型，但能力仍有很大提升空间[2][7] - 推动互联互通和长难任务处理是当前智能体技术创新的主旋律，智能体完成任务的长度大约每7个月翻一番[2][14] - 通信协议如MCP、A2A成为智能体与外界交互的桥梁，可降低系统集成复杂性并解决数据孤岛问题[14] - 未来智能体将能独立完成需人类数天或数周的任务，加速开启智能原生应用时代[14] 人工智能行业应用 - 人工智能赋能行业遵循从数字化水平较好领域率先突破再逐步扩散的规律，率先在互联网等数字原生领域规模化应用[15] - 人工智能正逐步向金融、医疗、交通等数字化程度较高的行业渗透，并在自动驾驶等领域实现新突破[16] - 行业渗透深度存在差异是客观现实，受数字化转型基础、资源供给能力等因素影响[2][16] - 推进行业应用需关注行业水平与转型路线、技术能力与实际需求两个方面的协调统一，坚持市场驱动并因业施策[2][16] 未来技术路径展望 - 未来可能看到强化学习等机器学习技术取得重大突破，世界模型技术路径逐步清晰[12] - 可能出现效率更高、性能更好或可信水平更高的非Transformer新模型架构[13] - 光计算、类脑计算、量子计算等新兴计算技术一旦投入实用，将带来人工智能技术体系的重构[13]

软硬件深度协同

智能体经济

软硬件深度协同

智能体经济

观点分享：VLA解决的是概念认知，无法有效的建模真实世界的四维时空？

自动驾驶之心· 2025-10-14 15:12

这几天时候看到了晚点团队采访蔚来任少卿的文章，把里面关于VLA和WA的观点提炼出来分享给大家。晚点团队原文链接：任少卿的智驾非共识：世界模型、长时序智能体与 "变态" 工程主义任少卿认为智能驾驶真正的上限在世界模型，即以视频为核心，通过跨模态的互相预测和重建，让系统学习时空和物理规律，再叠加语言层去交互与注入知识，让机器能像人一样理解环境。世界模型解决的是时空认知，语言模型解决的是概念认知。语言模型低带宽和稀疏性无法真正有效的建模真实世界的四维时空（时间+空间）。世界模型的认知包含两个层面：但VLA本质还是语言模型的模态扩展。这些扩展虽然加入了新模态，但 "根" 依然在语言模型上。它像是在原有的语言体系上不断 "加模态"。但世界模型不是 "语言加法"，而是要建立一套高带宽的认知系统。因为语言通道的带宽太低了。人类如果没有眼睛，只靠嘴和耳朵交流，效率会有多低？眼睛带来的视觉带宽就大得多。世界模型要直接在视频端建立能力，而不是先转成语言。现在的智驾系统，你和它的交互都还是闭集的。而自动驾驶的终极目标是通过 Open-set（开放集指令交互）智能引擎实现真正的开放式交互。 ...

马斯克背刺英伟达？你投资，我挖角！

搜狐财经· 2025-10-14 09:53

马斯克的操作永远是那么出人意料。前段时间马斯克的 xAI 获得了英伟达的投资，本以为双方合作共赢，没想到马斯克反手就对英伟达的人才下手，挖来了两名核心研究员——Zeeshan Patel和Ethan He，目的就是为了加速其宏伟的世界模型项目。所谓世界模型，听起来颇具科幻色彩，但它被普遍认为是通往AGI圣杯的关键路径之一。简单来说，就是让AI不仅能理解语言和图像，更能理解我们这个世界的物理规律，能像人一样进行常识性的推理和预测。这次加入xAI的两位专家，履历都相当亮眼。他们在英伟达期间，都是Omniverse平台的核心贡献者。Omniverse是一个用于创建和模拟虚拟世界的平台，这与xAI想要构建的世界模型在理念上不谋而合。可以说，这二位的加盟，几乎是带着说明书来的。 Zeeshan Patel是一位专注于多模态模型与物理AI的学者。他的研究方向，旨在教会AI如何理解和预测物理世界中的互动，比如一个物体会如何滚动、弹跳或破碎。而Ethan He则深耕于视频自监督学习和多模态模型领域，他的工作重点是让AI能通过观察海量视频，自主学习世界的运行规则，而无需人类进行繁琐的手动标注。这两位技术大牛的加 ...

英伟达(US:NVDA)

Omniverse平台

Omniverse平台

马斯克旗下xAI加入“世界模型”竞赛，“视觉模型”会是下一个“大语言模型”吗？

硬AI· 2025-10-13 22:23

行业趋势：AI竞赛新焦点 - 人工智能领域的竞争正从大语言模型扩展至能够理解并模拟真实物理世界的"世界模型" [2][3] - 谷歌研究人员推断未来的视频模型将变得和语言模型一样智能 [2][4] - 英伟达表示世界模型的潜在市场规模可能接近当前全球经济的总量 [4] xAI的战略布局 - xAI从英伟达聘请了人工智能专家Zeeshan Patel和Ethan He，专门从事世界模型研发 [3][6] - 公司计划将世界模型技术首先应用于游戏领域，用于生成可交互的3D环境 [6] - xAI正在探索世界模型在机器人系统中的应用 [2] - 公司为"omni团队"招聘图像和视频生成技术人员，薪资范围高达18万至44万美元 [8] - 公司以时薪45至100美元招聘"视频游戏导师"以训练其AI模型Grok制作视频游戏 [9] 技术范式转移 - 谷歌视频模型Veo 3展现出与大语言模型相似的"涌现能力"，通过"下一帧预测"零样本解锁物体分割、边缘检测等能力 [11] - 机器视觉领域可能通过视频模型发生向通用模型的转变，迎来"视觉领域的GPT-3时刻" [14] - 视频逐帧生成的过程被称为"帧链"，使视频模型能够跨越时空进行推理 [14] - 发展更智能的视频模型可能获得能力极强的机器人"代理" [15] 面临的挑战 - 世界模型技术面临的主要挑战是为模拟真实世界寻找和处理足够训练数据的成本极其高昂 [17] - 业界存在对AI作用的冷静审视，认为AI无法解决游戏行业的"领导力和愿景"等大问题 [17] - 纯粹的技术突破本身并不能保证创造出能够真正打动人心的商业产品 [17]

世界模型竞赛

视觉领域的GPT - 3时刻

大语言模型

世界模型竞赛

视觉领域的GPT - 3时刻

大语言模型