世界模型
搜索文档
从DriveVLA-W0出发:探讨世界模型如何放大VLA的扩展定律(中科院)
自动驾驶之心· 2025-11-04 08:03
技术挑战与解决方案 - 自动驾驶视觉-语言-动作模型面临“监督缺失”问题,其庞大模型能力仅由稀疏、低维的动作信号监督,导致大部分表征潜力未被充分利用[3] - 中科院和华为引望团队提出DriveVLA-W0训练范式,利用世界模型预测未来图像以解决监督缺失问题[3] - 针对离散视觉token的VLA模型设计自回归世界模型,针对连续视觉特征的VLA模型设计扩散世界模型[3] - 基于世界建模学习的丰富表征,引入轻量级动作专家以解决实时部署中的推理耗时问题[3] 模型性能与数据规模效应 - 在NAVSIM v1/v2基准测试和规模大680倍的内部数据集上,DriveVLA-W0显著优于BEV和VLA基线方法[5] - 该技术放大了数据Scaling Law效果,表明随着训练数据集规模增大,性能提升速度会加快[5] - 模型在7000万帧数据上真正放大了VLA的数据扩展定律[8] 技术架构与应用前景 - DriveVLA-W0通过世界模型提供稠密自监督,实现从“监督赤字”到“定律放大”的转变[9] - 该研究为构建更通用的驾驶智能提供了充满前景的道路[3] - 技术分享重点涵盖自动驾驶VLA的“监督赤字”挑战、世界模型破解稀疏监督的方法以及DriveVLA-W0的架构与性能[12]
詹锟兼任理想美国硅谷研发中心负责人并将直播讨论世界模型与VLA
理想TOP2· 2025-11-03 15:33
文章核心观点 - 讨论聚焦于特斯拉FSD v14的技术细节,特别是其是否集成了视觉语言动作模型(VLA)[1] - 探讨世界模型与VLA在自动驾驶领域的未来发展方向以及两者融合的可能性[3] - 分析数据和算力高需求对学术界参与自动驾驶研究的影响及潜在机会[3] 圆桌讨论主题 - 特斯拉FSD v14中值得国内关注的技术亮点[3] - 世界模型和VLA未来发展方向探讨,包括融合统一的可能性[3] - 数据和算力高需求导致学术界参与度下降,探索学术界在智驾领域的新机会[3] 参会嘉宾背景 - 嘉宾来自理想汽车VLA团队及硅谷研发中心、博世中央研究院VLA/闭环算法团队、长安汽车泊车团队等产业界关键角色[4] - 学术界代表包括上海交通大学人工智能学院博士生导师[6] - 其他参与者包括自动驾驶之心联创、深度流光联合创始人等行业专家[7][9]
华为哈勃+华控基金联合领投极佳视界A1轮,引领物理AI终局路线
36氪· 2025-11-03 13:12
行业趋势与巨头布局 - 世界模型在具身智能领域快速升温,谷歌、OpenAI、特斯拉、英伟达等科技巨头已密集布局[3] - 业内人士判断世界模型将缓解具身智能在数据稀缺与泛化困难上的瓶颈,并可能成为2026年的核心技术趋势[3] - 华为将世界模型列为未来智能世界2035年十大技术趋势之首,这构成了其投资相关公司的底层逻辑[8] 公司融资与市场认可 - 极佳视界在近两个月内连续完成三轮融资,包括由华为哈勃、华控基金联合投资的亿元级A1轮融资,以及此前8月底完成的Pre-A&Pre-A+连续两轮数亿元融资[3] - 2个月完成3轮融资体现了资本市场对公司团队实力、技术路线和业务推进的认可,也折射出投资方对“物理世界通用智能”关键转折点的判断[4] - 公司成立于2023年,专注于世界模型驱动的物理世界通用智能,产品包括世界模型平台GigaWorld、具身基础模型GigaBrain等全栈软硬件产品[4] 世界模型的技术价值与定义 - 世界模型是在数字世界里建模物理世界和运行规律,让AI在动手前先在“脑内”搭建物理沙盒进行预测,从而在陌生环境中少试错、更稳健[7] - 公司认为世界模型的技术价值已在当前阶段展现,能在高维高质量数据稀缺、传统仿真器Sim2Real Gap两大问题上产生改善,并提升强化学习训练效果[6] - 世界模型将主要解决泛化性,与VLA(解决作业复杂性)、强化学习(解决准确率和可靠性)协同,目标是在100种常见任务中90%的场景下达到95%的成功率[9] 公司技术优势与团队背景 - 公司核心团队紧密依托清华大学自动化系智能视觉实验室,成员来自顶尖院校和知名企业,累计发表顶级AI论文200余篇,获数十项全球AI竞赛冠军[10] - 创始人兼CEO黄冠博士为清华大学自动化系博士,拥有微软、三星、地平线等企业研究经历,并主导或参与融资累计超10亿元[11] - 公司具身世界模型是系统性解决方案,能从少量真实数据中学习并生成大量高保真合成数据,以极低成本填补数据缺口,并显著提升生成数据的真实性与可用性[11] 产品性能与商业应用 - 公司产品GigaBrain-0在对比中展现出更优异的性能提升潜力,其训练数据来源更丰富,在纹理、光照、视角变化下表现更鲁棒、泛化性更好[13][14] - GigaBrain-0架构更深,关键子模块引入更深层建模使操作表现更精细,并拥有大小双版本模型,小模型可达大模型约90%效果且可在端侧Orin实现实时推理[14] - 公司已与多地人形机器人创新中心、实训场、科研院校及全球汽车行业巨头等达成深度合作,共同探索物理AI在驾驶、工业、服务、家庭等场景的落地[15]
美团新独立APP,点不了菜只能点AI
猿大侠· 2025-11-03 12:11
模型发布与性能 - 美团最新开源多模态大模型LongCat-Flash-Omni,支持文本、图像、音频、视频全模态输入,在Omni-Bench和WorldSense等基准测试中达到开源SOTA水平,性能可与闭源模型Gemini-2.5-Pro相媲美 [2] - 模型采用MoE架构,总参数量达560B,激活参数仅27B,实现“大总参小激活”,在保持庞大知识容量的同时具备极高的推理效率 [4] - 该模型是当前主流旗舰模型参数规模下,首个实现全模态实时交互的开源模型,交互体验丝滑,响应延迟极低 [8][28] 技术架构与创新 - 模型采用完全端到端的统一架构ScMoE,并创新性地使用分块式音视频特征交织策略,实现低延迟的实时语音生成与视觉响应 [40] - 通过渐进式早期多模融合训练和模态解耦并行(MDP)训练方案,有效提升多模态训练效率,模型上下文窗口扩展至128K tokens,支持超8分钟的音视频交互 [40][42] - 技术路径清晰:先打通底层速度实现即时响应,再深耕复杂场景的专业能力,最后向全模态拓展,解决了多模态融合难、实时交互性能受限等行业痛点 [38][39] 战略布局与投资逻辑 - 公司战略核心是软硬件“两条腿走路”,通过构建“世界模型”和投资“具身智能”,实现数字世界与物理世界的深度连接 [45][47] - 投资脉络清晰:2018-2020年聚焦消费领域以巩固本地生活护城河;2021年后科技投资占比显著提升,重点投向自动驾驶、AI芯片、具身机器人等核心基础设施 [54][55] - 目标是构建覆盖“低空—地面—社区”的立体化智能服务网络,将技术能力注入零售场景,关键词是autonomy(无人化),以实现系统效率跃迁 [57][61][62]
美团新独立APP,点不了菜只能点AI
量子位· 2025-11-03 11:12
LongCat-Flash-Omni模型技术特点 - 最新开源多模态模型LongCat-Flash-Omni在综合性全模态基准测试(如Omni-Bench, WorldSense)上超越Qwen3-Omni、Gemini-2.5-Flash,达到开源SOTA水准,并能与闭源Gemini-2.5-Pro相媲美[2] - 模型支持文本、图像、音频、视频等全模态能力,各项单项能力均位居开源模型前列,实现“全模态不降智”[3] - 采用MoE架构,总参数560B,激活参数仅27B,通过“大总参小激活”设计在保持庞大知识容量的同时实现极高推理效率,是首个在主流旗舰模型性能标准和参数规模下实现全模态实时交互的开源模型[4][8] 模型应用与交互体验 - 模型已在LongCat APP和Web端上线,支持文字/语音输入、语音通话,Web端还支持上传图片和文件,视频通话功能正在开发中[9][10] - 实测显示模型具备快速响应能力,从输入指令到生成第一个token的时间间隔短暂,交互过程丝滑,能即时处理复杂多模态任务[7][25][26] - 模型在聊天问答、语音识别、物理世界规则理解(如六边形小球弹跳问题)及嘈杂环境下的语音识别等场景中表现稳定,能准确接住并回答脑筋急转弯式推理题[17][24][27] 美团AI战略发展路径 - 公司迭代模型的逻辑清晰:速度优先(实现模型响应、语音识别、实时生成的丝滑体验),专业深耕(优化复杂逻辑推理、物理仿真等能力),全面拓展(向全模态路线推进)[29][31] - 通过投资和自研结合,公司布局“世界模型”与“具身智能”,目标是连接数字世界和物理世界,软件端构建能深度理解现实并交互的“世界模型”,硬件端围绕“具身智能”加速落地[42][44][47][48] - 公司投资脉络从早期聚焦消费领域转向加码科技投资,重点布局自动驾驶、AI芯片、具身机器人等未来核心基础设施,构建覆盖“低空—地面—社区”的立体化服务网络[53][54][57][61] 多模态技术突破与架构创新 - 模型在架构层面重构多模态融合底层逻辑,采用完全端到端的统一架构ScMoE,能同时接收文本、音频、图像、视频及任意组合的多模态输入[36][38] - 通过分块式音视频特征交织策略实现流式音视频处理,使音频与视频特征按时间片段同步输入LLM,支持低延迟实时语音生成与视觉响应,上下文窗口扩展至128K tokens,支持超8分钟音视频交互[38] - 训练上采用渐进式早期多模融合训练和模态解耦并行(MDP)方案,提升多模态训练效率,确保系统长期稳定运行,解决参数大但推理慢的行业痛点[38][39]
智驾软硬件持续迭代,robotaxi未来已来
2025-11-03 10:35
行业与公司概览 * 纪要涉及的行业为智能驾驶(智驾)行业,包括高级辅助驾驶(L2/L2+)和全自动驾驶(L4/Robotaxi)领域 [1] * 纪要重点讨论的第三方智驾软件供应商包括Momenta、华为、大疆(卓翼)、地平线、元戎启行 [3] 市场格局与公司能力 * Momenta在第三方智驾市场占据领先地位,份额达55%,华为占25% [1][3] * Momenta提供单Orin X和双Orin X两种方案,覆盖从比亚迪、智己到奇瑞等不同车型,展现其工程化和算法裁剪能力 [1][3] * 华为凭借强大的体验和工程化能力,支持多款车型、自研芯片及大规模路侧泛化,但其顶尖算力芯片目前主要用于ADS 4.0 Ultra版本 [3] * 大疆在低算力芯片(如TI TDA4)解决方案上工程化能力出众,但市场对低算力芯片(32 TOPS或100 TOPS以下)的需求正在转向中高算力方案 [1][4] * 地平线采用自研软硬一体化方案(如HSD及G6P系列),已在奇瑞星途车型上量产,但受限于NPU算力及迭代升级,整体效果仍需提升,需更多车型验证工程化能力 [1][6] * 元戎启行主要集中在城市NOA,基于英伟达平台开发并与长城汽车合作紧密,其算法开发能力领先但工程化能力相对较弱 [7] 技术路线与核心观点 * 当前智驾行业技术路线主要分为三类:端到端算法(代表企业有Momenta、特斯拉、极氪)、VLA模型(代表企业有理想、小鹏)以及世界模型(华为、Momenta、地平线等正在开发) [2] * 车企智驾能力差异主要由算法、数据和算力三大因素决定,短期内算法调整效果明显,长期来看数据积累是关键,高效训练依赖强大计算资源 [8][9] * 长期看,若厂商继续沿用当前技术路线(如Transformer),智驾能力差异将逐渐收敛,数据积累达到一定规模(如特斯拉的50亿英里)后会出现数据饱和效应 [10] * 在感知硬件路线上,融合感知路线(结合激光雷达)比纯视觉更具长期优势,原因包括激光雷达成本已降至200多美元、数据处理技术提升能应对复杂场景、新法规对障碍物检测提出更高要求 [12] * L2+公司向L4发展更具优势,过渡自然且资源投入较少,但挑战在于全域泛化能力和量产一致性 [1][20] 芯片架构与发展需求 * 下一代智能驾驶芯片需求包括:强大的GPU/NPU以支持VLA和世界模型等高级功能、高带宽(未来可能需要从当前290GB/s翻倍或增至1.5倍)、工艺与功耗平衡(如3纳米或5纳米)、增加内存容量 [14][15] * 不同级别自动驾驶的算力需求:L2级需5-10 TOPS,增加泊车功能需约16 TOPS;L2++(高速辅助驾驶)需30-100 TOPS;L3级需500 TOPS以上;L4级普遍认为需1,000 TOPS以上 [16] * 对于L3及以上级别,冗余设计变得重要,例如采用双Orin芯片配置以备未来升级 [16] * 智能驾驶芯片与机器人芯片平台差异不大,许多厂商借鉴共用平台以降低成本 [17] Robotaxi商业化前景 * Robotaxi市场是一个正能性市场,不完全依赖技术驱动,关键在于提高场景内车辆通行效率和减少远程接管及事故率 [18] * 实现盈亏平衡需区域扩展足够大且定价合理,主要成本来自车辆折旧(如小马智行第六代车成本高达60万人民币),可通过定制化、换电等方式降本,同时需确保价格竞争力和扩大行驶里程覆盖范围以提高收入 [19] 其他重要细节 * VLA技术对智能驾驶体验的提升主要集中在功能创新(如自动前进/后退)和对带有语义信息的环境理解能力上,提高了决策合理性和流畅性 [11] * 大多数第三方算法公司(如Momenta、元戎启行)更倾向于开发通用算法并进行跨平台适配,而非与特定芯片厂商深度绑定,软硬件耦合较深的主要是同时提供软硬件解决方案的公司(如华为、地平线) [13]
2025大脑具身智能落地的关键
搜狐财经· 2025-11-02 08:45
文章核心观点 - 具身智能正成为科技领域新焦点,其核心载体是人形机器人,而机器人的“大脑”系统是决定行业发展速度的关键 [1] - 机器人大脑以AI大模型为核心,需整合传感器数据、物理规律和硬件限制,技术研发难度高于通用大模型 [2] - 行业技术路线呈现多元化探索,包括大脑+小脑分层、端到端VLA和世界模型等,目前尚未形成统一标准 [2][3] - 全球参与者分为三类:专业机器人大脑公司、通用大模型企业和机器人本体自研厂商,形成差异化竞争格局 [4][5] - 当前限制人形机器人规模化应用的核心瓶颈是模型本身而非数据,技术临界点预计在未来1-5年内到来 [5] - 机器人大脑研发面临数据获取难、训练复杂度高、通用泛化能力不足等核心挑战 [6] - 尽管存在挑战,特斯拉Optimus、Figure AI等企业的技术突破正推动行业从“机械执行”向“自主思考”迈进 [7] 机器人大脑的定义和能力 - 人形机器人由大脑、小脑和肢体三部分构成:大脑作为决策中枢基于AI大模型进行自主判断,小脑专注运动控制精准性,肢体负责环境感知和执行动作 [1][14] - 大脑系统需具备实时交互能力,能通过语言、手势等方式与人类进行多轮任务级交互,快速理解并执行指令 [15] - 需要强大的多模态感知能力,整合视觉、听觉、触觉等多种感官信息,实现对环境的全面理解 [16] - 必须具备自主可靠决策能力,能够理解复杂任务并将其分解为可执行的子任务序列 [19] - 应具备涌现和泛化能力,能够在未见过的新环境中适应未知情况,展现出创新性解决方案 [19] - 与通用大模型有本质区别,机器人大脑必须解决物理世界的现实问题,考虑硬件限制和动力学规律 [2][19] 人形机器人大模型技术路线 - 大脑+小脑分层路线是相对成熟的主流方向,大脑由多模态大模型担任任务规划和流程理解,小脑专注于运动控制的精准执行 [2][20] - 端到端VLA技术路线采用单一模型直接从感知到动作,灵活性强但目前更适合短时间简单任务,复杂长程任务仍有局限 [3][20] - 世界模型路线是最前沿探索方向,旨在建立对物理世界的认知地图,通过预测未来状态优化动作,但因物理规则复杂仍处于早期阶段 [3][20] - 类脑智能通过对人脑生物结构进行直接模拟,未来有望成为代替大模型的新技术路线 [20][22] - 脑机接口技术建立人脑与外部设备连接通路,未来可能实现“人+机”混合智能的解决方案 [22] 行业竞争格局 - 专业机器人大脑公司包括北京通用人工智能研究院(通研院)、美国的Physical Intelligence和Skild AI等,专注为机器人公司进行AI赋能 [4][25] - 通用大模型企业如谷歌、OpenAI、字节跳动等尝试将自身大模型能力延伸至机器人领域,拥有海量数据和成熟架构但对物理世界理解需加强 [4][25] - 机器人企业自主研发以特斯拉为代表,Optimus采用与自动驾驶同源的单一基础模型架构,实现从感知到行动的端到端自主决策 [5][25] - 国内智元机器人已实现通用具身机器人量产,并推出自己的基座模型,能通过人类操作视频快速学习新技能 [5] 研发瓶颈与挑战 - 模型本身是限制人形机器人规模化应用的最大阻碍,行业发展阶段类似ChatGPT发布前1-3年,临界点预计在未来1-5年内到来 [5][27] - 数据获取困难,机器人大脑需要的是与物理世界交互的“行为数据”,采集成本高且不同机器人硬件导致数据格式不统一 [6][28] - 真实数据被称为“黄金数据”但采集成本高,仿真数据虽能大规模生成但难以还原真实世界的复杂物理交互 [6][28] - 训练难度大,机器人与物体的物理接触会让问题复杂度呈指数级上升,需要同时考虑重力、摩擦力等多重参数 [6][29] - 通用泛化能力不足,如何让模型在未见过的场景中自主应对问题仍是行业需要突破的核心难题 [6][29] 代表性厂商技术进展 - 特斯拉Optimus采用与FSD自动驾驶同源的单一基础模型架构,整合xAI的Grok模型提升逻辑推理能力,复杂指令准确率达92%以上 [32][33] - Figure AI自主研发Helix模型,是全球首个能对整个人形机器人上半身进行高频率连续控制的VLA模型,实现多机器人协同作业效率提升4倍以上 [34][36] - Physical Intelligence聚焦家用场景,其π0.5模型能让机器人在陌生厨房自主完成清理,并能从其他机器人那里学习动作经验 [4] - 通研院推出“通智大脑”系统,联合多家机器人企业成立联盟,推动技术与硬件的适配 [4]
智源研究院王仲远:世界模型的关键是真正预测下一个状态
经济观察网· 2025-11-01 18:51
世界模型成为AI新焦点 - 2025年“世界模型”成为AI领域最受关注的词汇之一 其核心是让AI理解世界运作规律 实现从识别生成到想象预测的跨越 [2] - 随着大模型红利减弱 行业正寻找新增长点 世界模型被视为重要方向 [2] 智源研究院Emu3.5模型技术突破 - 智源研究院发布悟界·Emu3.5多模态世界大模型 采用自回归架构统一了图像 文本与视频的生成和理解 能够预测下一个状态 [2] - 模型基于超过10万亿token的多模态数据训练 视频数据累计时长达790年 参数规模为340亿 [3] - 通过“离散扩散自适应”推理方法 图像生成速度提升近20倍 同时保持高质量输出 [3] - 模型在三个维度实现突破 理解高层级人类意图并生成多步骤行动路径 动态模拟物理世界 提供泛化交互能力 [3] 世界模型的核心价值与应用 - 世界模型核心是对因果与物理规律的理解 而非简单的视频生成 [3] - Emu3.5不限定用途 既可支撑具身智能 也能生成多模态训练数据 展示了中国科研团队的原创路线 [4] - 未来AI的发展方向是理解世界本身并在其中行动 [4] 行业巨头布局世界模型 - DeepMind推出可生成交互式3D世界的Genie 3 OpenAI强化Sora的物理一致性 [2] - 英伟达 华为 百度等公司正从机器人与自动驾驶场景切入 让AI从看懂迈向参与 [2]
从视频生成工具到“世界模型”距离有多远?
中国经营报· 2025-10-31 17:49
行业竞争格局 - OpenAI推出的第二代Sora在登陆苹果应用商店后5天内下载量超过100万次,增速超过ChatGPT [1] - 视频生成模型赛道已聚集谷歌、Meta等科技巨头以及Runway、Luma AI、Midjourney等创业公司 [1] - 国内市场已有阿里、腾讯、字节、快手、百度等企业推出数十款视频大模型产品,美团也开源了其首款视频生成模型LongCat-Video [1] - 视频生成模型的主战场正从“拼参数”的通用模型竞赛转向“拼落地”的垂直生态竞争 [7] 技术应用与影响 - AI视频工具使能进行较高质量内容创作的人群从可能只有10%的专业人员提升至可能90%的人 [2] - 使用Sora等产品未来制作影视、游戏、动漫的效率将会呈现几何倍数增长 [2] - AI视频正在成为社交网络的新名片,相关特效广受欢迎,满足了消费者在数字社交中的个性化等心理需求 [2] - 抖音AI短剧排行榜中的《兴安岭诡事》等作品播放量破亿次,AI短剧正在快速崛起 [3] - 视频生成技术发展迅速,表现在内容生态重塑、社交逻辑重构、内容消费体验升级等方面 [6] 技术演进与市场前景 - Sora2的推出标志着视频生成技术正在进入全民可用的成熟阶段,将给视频相关领域带来深远影响 [4] - 通用大模型正在加速从技术提供商向应用平台服务商转变,社交是撬动大众市场的驱动力 [5] - 多模态生成大模型正迎来系统性可用窗口,生数科技旗下Vidu称用户在30秒内可完成多个镜头切换 [6] - 全球AI视频生成市场规模去年达6.15亿美元,预计今年达7.17亿美元,2032年达25.63亿美元,年均复合增速20% [8] 技术挑战与发展方向 - 美团开源的LongCat-Video模型是其探索“世界模型”的第一步,意图是深耕自家田地而非与通用大模型硬碰硬 [6] - 视频生成模型正探索垂直场景的专用模型,在电商广告、短视频制作等领域已有初步试水 [6] - 要成为真正的“世界模型”需跨越诸多关卡,包括对复杂物理规律的精准模拟、前后逻辑及画面的一致性等 [7] - 成功关键在于技术能否与自身商业场景深度耦合,实现闭环价值,而非单纯技术领先 [7]
DeepMind一篇论文终结十年之争,GPT-5推理靠世界模型
36氪· 2025-10-31 16:22
GPT-5的推理能力突破 - GPT-5展现出惊艳的推理能力,逻辑水平堪比专家,网友评价如同与博士讨论问题[1] - 其核心突破不在于参数规模扩大,而在于智能体内部形成了“世界模型”[1] - 这种推理能力表现为多步逻辑处理能力,如解数学习题和规划流程[5] 世界模型的理论基础 - 世界模型是AI脑中的预测地图,能够对事件发展进行预测(如球桌边缘滚动→掉落预测)[3][4] - 学术框架中存在目标、策略、世界模型的三角推导关系:已知世界模型和目标可推导最优策略,已知策略和世界模型可反推目标[7] - 最新研究补齐三角关系最后一角:通过智能体策略和目标可恢复其世界模型,证明世界模型是通用智能的必要条件[9] 世界模型的实验验证 - 研究人员搭建虚拟迷你世界(含X/Y状态概率跳转)验证世界模型存在性[10][11] - 实验数据显示任务复杂度与模型精度正相关:任务越复杂,世界模型误差迅速下降[12][14] - 在复合目标实验(需状态间来回跳转)中,世界模型仍能被稳定恢复[15] 世界模型的技术意义 - 世界模型解释了“涌现能力”现象:非魔法而是模型清晰化的自然结果[17] - 模型为破解AI黑箱提供新途径,未来可能通过抽取世界模型解释AI行为[17] - 智能体强度与模型精度正相关,GPT-5的推理能力提升直接源于世界模型优化[16] 行业影响与未来展望 - 世界模型既是通向通用智能的通行证,也可能因模型与人类认知差异成为不确定性源头[17] - 该突破改变对AI能力的理解范式,从数据模仿转向内在认知构建[4][9] - 研究成果为AI安全性研究提供理论支撑,使模型可解释性具备实现基础[17]