VLM(视觉语言模型)

搜索文档
Jinqiu Select | Physical Intelligence 联创:AI训练的真实数据不可替代
锦秋集· 2025-07-22 23:04
核心观点 - 过度依赖替代数据源会严重限制AI模型的最终能力 真正的技术突破必须建立在真实数据基础之上 [1] - 当前AI研究面临"勺叉困境":试图用模拟器 人类视频或手持设备等廉价替代方案训练机器人 结果导致模型在真实场景中表现不佳 [1][3] - 机器学习的铁律是训练数据必须与测试条件相匹配 替代数据无法完全替代真实数据在物理世界中的实践 [10] 权宜之计的替代方案 - **模拟训练**:通过sim-to-real方法在模拟环境中训练机器人 但最佳模拟往往不是精确复现现实 而是编码机器人需要应对的各种变化 [3] - **人类视频学习**:需定义人机对应关系 但需弥合人类动作与机器人动作在动力学和外观上的差异 [3] - **手持夹爪设备**:让人们使用模仿机器人夹爪的设备收集数据 但仍受限于设备的工作空间和运动学差异 [3] 替代方案的局限性 - 替代数据将模型限制在三个条件的交集中:系统有效行为 能用替代方法实现的行为 不会暴露领域差异的行为 [4] - 模型越强大 越能区分替代数据与真实数据 导致交集缩小 任何扩大交集的尝试都会削弱模型能力 [6] - 替代数据优化针对特定场景 无法保证在新场景下的匹配度 模型的泛化能力反而成为推广到新场景时的累赘 [7] 真实数据的重要性 - 构建机器人基础模型必须依赖真实数据 才能实现像LLM和VLM在虚拟世界中的广泛泛化能力 [11] - 替代数据应作为辅助知识源 用于了解"世界可能发生什么" 而非"智能体该怎么做"的直接指令 [12] - 在大量真实机器人经验基础上 加入人类数据或模拟数据等多样化来源 比完全回避真实数据更有效 [11] 勺叉现象的普遍性 - "勺叉"现象不仅存在于数据替代方案 还包括混合系统 手工约束学习系统等方法 都试图用人工设计应对训练不充分问题 [13] - 手工设计的归纳偏置会成为性能瓶颈 违背机器学习通过数据驱动获取能力的核心优势 [13]
理想重押VLA,「端到端」模型负责人夏中谱将离职|36氪独家
36氪· 2025-05-21 19:18
核心观点 - 理想汽车辅助驾驶"端到端"模型负责人夏中谱近期离职,可能与公司技术路线从"端到端"转向VLA(视觉-语言-动作)模型有关 [3][7][14] - 公司已全面押注VLA技术路线,投入超过预期3倍的训练卡数,并调整团队架构以支持新方向 [7][8][9] - VLA模型相比现有方案具有更强的物理世界交互能力,但技术尚处早期探索阶段 [12][13] 人事变动 - 夏中谱2023年加入理想,负责辅助驾驶系统规划控制模型,2024年11月升任"端到端"模型负责人,职级从19级快速升至21级 [5][6] - 其离职后,VLA技术路线由辅助驾驶技术研发负责人贾鹏主导,团队管理层郎咸朋职级升至24级 [9] 技术路线演变 - 2023年至今技术路径经历三次切换:高精地图→"端到端"→VLA模型 [9] - "端到端"方案2023年11月立项,2024年10月提前两个月向Max用户全量推送,帮助公司跻身辅助驾驶第一梯队 [9][10] - 公司认为"端到端"方案存在局限性,无法处理复杂场景,VLM(视觉语言模型)补充效果有限 [11][12] VLA技术特性 - 新增与物理世界交互的"动作"能力,可通过3D+2D视觉完整感知环境 [12] - 具备语言理解、思维链推理能力,更接近人类决策模式 [12] - 行业趋势显示竞品也在强化系统通识与推理能力(蔚来世界模型、小鹏云端基座大模型) [12] 战略投入 - CEO李想公开表态VLA是"像人类司机一样工作的司机大模型" [7] - 辅助驾驶团队已重组为"端到端"模型、世界模型、量产研发三大部门 [5][9]
ICML Spotlight | MCU:全球首个生成式开放世界基准,革新通用AI评测范式
机器之心· 2025-05-13 15:08
核心观点 - 通用人工智能研究院与北京大学联合开发了Minecraft Universe (MCU)平台,旨在解决开放世界AI智能体评测的三大瓶颈:任务多样化不足、环境单一、评测效率低下 [1][3][6] - MCU通过3,452个原子任务的无限组合生成、GPT-4o驱动的全自动任务配置、多模态智能评测三大突破,构建了维度丰富的综合评测框架 [6][11][14] - 实验显示当前SOTA模型(GROOT/STEVE-I/VPT系列)在组合任务中的完成率较原子任务下降50%以上,创造性得分普遍低于0.3分(满分1分),揭示泛化能力存在显著缺陷 [17][18][21] 技术架构 任务生成系统 - 支持11大类41子类任务类型(挖矿/合成/战斗/建造等),每个任务可分解为原子级粒度测试控制/规划/推理能力 [13] - 基于GPT-4o实现一句话生成复杂世界场景(含天气/生物群系/初始道具),自动校验任务逻辑可行性(如避免"木镐挖钻石"类错误) [11][14] - 示例任务包括"沙漠建水上屋"、"熔岩坑边缘造瀑布"等,通过调整环境变量(昼夜/地形)生成不同难度版本 [7][20] 评测体系创新 - 引入VLM驱动的多模态评分系统,覆盖任务进度/材料利用率/执行效率等6大维度,评分准确率达91.5% [14] - 采用动态任务进度指标替代传统0/1完成率,可量化阶段性表现(如GROOT在"屋内睡觉"任务中误判率达83%) [21] - 评测效率较人工提升8.1倍,成本仅为1/5,支持单日处理超10万次任务验证 [14] 实验结果 模型性能短板 - 导航类任务:GROOT在熟悉场景平均得分0.72,但环境微调后(草地→屋内)得分骤降至0.33 [18][21] - 组合任务:VPT(RL)在采矿+建造的复合任务中成功率仅23%,较单一采矿任务下降41个百分点 [18] - 创造性缺陷:所有模型在建造类任务的创新得分均未超过0.38分(STEVE-I在"瀑布建造"中得分为0.05) [18][21] 行业启示 - 现有模型过度依赖预设环境(如VPT在陌生生物群系中错误识别率达65%),暴露语义理解不足 [17][22] - 长周期任务(持续数小时)的完成率普遍低于20%,反映长期规划能力缺失 [6][21] - 评测结果指明研发方向:需提升任务本质理解能力而非表面指令执行 [22]