视频世界模型
搜索文档
英伟达Jim Fan:机器人领域还处于混乱状态,连发展方向都有可能是错的
硬AI· 2025-12-29 22:24
文章核心观点 - 英伟达机器人业务负责人Jim Fan严厉批评机器人行业现状,指出其在软件迭代、标准制定和技术路线选择上仍处于混乱状态,距离商业化应用仍有较大距离 [2][3] 硬件可靠性问题 - 尽管Optimus、e-Atlas、Figure、Neo、G1等机器人展现了精湛的工程技术,但硬件可靠性严重限制了软件开发速度,最先进的人工智能尚未充分发挥这些前沿硬件的全部能力 [7] - 机器人无法从损伤中自我修复,过热、电机损坏、固件异常等问题每天都在发生,错误是不可逆且无法容忍的,照看机器人需要整个运营团队的支持 [7] - 硬件可靠性成为软件迭代的最大障碍,导致研发人力成本高企、迭代效率低下 [6][7] 行业标准与评估体系问题 - 机器人领域的基准测试状况被称为“史诗级灾难”,在硬件平台、任务定义、评分标准、模拟器或真实世界设置等方面均无统一标准 [9] - 与大语言模型领域已形成MMLU、SWE-Bench等共识性标准不同,机器人行业每家公司在发布新闻时临时定义自己的基准测试,并据此宣称达到“当前最佳”水平 [9] - 演示视频往往是从100次尝试中挑选出的最佳效果,行业缺乏科学严谨性,可复现性和科学纪律被忽视 [9] 主流技术路线质疑 - 当前主流的视觉-语言-动作模型技术路线“感觉不对”,其基于视觉语言模型的预训练方式与机器人实际需求存在根本性错位 [2][3] - VLA模型存在两个核心问题:首先,VLM中的大多数参数是为语言和知识服务的,而非为物理学服务;其次,为实现高层次理解,视觉编码器会主动丢弃对机器人灵巧操作至关重要的低级细节 [11] - VLM是为视觉问答等基准测试高度优化的,其预训练目标与机器人需求存在错位,没有理由相信VLA的性能会随着VLM参数的增加而扩展 [11] - Jim Fan表示正押注于视频世界模型作为更适合机器人策略的预训练目标和替代方案 [2][3][11] 业内讨论与回应 - 有业内观点质疑,如果视频世界模型更优,为何Helix、GR00T N1和π0等实际交付成果的模型仍构建在VLM基础上,且世界模型目前主要用于策略评估和合成数据,而非直接运动控制 [12][14] - Jim Fan回应称,这些是2025年的模型,期待2026年的下一代大模型 [13][14]
英伟达机Jim Fan:机器人领域还处于混乱状态,连发展方向都有可能是错的
华尔街见闻· 2025-12-29 11:47
文章核心观点 - 英伟达机器人业务负责人Jim Fan对机器人行业现状提出严厉批评 认为尽管硬件技术取得显著进展 但行业在软件迭代 标准制定和技术路线选择上仍处于混乱状态 距离商业化应用仍有较大距离 [1] 硬件可靠性问题 - 硬件可靠性成为软件迭代最大障碍 当前最先进的人工智能尚未充分发挥Optimus e-Atlas Figure Neo G1等前沿硬件的全部能力 [3] - 机器人无法从过热 电机损坏 固件异常等损伤中自我修复 错误不可逆且无法容忍 照看机器人需要整个运营团队支持 揭示了研发中人力成本高企 迭代效率低下的现实困境 [4] 行业标准与评估体系 - 机器人领域的基准测试状况被称为“史诗级灾难” 在硬件平台 任务定义 评分标准 模拟器或真实世界设置等方面均无统一标准 与大语言模型领域已形成共识性标准的情况不同 [5] - 行业普遍现象是每家公司在发布新闻时临时定义自己的基准测试 并据此宣称达到“当前最佳”水平 演示视频往往是从100次尝试中挑选出的最佳效果 [5] 主流技术路线争议 - 对当前占主导地位的视觉-语言-动作模型技术路线提出根本性质疑 认为其基于视觉语言模型的预训练方式与机器人实际需求存在根本性错位 [1][6] - VLA模型存在两个核心问题:视觉语言模型中的大多数参数是为语言和知识服务而非物理学服务;视觉编码器为实现高层次理解会主动丢弃对机器人灵巧操作至关重要的低级细节 [6] - 认为视觉语言模型是为视觉问答等基准测试高度优化的 其预训练目标与机器人需求存在错位 没有理由相信VLA的性能会随着VLM参数的增加而扩展 [6] - 表示正押注于视频世界模型作为更适合机器人策略的预训练目标替代方案 [1][6] - 对于为何当前实际交付成果的模型仍构建在VLM基础上 回应称这些是2025年的模型 期待2026年的下一代大模型 [9]