文章核心观点 - 英伟达机器人业务负责人Jim Fan对机器人行业现状提出严厉批评 认为尽管硬件技术取得显著进展 但行业在软件迭代 标准制定和技术路线选择上仍处于混乱状态 距离商业化应用仍有较大距离 [1] 硬件可靠性问题 - 硬件可靠性成为软件迭代最大障碍 当前最先进的人工智能尚未充分发挥Optimus e-Atlas Figure Neo G1等前沿硬件的全部能力 [3] - 机器人无法从过热 电机损坏 固件异常等损伤中自我修复 错误不可逆且无法容忍 照看机器人需要整个运营团队支持 揭示了研发中人力成本高企 迭代效率低下的现实困境 [4] 行业标准与评估体系 - 机器人领域的基准测试状况被称为“史诗级灾难” 在硬件平台 任务定义 评分标准 模拟器或真实世界设置等方面均无统一标准 与大语言模型领域已形成共识性标准的情况不同 [5] - 行业普遍现象是每家公司在发布新闻时临时定义自己的基准测试 并据此宣称达到“当前最佳”水平 演示视频往往是从100次尝试中挑选出的最佳效果 [5] 主流技术路线争议 - 对当前占主导地位的视觉-语言-动作模型技术路线提出根本性质疑 认为其基于视觉语言模型的预训练方式与机器人实际需求存在根本性错位 [1][6] - VLA模型存在两个核心问题:视觉语言模型中的大多数参数是为语言和知识服务而非物理学服务;视觉编码器为实现高层次理解会主动丢弃对机器人灵巧操作至关重要的低级细节 [6] - 认为视觉语言模型是为视觉问答等基准测试高度优化的 其预训练目标与机器人需求存在错位 没有理由相信VLA的性能会随着VLM参数的增加而扩展 [6] - 表示正押注于视频世界模型作为更适合机器人策略的预训练目标替代方案 [1][6] - 对于为何当前实际交付成果的模型仍构建在VLM基础上 回应称这些是2025年的模型 期待2026年的下一代大模型 [9]
英伟达机Jim Fan:机器人领域还处于混乱状态,连发展方向都有可能是错的