大事不好:机器人学会预测未来了
机器人机器人(SZ:300024) 36氪·2026-01-31 09:39

文章核心观点 - 蚂蚁灵波(Ant Group LingBot)开源了全球首个用于通用机器人控制的因果视频-动作世界模型LingBot-VA,该模型通过“先想象未来画面,再反推动作”的范式,显著提升了机器人在长时序、高精度及复杂任务中的自主决策与执行能力,标志着世界模型在机器人控制领域进入实际应用阶段 [1][5][6] - LingBot-VA是该公司连续第四天开源机器人关键技术组件,与之前开源的LingBot-Depth、LingBot-VLA、LingBot-World共同构成了一套完整的、推动通用机器人进入“视频时代”的技术栈,对行业技术路线产生了深远影响 [34][35][36] 技术原理与架构创新 - 核心范式转变:模型摒弃了传统VLA(视觉-语言-动作)的“观察-反应”模式,采用“先想象世界,再反推动作”的两步策略,即通过视频世界模型预测未来视觉状态,再通过逆向动力学反推执行动作 [3][6][7] - 关键架构突破: - 采用视频与动作的自回归交错序列,并引入因果注意力确保时序逻辑,借助KV-cache技术赋予模型长期记忆能力,使其能记住长任务中的历史步骤 [9] - 采用Mixture-of-Transformers (MoT) 分工协作架构,将视频流(负责繁重视觉推演)与动作流(负责精准运动控制)解耦,共享注意力但保持表征独立,解决了表征缠绕问题,提升了控制精度 [11][12][13][14][15] - 在工程实现上应用了部分去噪、异步推理和FDM接地等技术,分别提升了计算效率、降低了执行延迟,并防止模型想象脱离现实 [17][18] 性能表现与实验结果 - 真机任务测试:模型在三大类挑战性任务中表现稳健 - 长时序任务:如准备早餐、拆快递等多步骤任务,能稳定执行并在失败后记住进度重试 [22][23] - 高精度任务:如清洗细小透明试管、拧螺丝等毫米级精度操作,得益于MoT架构,动作控制稳定 [5][24][25] - 可变形物体操作:如折衣服、折裤子,能通过视频推演预判布料形变 [26][27] - 仿真基准测试成绩: - 在RoboTwin 2.0双臂协作基准测试中,综合表现领先 - Easy场景平均成功率92.93%,比第二名高出4.2个百分点 [28][29] - Hard场景平均成功率91.55%,比第二名高出4.6个百分点 [28][29] - 任务序列越长、难度越高(Horizon变大),领先优势越明显,在Horizon=3的长任务中优势超过9个百分点 [29][30] - 在LIBERO基准测试中,以98.5%的平均成功率刷新了SOTA(State-of-the-Art)记录 [30][31] - 核心能力验证: - 长期记忆:在擦盘子计数等任务中,能精准记忆历史动作,避免遗忘 [31] - 少样本适应:面对新任务,仅需约50条演示数据即可通过微调学会,数据效率极高 [32] - 强泛化能力:对训练中未见的物体形状、颜色或摆放位置,仍能准确识别和操作 [32] 行业影响与战略意义 - 技术路线整合:蚂蚁灵波连续四天开源的关键技术(LingBot-Depth, VLA, World, VA)形成了一条清晰完整的技术主线,分别解决了机器人“看清、连接、理解、行动”的核心问题,系统性提升了机器人在长任务、复杂场景及非结构化环境中的能力 [34][35] - 推动行业范式演进: - 标志着通用机器人正全面走向视频时代,视频成为连接感知、记忆、物理和行动的统一推理媒介 [35] - 使世界模型从可选项变为机器人中枢能力,推动具身智能从“能动”进化到“会想再动” [36] - 引发行业连锁反应:该系列开源动作已被海外媒体视为全球机器人领域主导权争夺的战略举措,并已引发同行跟进,如谷歌推进Project Genie、宇树科技开源UnifoLM-VLA-0等,形成了行业蝴蝶效应 [37][38]

大事不好:机器人学会预测未来了 - Reportify