推理提速 10 倍，成功率暴涨 30%！极佳视界发布全新世界模型GigaWorld-Policy

核心观点 - 极佳视界发布全新世界-动作模型GigaWorld-Policy，通过创新的“以动作为中心”架构和分层训练法，在推理速度、训练效率和真机任务成功率上实现重大突破，标志着世界模型驱动的机器人迈入高频实时闭环控制的新阶段 [2] 模型性能突破 - 推理速度相比当前主流模型（如Motus、Cosmos Policy）提升10倍 [2][5] - 训练效率相比传统视觉语言动作模型训练方案提升10倍 [2][8] - 真机任务平均成功率逼近85%，相比Cosmos-Policy等对手，成功率绝对值提升超过30% [2][17] 技术创新：以动作为中心的架构 - 提出“以动作为中心”的新范式，解决传统架构因需同时生成未来视觉与动作而导致的跨模态耦合与高计算延迟问题 [5] - 基于轻量级世界模型GigaWorld-0.5，将视觉观测、机器人状态及动作序列映射到统一嵌入空间，通过单一Transformer主干网络协同建模，消除模态割裂 [5] - 采用“训繁推简”混合策略：训练时引入因果掩码机制，统一建模动作与未来视觉Token以利用高密度监督信号；推理时舍弃视频预测分支，仅保留轻量化动作生成模块，从根本上规避结构性计算冗余 [5][9] - 该架构在实现高质量策略输出的同时，大幅降低显存占用，为工业级大规模部署铺平道路 [5] 训练方法：三段式高效训练Pipeline - 采用分层训练范式，最大化挖掘海量视频数据价值 [8] - 第一阶段：通用物理世界预训练。利用海量互联网视频数据，让基础模型建立对通用物理规律和视觉动态的基础认知 [10] - 第二阶段：具身场景沉浸式微调。引入数千小时涵盖第一人称、真机及仿真的多源操作视频，让模型专攻具身交互场景，掌握特定时空演变规律 [10] - 第三阶段：极小样本动作对齐。在强大“世界观”基础上，仅需极少量的真机动作标签数据，即可将预训练世界模型与机器人动作预测精准对齐，快速打通“观测-动作-未来视觉”的因果映射 [10] 真机实测表现 - 在涵盖抓取、装配、物品整理等多种典型机器人任务的严苛评测中，GigaWorld-Policy是唯一同时实现高成功率与高实时控制频率的模型 [13] - 对比Motus，不仅大幅缩减显存占用，更实现10倍推理提速，达到毫秒级响应能力，这是机器人应对现实环境动态干扰、实现高成功率的底层基石 [17] - 即便对比某些主打极速推理的模型，GigaWorld-Policy凭借对物理世界规律的深刻理解依然稳占上风 [17] 行业意义与影响 - 该模型是对传统具身智能策略学习的一次重要范式重构，切中了传统世界-动作模型推理延迟高、视觉与动作表征耦合过深的问题 [15] - 让世界模型在机器人领域的落地应用更具实用性，为机器人在真实物理世界中的实时、高效操控提供了极具价值的新解法 [15] - 标志着由世界模型驱动的机器人真正迈入了“高频实时闭环控制”的落地新纪元 [2]