智元机器人发布行业首个机器人世界模型开源平台——Genie Envisioner

核心观点 - 智元机器人推出统一世界模型平台Genie Envisioner，将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构，实现从“看”到“想”再到“动”的端到端推理与执行 [1] - 该平台基于约3000小时真实机器人操控视频数据构建，在跨平台泛化和长时序任务执行上显著超越现有SOTA方法 [1] 核心创新：视觉中心的世界建模范式 - 核心突破在于构建了基于世界模型的以视觉中心的建模范式，直接在视觉空间中建模机器人与环境的交互动态，完整保留操控过程中的空间结构和时序演化信息 [3] - 该范式带来高效的跨本体泛化能力，GE-Act仅需1小时（约250个演示）的遥操作数据即可在新机器人平台上实现高质量任务执行，超越π0和GR00T等多本体数据预训练模型 [3] - 视觉中心建模赋予强大的未来时空预测能力，在折叠纸盒等超长步骤任务中，GE-Act达到76%的成功率，显著高于π0的48%，而UniVLA和GR00T完全无法完成（0%成功率） [5] 技术架构：三大核心组件 - GE-Base作为多视角视频世界基础模型，采用自回归视频生成框架，通过多视角生成能力和稀疏记忆机制处理头部和双臂腕部相机的三路视角输入，基于3000小时、超100万条真机数据，使用32块A100 GPU训练约10天完成 [6][7] - GE-Act作为即插即用的160M参数动作模型，通过平行流匹配将视觉表征转换为控制指令，采用异步推理模式，视频DiT以5Hz运行，动作模型以30Hz运行，可在机载RTX 4090 GPU上以200毫秒完成54步动作推理，实现实时控制 [11][13] - GE-Sim作为层次化动作条件仿真器，通过Pose2Image条件和运动向量机制将低层控制指令转换为精确视觉预测，支持闭环策略评估，可实现每小时数千次的策略rollout评估 [15][16] 评测表现与开源计划 - 团队开发了EWMBench评测套件，在与Kling、Hailuo、OpenSora等先进模型对比中，GE-Base在场景一致性（0.9427）、运动动力学（1.6676）、语义对齐（2.0907）等关键指标上均取得最优成绩，总得分4.7010 [20][22] - 团队将开源全部代码、预训练模型和评测工具，未来计划扩展更多传感器模态，支持全身移动与人机协作，推动智能制造与服务机器人的落地应用 [23]