核心观点 - 北京人形机器人创新中心开发的“具身大一统”模型Pelican-Unify 1.0,在WorldArena全球权威评测的“数据引擎”和“综合评测”两大核心赛道同时夺冠,成为该领域全球首个“双冠王”,标志着其具身大脑能力跻身世界第一梯队[2] - 该模型的成功标志着具身智能从“功能拼凑”迈入了“协同进化”的新阶段,提出了一条更接近通用具身智能的建模路径,即让理解、推理、想象与行动在同一个物理智能回路中共享表示、共同训练、相互塑形,为迈向通用具身智能奠定了技术与路径基础[2][20] 评测表现与行业地位 - 全球顶级评测登顶:Pelican-Unify 1.0在由清华大学、普林斯顿大学等8所顶尖机构共同发起的WorldArena评测中登顶,该评测涵盖6大维度、16项细分指标和3大真实应用任务,以学术严谨性和行业公信力著称,吸引了全球几乎所有头部世界模型团队参与[4][5] - 综合能力全面领先:在World Arena综合评测中,Pelican-Unify 1.0以EWM Score 66.03分排名第一,在视觉质量、运动质量、内容一致性、物理遵循、3D准确性等多维度均展现完美平衡,其中3D Accuracy达到98.12%,接近满分[6][8] - “双冠王”成就:公司成为全球唯一在WorldArena“数据引擎”和“综合评测”两大核心赛道同时夺冠的企业,加冕具身智能领域首个“双冠王”[2] 技术突破与模型特点 - “大一统”模型架构:Pelican-Unify 1.0的核心思路是实现“理解、推理、想象、行动”四类能力的统一,而非孤立模块的拼接[9] - 统一理解:将场景、指令、视觉上下文和动作历史映射到共享语义空间[11] - 统一推理:将任务意图、动作选择和未来后果转化为可监督的语言化推理过程[11] - 统一生成:在同一个扩散解码过程中联合生成未来视频和低层动作,使动作受想象后果塑造,想象受任务推理约束[11] - 协同进化训练机制:模型通过一个共享的潜在表示(latent z),使文本、视频和动作三路损失在训练中共同优化,让模型同时学习“如何理解任务”、“未来会发生什么”以及“应该执行什么动作”,实现不同能力模块的相互约束与共同演化[9] 关键能力验证 - 闭环智能与未来预演:模型能够在动作执行前生成未来视觉状态,并使动作预测与未来想象相互对齐,这意味着其“想象”是服务于机器人行动的未来预演,有助于处理复杂任务中的长程依赖、物体接触和空间变化[10] - 真实机器人部署成功:模型已部署至天工人形机器人及UR5e机械臂进行验证[13] - 组合泛化:在仅用“插入RJ45接头”和“做防水处理”等原子任务数据训练、未见过完整组合演示的情况下,成功完成了“先插线、后防水”的未见过长程组合任务[13] - 零样本迁移:展示了强大的跨任务迁移能力[13] - 统一模型未削弱单项能力:实验证明统一训练并未削弱各分项能力,反而有所增强[15] - 理解与推理能力:在8个General / Embodied Benchmarks上取得64.7平均分,达到SOTA水平;在更具具身属性的Where2Place和PhyX评测上,相比基座模型分别提升28.2分和20.6分[15][16][17] - 动作生成能力:在RoboTwin 50-task dual-arm benchmark上取得**93.5%**的平均成功率,与当前SOTA模型性能基本持平,其中50个任务中有31个任务成功率至少达95%,15个任务达100%[17][18] 行业意义与发展前景 - 新范式引领:Pelican-Unify 1.0提出了一条更接近通用具身智能的建模路径,其价值在于让模型既能保持专家能力,又能在真实任务中形成更完整的“推理—想象—行动”闭环智能[20] - 全栈式闭环体系:研发主体北京人形机器人创新中心以通用机器人平台“具身天工”和通用具身智能平台“慧思开物”为双核心,构建了覆盖“本体—大脑—小脑—平台—生态”的全栈式闭环体系,旨在将顶尖模型融入真实生产与服务场景[21] - 降低门槛与加速演进:凭借“双冠王”的技术积累,公司致力于降低具身智能的进入门槛,加速人形机器人从专用设备向通用生产力工具的演进[21]
「最强大脑」,双冠加冕!北京人形 Pelican‑Unify 1.0 登顶世界第一,具身大脑能力跻身世界第一梯队
机器人大讲堂·2026-05-18 17:07