DPPO（刻意训练） - 财报，业绩电话会，研报，新闻

DPPO（刻意训练）

搜索文档

具身智能之心· 2025-11-17 08:47

产品发布与核心定位 - 北京具身智能机器人创新中心于2025年11月14日正式发布全球最大规模开源的具身视觉语言模型 Pelican-VL 1.0，宣称其性能超越GPT-5同类模型和Google Gemini系列 [1] - Pelican-VL 1.0作为机器人的“视觉语言大脑”，负责将图像信息转化为可理解的语言指令并规划具体行动步骤，是实现具身智能（让机器人像人类一样感知、决策、执行）的核心技术 [1] 研发机构背景 - 北京人形机器人创新中心（国家地方共建具身智能机器人创新中心）于2023年11月成立，是中国首家省级人形机器人创新中心，由小米机器人、优必选科技、京城机电、中国科学院自动化所等企业共同组建，并于2024年10月10日挂牌为“国家地方共建具身智能机器人创新中心” [5] - 该中心已推出通用机器人母平台“天工”系列，这是全球首个全尺寸纯电驱拟人奔跑的人形机器人，实测奔跑速度达12公里/小时，其结构设计文档、软件开发接口等关键资料已全面开放，已有上百家机构基于此进行二次开发 [5] 核心技术：DPPO训练范式 - Pelican-VL性能突破的核心在于全球首创的DPPO刻意训练范式，该范式通过“观察-练习-纠错-提升”的闭环，让模型能够针对薄弱环节进行高效学习，仅用20万条数据就实现了性能超越，数据用量仅为同类模型（通常需100万至500万条数据）的1/10甚至1/50 [8][9] - 对比实验显示，采用DPPO训练的72B参数模型，在视觉理解准确率上提升20.3%，在动作规划合理性上提升25.1%，同时训练时间缩短40% [14] - DPPO范式的四大本质区别包括：具备元认知能力、错误驱动优化、高效数据利用以及部署后的自进化能力 [10][17] 技术资源与规模 - Pelican-VL的训练基于一个由1000多块A800 GPU组成的专用计算集群，单次完整的模型检查点训练耗费超过50000 A800 GPU-小时的计算资源，相当于单块GPU需连续工作近6年 [15] - 模型提供7B和72B两种参数版本，覆盖终端实时响应与云端复杂任务处理的不同需求，其72B参数版本在规模上优于GPT-5（约50B）和Google Gemini（34B/68B）的同类模型 [23] - 训练数据经过严格筛选和蒸馏，从12个领域提炼出包含数亿token的元数据集，数据更聚焦于具身任务，与任务匹配度高 [24] 性能表现与应用 - 在全球公认的具身智能评估基准测试中，Pelican-VL的综合性能超越GPT-5同类模型15.79%，比Google Gemini系列模型提升19.25% [25] - 在具体任务中表现出色，例如在“无序物体抓取”任务中展现精准的空间推理能力，在“复杂场景交互”任务中能完成包含视觉识别、自然语言沟通和连续动作规划的复合指令 [27] - 模型泛化能力突出，在训练数据未涉及的“沙地行走取物”和“斜坡环境操作”等陌生场景中，任务成功率仍保持在80%以上 [28] 产业生态影响 - Pelican-VL以开源方式发布，意味着全球开发者可免费获取模型代码、训练数据和使用手册进行二次开发，此举有望降低中小企业应用具身智能技术的门槛，加速技术迭代和创新应用落地 [33][34] - 模型与“天工”机器人平台结合，已能控制机器人在跑步机上平稳奔跑、上下楼梯，并通过语音交互完成如“递送红色文件”等复杂任务，展现了其作为VLA系统“大脑”连接视觉、语言与动作的强大能力 [29][32]

Pelican-VL 1.0具身视觉语言模型

Pelican-VL 1.0具身视觉语言模型

通用机器人母平台“天工”系列