Workflow
超大参数量具身VLM开源:DPPO训练范式,模型性价比天花板!
具身智能之心·2025-11-16 00:03

模型发布与核心优势 - 北京人形机器人创新中心于2025年11月13日开源了具身智能视觉语言模型Pelican-VL 1.0,该模型覆盖7B和72B两种参数规模,被称为目前最大规模的开源具身多模态大脑模型[1] - 模型在由1000+ A800 GPU组成的集群上训练,单次检查点训练耗费超过50,000 A800 GPU-小时,并从原始数据中蒸馏出包含数亿token的高质量元数据作为训练基石[3] - 在基线基础上性能提升20.3%,超过同级别开源模型10.6%,根据测试其平均性能超越GPT-5和Google Gemini等闭源系列模型,成为目前最强具身性能的开源多模态大模型[3] 创新训练范式DPPO - 模型采用名为DPPO(刻意练习策略优化)的创新训练范式,该范式模仿人类元认知学习方式,通过强化学习探索弱点、生成失败样本,再进行有针对性的监督微调,让模型不断自我纠错和迭代进步[6][8] - DPPO框架包含两个主要阶段:强化学习阶段通过多样化奖励机制和难度过滤自动发现模型薄弱点并快速提升能力;监督微调阶段针对弱点数据进行知识扩展与模式对齐,通过蒸馏和数据构建巩固模型能力[8] - 凭借DPPO训练范式,Pelican-VL实现了性能大幅提升20.3%,在视觉-语言和具身任务上的能力得到持续提高[8][9] 核心能力表现 - 在多模态理解与推理能力方面,模型能同时处理视觉和文本输入,基于场景进行物理推理、空间关系理解和功能预测,例如在封闭厨房或商超场景中能分辨果蔬摆放、柜台位置并据此规划取物和放置动作[9] - 在空间-时间认知方面,模型训练包含数万小时的视频和动态场景问答,使其具备连续时序理解能力,能捕捉物体移动、操作步骤的时间先后关系,从而对复杂连贯的任务序列做出合理推断[13] - 在具身交互能力方面,模型在物体抓取、导航、协作等机器人任务中不仅能理解任务目标,还能输出细化的动作步骤和评估每步可行性,覆盖抓取、导航、人机交互等不同应用场景[13] 基准测试性能 - 在≤100B参数模型对比中,Pelican-VL 72B版本在12个基准测试上的平均得分达到63.8,显著高于其他同级别开源模型,如在PhyX基准上得分为86.4,在Where2Place基准上得分为64.0[18] - 在>100B参数模型对比中,Pelican-VL 72B版本与包括GPT-5、Gemini2.5-Flash、GPT-40等闭源大模型相比,平均得分达到63.8,超过部分闭源模型,在PhyX基准上以86.4分表现最佳[21] - 模型在九个维度的具身智能分类体系评测中,各项指标均匀、均衡且在关键维度上表现突出,显示出全面的能力分布[14][15] 产业影响与竞争优势 - 该开源模型提供了一套“视觉理解→长期规划→物理操作”串联的可复用训练范式,降低了在机器人中使用VLM的门槛,其他实验室或企业可以在此基础上做定制化训练,加速产业落地探索[22] - 与国外闭源模型相比,Pelican-VL在国内开源模型基础上进行预训练,利用少量数据和训练资源即达到相当甚至更好的性能,整体数据利用率达到其他模型的10倍至50倍[27] - 相比于国内同类模型,Pelican-VL平均提升了10%以上的性能,成为国内性能最好的具身智能模型,其开源策略有望促进打破技术闭环与数据孤岛,推动产业链协同的规模化发展[27][28]