Workflow
别造轮子了!原力灵机开源Dexbotic:迈向具身智能的一站式VLA工具箱
具身智能之心·2025-10-22 14:02

文章核心观点 - Dexmal原力灵机推出了Dexbotic开源工具箱,旨在解决具身智能领域VLA模型开发中存在的框架碎片化、复现困难、资源门槛高等问题,通过提供统一的数据格式、模块化模型架构和高效的实验层设计,推动行业从“碎片化探索”进入“协同创新”新阶段 [1][4][7][29] Dexbotic框架概述 - Dexbotic是一个集成了主流VLA模型的通用易扩展开源工具箱,涵盖操作策略和导航策略,支持云端与本地一体化训练及全链路机器人训练部署 [1][2] - 该框架以“统一VLA架构”为核心,构建了从数据处理到模型开发再到实验落地的全链路解决方案,被类比为具身智能领域的“mmdet时刻” [7] 行业痛点与解决方案 - 当前VLA研究落地受限于碎片化问题,不同团队采用各异框架导致模型对比和复现效率低下,且多数模型无法充分利用最新LLM的强大表征能力 [1][4] - Dexbotic通过统一的模块化VLA框架解决了上述痛点,其设计贴合开发者视角,大幅降低操作门槛 [7][24] 数据层:Dexdata格式 - Dexbotic设计了Dexdata格式来实现多源数据的高效统一,该格式由“视频目录+jsonl目录”组成,大幅节省了模型训练的存储成本 [9][10] - 相较于其他框架的数据格式,Dexdata为多机器人的训练与部署提供了统一数据基础,对个人开发者非常友好 [10] 模型层:DexboticVLM - 模型层以DexboticVLM为核心基础模型,采用“视觉编码器+投影器+LLM”的经典结构,训练流程参考LLaVA [11] - 框架提供两类预训练模型:面向通用VLA策略的离散预训练模型和面向特定策略的连续预训练模型,以满足不同机器人场景需求 [11] 实验层:高效开发支持 - 实验层采用“基础脚本+参数继承”的设计思路,让算法对比、模型迭代效率提升50%以上,完全贴合开发者的实际操作习惯 [11] - 该层支持云端与本地消费级GPU的训练与推理,兼顾高校、企业等不同用户的算力需求 [11][25] 性能表现与基准测试 - 在SimplerEnv benchmark中,DB-CogACT较官方CogACT平均成功率提升18.2%,DB-OFT较官方OpenVLA-OFT提升46.2% [21][22] - 在长任务场景CALVIN benchmark中,DB-CogACT的平均任务完成长度达4.06,较官方版本提升0.81 [21][22] - 即使是已达SOTA的MemoryVLA,在Dexbotic预训练模型加持下也实现了性能提升 [21] 部署与应用支持 - Dexbotic提供全链路机器人训练与部署支持,针对UR5、Franka、ALOHA等主流机器人,已实现多项日常任务的高成功率 [27][29] - 框架采用模块化设计,将所有VLA策略统一拆分为“VLM+动作头”两部分,为算法开发人员自定义策略提供了灵活扩展空间 [15] 开源计划与社区建设 - Dexbotic已开源部分预训练模型和策略,并公布了详细的开源计划表,未来将持续扩展支持的机器人平台 [15][18][27] - 公司同时开源了硬件产品DOS-W1,采用完全开源的硬件设计和快拆结构,以软硬协同方式推进具身领域发展 [30][32]