行业背景与技术路线僵局 - 当前具身智能赛道主要存在两大技术流派:纯视觉语言动作模型和世界模型派 [1] - 纯VLA模型如Physical Intelligence π0.7擅长泛化与适配陌生场景,而世界模型派如英伟达DreamZero主打零样本预判未来 [1] - 但两种技术路线均存在短板,行业缺乏能够跑通、落地并可规模化的统一解决方案 [2] 公司创新:LDA-1B模型的核心突破 - 公司创新推出参数为1.6B的跨本体“隐式世界-动作基础模型”LDA-1B [3] - 该模型采用自研的WAM世界-动作融合技术路线 [4] - 研究成果已登顶机器人顶会RSS,项目代码全面开源 [5] 技术突破一:全数据高效利用范式 - LDA-1B首次在数据层面实现虚实共融、人机混合、质量参差、有无动作标签数据的统一有效利用 [6] - 模型能够混合利用虚拟仿真、真实拍摄、人类视频、机器人记录、高清或模糊影像、带标注或无标注的原始素材进行训练 [7] - 仅需1小时后训练即可实现跨具身本体的自适应,快速学会操控不同形态的机器人 [9] - 此举打破了数据割裂难题,解锁了具身智能的“GPT-2时刻”,不再依赖高质量标注数据 [10][11][12] - 随着训练数据从5000小时扩展至30000小时,模型动作预测误差持续下降,呈现稳定的单调改善趋势 [29] - 在耗尽所有有动作标注数据后,继续加入超过10000小时无动作标注的人类视频,模型性能依然能持续提升 [33] 技术突破二:WAM统一框架与四大核心能力 - LDA-1B走出了区别于纯VLA和纯世界模型的第三条技术路线,在单一扩散模型框架内将两者融合 [37][39] - 模型同时学习四大核心能力:策略学习、前向动力学、逆向动力学和视觉预测 [46] - 通过一个MM-DiT构建,将动作策略学习与世界建模统一建模 [43] - 模型在紧凑的DINO潜空间中建模动力学,将注意力放在物体结构和动作本质上,而非像素级细节 [45] - 在处理具体操控、灵巧操控及长程操作等复杂任务时,性能提升高达48% [47] 模型性能与实验结果 - 在零售、家庭、工业三大典型场景中,模型展现出流畅的实操能力和落地适配性 [14][16] - 在跨本体泛化测试中,使用未在预训练数据集中出现过的机器人本体,模型表现一骑绝尘 [48][49] - 在夹爪取放、物体交接、长程任务等测试中,性能超越GR00T-N1.6和π0.5等模型 [50] - 能够完成如从锅中翻捡牛排盛盘并撒胡椒粉等高难度生活化任务 [52] - 在下游任务微调中加入包含大量失败操作的遥操作数据时,模型性能反而提升10% [55] 数据基础设施与金字塔结构 - 公司构建了名为“银河星数”的数据基础设施,以支持对全类数据的统一运用 [22] - 建立了金字塔式五层数据结构,不同质量的数据被分配不同的训练角色 [24][30] - 数据被系统性重组进统一的世界-动作模型中,形成“通用数据摄入范式” [25][26] - 该范式让海量高低质量、有无标签的异构数据都能成为模型能力持续增长的动力 [35] 产业落地与战略布局 - 公司将工厂工业和家庭起居作为核心落地主战场 [59] - 在工厂场景,模型可适配复杂工业产线,完成柔性搬运、精密操作等多元化作业,降低智能化改造成本 [59] - 在家庭场景,模型可覆盖全屋家务打理、老人儿童陪护等日常需求,打破家庭服务机器人功能单一的痛点 [59] - 模型是公司“银河星脑”全人形通用基础模型体系的关键闭环,嵌入在从数据基础设施到持续部署反馈的完整技术体系中 [58] 生态建设与行业影响 - 公司已开源基于公开数据训练的LDA-1B模型版本,秉持开放共建理念 [60] - 旨在打破行业封闭迭代壁垒,为全球研究提供通用高效的技术底座,加速全行业技术跃迁 [61] - 公司已完成技术、数据、产业的全维度闭环,坐稳国内具身智能赛道技术与估值龙头地位 [61] 公司估值与市场认可 - 截至2026年4月,公司是国内估值最高的未上市具身智能企业,估值超过200亿元 [63] - LDA-1B的问世进一步夯实了公司的核心技术壁垒与行业领先的产业价值 [64] 技术演进与历史沿革 - 公司在去年3月已率先提出并实践将世界模型与动作模型统一的WAM框架 [70] - 相关论文《DyWA: Dynamics-adaptive World Action Model》在全球范围内首次对WAM概念进行结构化定义,并在复杂任务中验证 [71][72]
银河通用LDA定义全域数据利用范式,跨本体世界动作大模型开启具身GPT-2时刻
量子位·2026-04-29 10:13