Workflow
银河星数(AstraData)
icon
搜索文档
超越VLA与世界模型,银河通用发布LDA,全谱系数据跑通Scaling Law
机器之心· 2026-04-29 08:59
行业背景与核心痛点 - 具身智能领域近期竞争激烈,Generalist AI的GEN-1模型和Physical Intelligence的π 0.7模型相继发布,分别以高数据效率/闭环控制和“组合与泛化”能力为特点 [2][3] - 尽管技术路径不同,但当前行业的核心痛点均指向“数据”问题,即如何让机器人有效利用互联网规模的真实世界异构数据 [4][6] - 语言模型(如GPT-2)通过摆脱对少量高质量标注数据的依赖实现了规模化发展,但这一关键问题在具身智能领域尚未被真正解决 [5][6] 银河通用LDA-1B模型的核心突破 - 银河通用联合多所顶尖机构发布了跨本体“隐式世界-动作基础模型”LDA-1B,旨在解决具身智能的规模化定律问题 [6] - LDA-1B是一个在隐式空间中统一世界模型与视觉语言动作模型的基础模型,其核心突破在于能够统一且有效地利用超过3万小时的各类异构具身数据 [7] - 该模型实现了“虚实共融”、“人机混合”,并能处理质量参差、有无动作标签的各类数据,目标是让所有数据各尽其用 [7][8] 技术架构与性能表现 - LDA-1B通过统一的隐空间动力学架构,处理海量异构数据 [10] - 在RoboCasa-GR1基准测试中,LDA-1B以55.4%的成功率超越了GR00T-N1.6(47.6%)和π 0.5等模型 [10] - 该研究论文已被机器人顶级会议RSS接收,模型代码已正式开源 [11] 数据基础设施与处理策略 - 公司构建了名为“银河星数”的完整数据基础设施,并基于此搭建了包含五层数据的“数据金字塔” [15] - 为解决数据格式与动作对齐问题,团队首次系统性提出了“统一末端执行器动作空间”的跨本体解决方案,将不同来源的动作统一映射到物理交互本质 [19][21] - 针对数据质量良莠不齐的问题,LDA-1B采用“按质分配”策略:高质量带动作数据全面参与训练;次优数据用于动力学和视觉预测训练(实验显示加入30%低质量轨迹后任务成功率提升10%);无动作纯视频则用于视觉预测任务 [22] 模型设计理念与统一框架 - LDA-1B没有在视觉语言动作模型和世界模型之间二选一,而是引入了将两者统一的WAM框架,并在统一框架下同时学习策略学习、前向动力学、逆向动力学和视觉预测四类能力 [26][31] - 模型通过三个“统一”实现一体化架构:统一任务形式(将所有任务改写为预测未来状态和动作)、统一表征空间(使用对物体语义和几何结构敏感的DINO隐空间,而非传统像素空间)、统一模型架构(采用多模态Diffusion Transformer) [34][37][41] - 消融实验证明,将DINO隐空间换回传统VAE像素级重构会导致成功率从55.4%暴跌至20.0%,凸显了DINO隐空间是实现规模化定律的前提 [49] 真实世界应用与商业潜力 - 在真实世界测试中,LDA-1B展现出极强的少样本跨本体泛化能力,面对未出现在预训练数据集中的新机器人,仅需约1小时的后训练数据即可快速适配 [51][52] - 模型能够处理严格步骤依赖的长程任务,理解用户意图变更并实时调整动作序列,同时在高自由度灵巧操作任务中表现出对物理常识的深刻理解 [53] - 这种高效的跨本体学习能力和对复杂物理任务的掌握,为通用机器人在零售拣选、工业搬运和家庭服务等场景的大规模商业部署铺平了道路 [25][52] 行业意义与未来展望 - LDA-1B的发展轨迹与大型语言模型相似,标志着行业从手工规则、行为克隆进入通过统一模型从海量异构数据中持续学习世界本身的新阶段 [56] - 公司将LDA-1B核心算法与代码体系全面开源,以推动行业开放共建,该能力将汇入其全人形通用基础模型“银河星脑”中 [56] - 未来的进化方向包括尝试视觉表示与隐空间动力学的端到端联合学习、引入更丰富的感知模态以及自动优化不同质量数据在训练中的分工角色 [56]