视觉–语言–动作（VLA）模型 - 财报，业绩电话会，研报，新闻

视觉–语言–动作（VLA）模型

搜索文档

36氪· 2026-01-16 22:02

文章核心观点 - 机器人行业的研究进展迅速，已跨越“可行性”门槛，但规模化部署面临严峻挑战，真正的瓶颈在于从研究成果到生产系统的转化过程[2][3] - 制约具身智能落地的关键并非模型能力不足，而是一系列工程、部署和运营层面的系统性挑战，这些挑战构成了研究与生产之间的“部署差距”[2][10] - 填补“部署差距”需要构建机器人领域的基础设施和生态系统，而非仅依赖模型升级，这场竞赛与中美科技竞争路径高度相关[28][32] 机器人技术研究进展 - 视觉-语言-动作模型带来范式变革，将语义理解、视觉感知与动作生成统一建模，代表性工作包括谷歌RT-2、Physical Intelligence的π系列、GEN-0、GR00T N1等[5] - 仿真到现实的迁移持续改善，领域随机化和世界模型正在缓解仿真不真实的问题[6] - 跨平台泛化成为共识，例如Open X-Embodiment项目整合了20多种机器人平台的百万级轨迹数据，提升了模型在陌生硬件上的成功率[7] - 灵巧操作能力扩展至可变形物体、工具使用和高接触复杂任务[8] - 整体上，机器人智能研究已跨过“可行性”门槛[9] 研究与部署的现状对比 - 研究领域由大模型实验室和前沿初创公司主导，而部署领域的主角仍是工业机器人OEM和区域系统集成商，两套体系尚未真正融合[12][13] - 工厂中大多数工业机器人仍执行高度确定性的预编程流程，如重复焊接和固定抓取[10] - 仓库拣选是少数接近研究能力的场景，但部署系统通常只在结构化环境（受控光照、固定布局）中运行，实验室的“杂乱环境任意物品拣选”能力距规模化仍有差距[11] - 人形机器人更多停留在试点和展示阶段，是开发平台而非可直接采购部署的生产工具[11] 制约规模化部署的五大因素 - **分布变化与成功率幻觉**：研究系统在与训练数据分布一致的环境中评估（如95%成功率），但真实世界的光照、视角、物体材质等变化可能导致成功率骤降至60%[14][15] - **可靠性阈值差异**：研究中95%成功率是优秀结果，但生产中95%意味着每天几十次故障，制造系统通常要求99.9%以上的稳定性[16][17] - **算力与延迟悖论**：VLA模型参数规模增大导致推理延迟增加，而机器人控制需要20–100Hz的高频实时响应，即便7B级模型在边缘硬件上也难以满足，云端推理则引入网络延迟[19] - **被低估的系统集成**：部署需嵌入WMS、MES、ERP等既有系统，并面临安全认证挑战，现行标准是为程序化机器人设计，难以证明神经网络模型的安全性[22][23] - **维护体系缺口**：研究系统由研究人员维护，生产系统由技师维护，学习型机器人的异常行为（可能涉及感知、策略、控制、硬件）难以用现有维护体系进行“调试”[24] - 以上问题相互关联形成负反馈链：分布变化导致失败，失败增加人工干预与成本，成本限制规模与数据收集，进而加剧分布问题[26] 填补部署差距的潜在方向 - 需要构建机器人领域的DevOps和基础设施，而非仅依赖如GPT-5的大模型升级[28] - 在数据收集阶段建立远程操作基础设施，使机器人在劳动中创造价值的同时收集数据，形成飞轮效应[28] - 提升AI可靠性，使其学会“优雅地失败”（如无法完成任务时主动响应），并引入传统代码作为安全兜底[28] - 开发为边缘部署设计的高效模型（如Hugging Face的SmolVLA）或专用芯片，而非将通用GPU塞入机器人[28] - 机器人更可能以生态系统方式演进：通用能力打底，针对具体任务微调，逐步扩展应用边界[31] 行业竞争格局与中美路径 - 行业普遍认为美国在“大脑”领先，致力于打造超级智能和顶尖VLA模型；中国在“身体”上占统治地位，拥有最庞大的工业机器人部署量和最复杂的制造业场景[32] - 美国的策略是推高能力上限，中国的策略是拓宽应用广度，解决“部署差距”并将技术优势转化为经济价值的一方将成为下一个时代的赢家[32] - 模型能力领先不自动转化为经济价值，部署能力往往决定最终的产业规模，机器人部署差距与中美AI路径分化高度相关[32]

首个长程「VLA-World Model」一体化模型！ManualVLA解锁长程精细操作任务

具身智能之心· 2025-12-23 11:34

文章核心观点 - 北京大学、香港中文大学与至简动力团队提出了一种名为ManualVLA的新型“生成-理解-动作”一体化模型，旨在解决现有视觉-语言-动作模型在需要明确目标终态的长时序任务中难以兼顾高层规划与精细操控的挑战 [2][5] - 该模型摒弃了传统分层级联方案，构建了全新的Mixture-of-Transformers通用基础模型架构，通过“规划专家”生成多模态操作说明书，并结合显式与隐式“思维链”推理来指导“动作专家”执行，实现了理解与生成的高度统一 [5] - 实验结果表明，ManualVLA在现实场景任务中的平均成功率相较于分层结构的最新基线方法提升约32%，验证了其统一范式的有效性 [5] 研究背景与挑战 - 当前VLA模型在需要精确定义最终目标状态的长周期任务中面临核心难题：必须执行精确操作以严格对齐预定义的最终场景，并有效集成长周期规划与细粒度控制，同时保持对多样化现实世界环境的泛化能力 [7] - 现有的分层方法依赖人工制作说明书或人类演示视频，在泛化到未见过的最终目标状态方面存在局限性，难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA方法陈述 - ManualVLA的核心思想是让模型学会自己生成说明书，再按说明书执行动作 [12] - 在推理阶段，系统接收自然语言指令、当前场景图像和最终目标图像，由“规划专家”生成包含文字描述、像素级坐标和子目标图像的多模态手册，将长时序任务拆解为一系列可控的短阶段 [12] - 模型架构基于Janus-Pro 1B拓展到MoT架构，集成了“规划专家”和“动作专家” [15] - ManualCoT思维链机制通过显式与隐式两条路径影响动作生成：显式路径将目标位置以visual prompt形式叠加在图像上；隐式路径将手册生成时的内部特征通过注意力掩码传递给动作专家 [16][19][20] - 规划专家采用基于VQ的视觉分词器对子目标图像进行离散化建模；动作专家采用基于扩散去噪的方法进行动作建模，并使用SigLIP-large从384×384输入图像中提取高维语义特征 [19] 真机、模拟器、泛化性实验 - **真机实验**：在Franka双臂平台上测试了2D乐高组装、3D乐高组装和物体重新排列三个长周期任务 [23] - 规划专家在300个未见过的测试样本上生成了高质量的中间图像，例如2D乐高组装的PSNR达29.01，物体重新排列的FID分数为24.46，2D乐高组装的MAE分数为3.23 [23][27] - ManualVLA在所有三个任务中均取得了最高成功率，相比最强的分层基线，最终任务完成率提高了15%到30%，平均成功率高出32% [28] - **仿真实验**：在RLBench的10个仿真任务上取得了70%的平均成功率，超越了SOTA方法π0的63% [31][32] - **消融与泛化实验**：证明说明书中所有模态信息和隐式CoT推理对于解决长周期任务不可或缺，且模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力 [33][36]

北大发布 ManualVLA：首个长程「生成–理解–动作」一体化模型，实现从最终状态自主生成说明书并完成操纵

机器之心· 2025-12-18 17:08

研究背景与挑战 - 当前视觉-语言-动作模型在机器人场景理解与操作上展现出通用性，但在需要明确目标终态的长时序任务中，难以兼顾高层规划与精细操控 [2] - 长周期任务面临两大核心难题：一是需要执行精确操作以严格对齐预定义最终状态；二是需要将长周期规划与细粒度控制有效集成，同时保持对多样化现实环境的泛化能力 [9] - 现有依赖人工制作说明书或人类演示视频的分层方法，在泛化到未见过的最终目标状态方面存在局限，难以在系统复杂度、部署成本和泛化性之间取得平衡 [9] ManualVLA 方法概述 - 该模型由北京大学、香港中文大学与至简动力团队提出，旨在解决长时序任务中规划与执行的割裂问题 [3] - 核心创新是构建了全新的「生成–理解–动作」一体化模型，让模型学会自己生成多模态操作说明书，再按说明书去执行动作 [5][12] - 模型摒弃了将高层次规划与动作生成拆分的传统分层方案，构建了全新的通用基础模型 Mixture-of-Transformers 架构，在同一模型中统一多专家模块，实现多模态生成与动作执行的紧密协同 [5] 核心技术：架构与思维链机制 - 模型基于 MoT 架构，集成了「规划专家」和「动作专家」两个模块，实现了多模态手册生成和动作执行之间的连贯协作 [14] - 引入了「说明书思维链」推理机制，该机制通过显式与隐式两条路径影响动作生成 [15] - 显式路径将规划专家预测的目标位置以视觉提示形式叠加在当前图像上，构成带有明显操作区域提示的「提示图」，直接指导动作专家 [19] - 隐式路径将手册生成时产生的内部特征通过专门设计的注意力掩码传递给动作专家，在潜在空间中提供持续的隐式引导 [19] - 消融实验表明，去掉显式或隐式路径中的任一路径都会显著降低长任务中的成功率，说明两者结合才能兼顾精度与稳健性 [19] 三阶段训练策略 - **第一阶段**：基于互联网机器人数据集，筛选与装配和重排相关的轨迹，构建超过 40 万条示例的预训练集，只更新动作专家，学习抓取、搬运和放置技能 [20] - **第二阶段**：利用基于三维高斯表示的数字孪生工具，对乐高板、积木和常见物体进行三维重建，在虚拟空间中合成上万帧带有精确标注的手册数据，用于训练规划专家 [20][23] - **第三阶段**：在真实双臂平台上通过遥操作采集专家示范轨迹，对规划与动作两个专家进行联合微调，使模型在真实环境中的规划–执行闭环更贴合物理世界 [21] 实验性能：真机与仿真 - **真机实验**：在 Franka 双臂平台上测试了 2D 乐高组装、3D 乐高组装和物体重新排列三个长周期任务 [24] - **手册生成质量**：规划专家在 300 个未见过的测试样本上生成了高质量的中间图像，例如 2D 乐高组装的 PSNR 达 29.01，物体重新排列的 FID 分数为 24.46，2D 乐高组装的 MAE 分数为 3.23，证明了生成图像的真实性、保真度和位置预测的精确性 [24][27] - **动作生成成功率**：在所有三个真实世界长周期任务中均取得了最高成功率，相比最强的分层基线，最终任务完成率提高了 15% 到 30%，平均成功率高出 32% [7][28] - **仿真实验**：在 RLBench 的 10 个仿真任务上取得了 70% 的平均成功率，超越了 SOTA 方法 π0 的 63% [31][32] 消融与泛化能力 - 消融实验证明，说明书中所有模态信息和隐式思维链推理对于解决长周期、目标明确的操作任务是不可或缺的，两者结合才能达到最佳性能 [33] - 模型在未见过的背景、物体形状和光照变化下表现出鲁棒的泛化能力，例如在背景变化下任务成功率为 0.65，仅下降 23%，优于基线模型的下降 25% [37]