视觉语言动作（VLA）模型 - 财报，业绩电话会，研报，新闻

视觉语言动作（VLA）模型

搜索文档

具身智能之心· 2025-12-11 10:01

文章核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为“自参考策略优化（SRPO）”的新框架，旨在解决视觉语言动作（VLA）模型在机器人操作任务中面临的奖励稀疏和依赖专家数据等瓶颈问题 [3] - SRPO框架通过构建内生的自参照评估机制，利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试，从而实现了无需外部专家数据注入、免除任务特定奖励工程的自适应策略优化 [3][9] - 该方法在多个基准测试中取得了突破性成果，包括在LIBERO榜单上以99.2%的成功率刷新SOTA，在LIBERO-Plus的泛化任务上性能提升167%，并能显著提升开源模型在真实机器人上的表现 [3][12] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据，且存在“示范偏差”，而强化学习又常因“奖励稀疏”问题导致训练效率低下 [3][6] - 基于组优化的方法（如GRPO）是VLA-RL的重要技术路径，但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用低效的挑战 [6] - 研究团队提出自我参考学习范式，将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [9] - 核心贡献包括：1）提出SRPO框架，缓解奖励稀疏性问题并消除对专家示范的依赖 [10]；2）提出基于潜在世界表征的渐进式奖励方法，克服传统像素级世界模型的泛化局限 [11]；3）实验验证了该方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [12] 技术方案 - SRPO采用“向成功者学习”的方式，核心环节包括：同策略轨迹收集、世界表征提取与聚类、渐进式奖励计算及策略更新 [14][17] - 框架将机器人决策过程形式化为部分可观察马尔可夫决策过程（POMDP），并引入世界模型驱动的任务无关奖励建模机制，为失败轨迹提供渐进式奖励信号 [18][19] - 奖励建模方法分为三步：1）将轨迹观察序列编码为世界模型潜空间表征 [20]；2）对成功轨迹的潜在表征进行聚类，获得代表性中心以捕捉关键行为模式 [21]；3）计算失败轨迹表征到最近成功中心的距离，并通过批次归一化将其转化为0到1之间的渐进式奖励 [22][23] - 策略优化使用PPO风格的裁剪目标函数，并添加KL散度正则项以保持策略稳定性，利用世界进展奖励替代传统任务特定奖励来计算优势估计 [24][26] 实验结果 - 在LIBERO基准测试中，仅使用第三视角图像和语言指令的SRPO模型取得了99.2%的平均成功率，超越了众多依赖腕部视角、本体感知、3D输入等更复杂输入的模型 [29][30] - 具体而言，仅用200步强化学习，模型成功率从初始的48.9%飙升至99.2% [29] - 在更具挑战性的LIBERO-Plus泛化测试中，SRPO带来的性能提升高达167%，即便未使用任何泛化场景数据进行训练，其性能也超越了经过15万步监督学习的基线模型 [31][32] - 在训练效率方面，对于LIBERO长时序任务，初始模型One-shot SFT成功率仅17.3%，SRPO仅用219步即提升至98.6%，相比同期GRPO性能提升15.3%，相较15万步的full-shot SFT模型性能提升12.9% [36] - 在真实机器人测试中，将SRPO的奖励建模应用于开源模型，在五个真机任务上，模型成功率相对SFT基线分别提升了66.8%和86.7% [39] - 此外，SRPO训练后的模型能够自主探索出专家轨迹中不存在的新路径与抓取姿态，展现了超越示范的创造性 [42] 潜在价值与行业意义 - 研究发现，SRPO可以作为Physical Intelligence公司提出的RECAP方法的零成本替代方案，后者需要针对每个任务收集数据并微调价值模型，而SRPO无需任何任务微调即可实现相似的价值曲线趋势 [45][46][54] - 该方法标志着机器人学习从依赖外部专家数据的“模仿”阶段，向利用自身成功经验和物理世界常识进行“创造”和“自主”学习的范式转变 [56] - SRPO为VLA强化学习开辟了一条无需昂贵数据标注、复杂奖励设计或密集专家示范的新路径，有望降低机器人智能化的开发门槛和成本 [56]

告别专家依赖，让机器人学会自我参考，仅需200步性能飙升至99.2%

机器之心· 2025-12-10 13:10

核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为自参考策略优化（SRPO）的新框架，旨在解决视觉语言动作（VLA）模型在机器人操作任务中依赖昂贵专家数据和强化学习奖励稀疏的核心瓶颈 [3] - SRPO框架通过构建内生的自参照评估机制，利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试，从而实现了无需外部专家数据注入和免除任务特定奖励工程的自适应策略优化 [3][8] - 该方法在多个基准测试中展现出卓越性能：在LIBERO榜单上以99.2%的成功率刷新SOTA，在LIBERO-Plus的泛化任务上性能暴涨167%，并能大幅提升开源模型的真机表现 [3] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据，且存在“示范偏差”，性能难以突破人类上限；而强化学习则常因“奖励稀疏”问题，让机器人无法高效从失败中学习 [3] - 基于组优化的强化学习方法（如GRPO）是VLA-RL的重要技术路径，但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用效率低的挑战 [6] - 研究团队提出自我参考学习范式，将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [8] - 主要贡献包括：1）提出SRPO框架，缓解奖励稀疏性，消除对专家示范或任务特定工程的依赖；2）提出基于潜在世界表征的渐进式奖励方法，克服传统像素级世界模型的泛化局限；3）实验验证了方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [11][12] 技术方案 - SRPO框架通过“向成功者学习”的方式运作，核心环节包括：同策略轨迹收集、世界表征提取与聚类、渐进式奖励及策略更新 [14][16] - 技术上将机器人决策过程形式化为部分可观察马尔可夫决策过程（POMDP），其核心创新在于引入世界模型驱动的、任务无关的奖励建模机制，为失败轨迹提供渐进式奖励信号 [18] - 奖励建模方法：将轨迹编码为世界模型潜空间表征，对成功轨迹表征进行聚类获得代表性中心，通过计算失败轨迹表征到最近成功中心的距离来生成渐进式奖励 [19][20] - 策略优化集成：使用世界进展奖励替代传统任务特定奖励来计算优势估计，并采用PPO风格的裁剪目标函数，添加KL散度正则项以保持策略稳定性 [21][23][24] 实验结果 - **LIBERO基准性能**：SRPO仅用200步强化学习，将基线模型OpenVLA *-One的成功率从48.9%提升至99.2%，刷新SOTA [27][28] - **泛化能力**：在更具挑战的LIBERO-Plus泛化测试中，SRPO带来的性能提升高达167%，即便未使用任何泛化场景数据进行训练，其性能仍超越监督微调（SFT）模型 [30][31] - **训练效率**：对于LIBERO长时序任务，初始One-shot SFT模型成功率仅17.3%，SRPO仅用219步即提升至98.6%，相比GRPO性能提升15.3%，相较150k步的full-shot SFT模型性能提升12.9% [34] - **真机验证**：将SRPO的奖励建模应用到真实环境，在五个真机任务上，使开源模型和-fast模型的成功率相对SFT基线分别提升66.8%和86.7% [37][41] - **激发创造性**：SRPO训练后的模型能够自主探索出多种专家轨迹中不存在的新路径与抓取姿态，表明其能激发机器人超越示范、自主探索新策略 [38] - **零成本替代方案**：SRPO被证明是Physical Intelligence公司RECAP方法的零成本替代方案，无需针对每个任务收集数据和微调价值模型，即可获得高度相似的价值曲线趋势 [42][49] 行业意义与潜力 - SRPO框架标志着机器人学习从“模仿”走向“创造”，从“依赖”走向“自主”，为VLA强化学习开辟了一条新路径 [51] - 该方法通过利用模型自身的成功经验与物理世界常识实现性能跃迁，有望告别昂贵的数据标注和复杂的奖励设计，降低机器人智能化的门槛与成本 [51] - 该技术展示了在无需密集专家示范、人工奖励工程或训练价值模型的情况下，实现机器人操作性能显著提升的潜力，对推动具身智能和机器人行业的实际应用具有重要价值 [3][51]

从300多篇工作来看， VLA是否为通向通用具身智能的必经之路？

具身智能之心· 2025-10-18 00:02

文章核心观点 - 视觉语言动作模型代表了从传统控制向通用机器人技术的范式转变，将视觉语言模型重塑为能在复杂动态环境中决策的主动智能体 [2] - 文章旨在通过综述形式对VLA研究领域提供清晰的分类法和全面回顾，探讨其作为通用具身智能发展路径的价值 [2][5] - 基于对三百多项近期研究的综合，文章描绘了该快速演进领域的轮廓，并指出塑造可扩展通用VLA方法发展的机遇与挑战 [2] VLA模型研究方法论 - VLA方法被划分为几种主要范式：基于自回归的、基于扩散的、基于强化的、混合方法以及专门化方法 [2] - 研究详细审视了各种范式的动机、核心策略与实现 [2] - 研究介绍了基础性的数据集、基准测试以及仿真平台 [2] 直播内容重点 - 直播将探讨VLA的起源和研究细分，分析热点方向和未来发展趋势 [5] - 直播精彩看点包括VLA研究领域分类、VLA和强化学习结合、Sim2Real等关键技术话题 [6] - 直播时间为10月18日19:30-20:30，由兰州大学和新加坡国立大学的嘉宾分享 [5][6] 深度内容扩展 - 知识星球提供完整版深度内容，涵盖所有技术细节、QA及未公开彩蛋 [8] - 扩展内容涉及灵巧手设计与难题、Agent概念探讨、Spec-VLA推理加速框架、跨实体世界模型等前沿话题 [8] - 深度解析保持精度提升速度的Spec-VLA框架，这是首个专为VLA推理加速设计的推测解码框架 [8]

虎嗅· 2025-06-28 14:50

技术突破 - 谷歌Gemini Robotics On-Device模型实现机器人脱机工作，无需持续互联网连接[3] - 该模型是公司首个"视觉-语言-动作"模型，帮助机器人更快适应新任务和新环境[3] - 模型解决了灵巧操作、新任务微调和适应、基于本地运行的低延迟快速推理三大问题[5] - 在双臂Franka FR3机器人和Apptronik Apollo人形机器人上展示了通用指令执行能力[14][17] 性能表现 - 模型泛化能力略低于旗舰Gemini Robotics模型，但远超之前最好的离线模型[8] - 在分布式任务和复杂多步骤指令方面优于其他设备端替代方案[10] - 通过50到100次演示即可快速适应新任务，展示了强大的适应能力[12][14] - 能够处理以前未见过的物体和场景，完成折叠衣服等灵巧任务[14] 行业比较 - 与Figure的Helix模型不同，谷歌模型独立于数据网络运行，适合延迟敏感应用[3] - 模型提供了微调选择，而Helix使用一组神经网络权重学习所有行为[12] - 技术白皮书提出机器人应成为物理世界的解读者而非人类模仿者[19] 应用展示 - 机器人未经教授完成"扣篮"动作，展现快速适应新场景能力[1] - 在RSS2025大会上完成全球首个互动式现场展示[1] - 灵巧手可以拿起笔并相互配合拔掉笔盖[7] - 完成"放置蓝色砖块"、"拉开抽屉"等基于自然语言指令的任务[8]

具身智能

视觉语言动作（VLA）模型

人工智能

Gemini Robotics On-Device

Gemini Robotics On-Device

Helix

3个月斩获两轮数亿融资，头部具身智能机器人创企迎技术、商业化双重突破！

Robot猎场备忘录· 2025-04-21 10:38

行业技术动态 - 2025年2月20日，Figure AI推出全球首个双系统架构VLA模型Helix，采用S1（快反应）和S2（慢思考）协同设计，专为人形机器人上半身高频灵巧控制优化 [2] - 2025年2月26日，Physical Intelligence发布分层交互式机器人系统Hi Robot，整合VLA模型π0实现高层VLM推理与低层VLA执行的两级架构 [4] - 2025年3月18日，英伟达开源GR00T N1模型，成为第三个采用双系统架构的通用人形推理基础模型 [4] - VLA模型成为具身智能主流技术方向，整合视觉编码器、语言编码器、多模态融合和动作生成器四大模块，突破传统独立处理感知-理解-执行的割裂问题 [7] 智平方核心突破 - 2025年4月17日发布全域全身VLA大模型Alpha Brain（GOVLA），包含空间交互基础模型+慢系统（System2逻辑推理）+快系统（System1实时动作控制），首次融合DeepSeek技术强化长程任务推理能力 [8][10] - 同步推出新一代仿生机器人AlphaBot 2，搭载Alpha Brain实现34+自由度全身控制，垂直工作范围0-240cm，单臂臂展700mm，续航6h+，适配汽车制造、半导体、生物科技等场景 [11][12] - 技术商业化领先：2024年RoboMamba模型泛化能力超越Google RT系列，成为NeurIPS 2024入选成果 [8] 公司背景与融资 - 创始团队为国内唯一全栈AI系统能力组合：CEO郭彦东（微软/小鹏/OPPO背景）+副总裁邱巍（西门子/驭势科技背景），核心成员来自微软、Momenta及清华/伯克利等顶尖机构 [14][15] - 2025年完成两轮数亿元融资（Pre-A轮达晨财智领投、Pre-A+轮敦鸿资产领投），累计融资额超5亿元 [19][21] - 商业化进展：2024年实现数千万确认收入，签约车企/高端制造/互联网巨头，2025年与吉利晶能微电子、华熙生物达成半导体/生物科技场景战略合作 [18][20] 行业趋势与竞争格局 - 具身智能赛道形成"车企/自动驾驶精英创业潮"：智平方、它石智航（1.2亿美元天使轮）、星海图等具智驾背景公司2025年密集完成亿级融资 [21] - 技术路线共识：全栈自研成为竞争关键，软件算法（尤其是大模型通识理解与多级推理能力）决定长期竞争力，硬件需与软件协同迭代 [22] - 市场格局分化：非自研AI的本体公司面临被收购风险，同时具备大模型+本体能力的初创企业成为资本首选标的 [22]