Workflow
视觉 - 语言 - 动作(VLA)模型
icon
搜索文档
刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化
机器之心· 2026-01-06 17:38
文章核心观点 - 通用机器人需要颠覆“出厂即巅峰”的传统电子产品设定,成为能在真实部署中持续学习和进化的生命体[2][3] - 智元具身研究中心提出的SOP框架是一种颠覆性的机器人学习新范式,通过构建“多机平行现实”与“云端集中进化”的闭环,实现了机器人在真实世界中的分布式持续学习[4][6][13] - SOP框架通过在线、集群、并行的集团军作战模式,解决了传统机器人后训练离线、单机、顺序的瓶颈,让智能进化不再止步于出厂时刻[9][10][13] 行业痛点与范式转变 - 当前具身智能面临尴尬真相:基于互联网数据预训练的模型是“理论巨人”,一旦进入充满未知的物理世界,常因环境变化(分布偏移)而束手无策[2] - 传统机器人后训练是一条离线、单机、顺序的漫漫长路,导致机器人探索慢、迭代慢,且容易在学习新任务时遗忘旧能力[9] - 通用机器人的出路不应是“静态标品”,而应是能在真实部署中、在每一次失败和纠正中持续变强的生命体[3] - SOP框架改变了整个通用机器人系统的生命周期,部署不再是技术迭代的终点,而是更大规模学习的起点[43][44] SOP框架技术原理 - SOP即可扩展在线后训练,是业界首次在物理世界的后训练中深度整合在线、分布式和多任务机制[6] - 框架将VLA模型的后训练从“单机单打独斗”转变为“在线、集群、并行”的集团军作战,构建“多机平行现实→云端集中学习→模型即时回流”的超级闭环[13] - 多台机器人组成集群共享同一VLA策略,在同一时间开启多个“平行现实”,大幅拓宽真实世界中状态-动作分布的覆盖面,避开单机学习的局部瓶颈[14][17] - 系统采用Actor-Learner分离架构,通过消息队列解耦数据生产与消费,具备“零配置”的弹性水平扩展能力,新机器人可即插即用[20] - 内置动态采样器,能根据任务实时训练损失自动加大对当前薄弱环节的在线数据训练权重,实现群体智能的实时同步[23] - 通过多任务并行学习,巧妙化解了传统单机在线训练面临的灾难性遗忘矛盾,确保了VLA的通用性不会因针对某一任务的性能提升而受损[24] 实验验证与性能表现 - 实验基于智元精灵G1机器人平台进行,该机器人拥有双臂14个自由度,配备“三目”RGB视觉系统,具备执行精细微操的硬件基础[26] - 在极具挑战性的任务中(如杂货补货涉及500多种商品、叠柔软衣物、协同开冰柜门),SOP结合在线多机方案全面碾压了传统单机或离线方法[29][31] - 在叠衣服和组装纸盒的长程评估中,SOP系统实现了超过36小时的连续运行且无性能衰减[34] - 在叠衣服任务中,SOP将系统吞吐量直接翻倍,从每小时21件提升至45件[34] - 扩展性实验显示清晰的Scaling Law:随着分布式集群规模扩大,模型性能呈近乎线性增长[35] - 在3小时总训练时长限制下,四机并行学习的最终成功率达到92.5%,比单机提升12个百分点[36][37] - 要达到80%性能基准线,单机需174分钟,四机仅需72分钟,训练速度达到原来的2.4倍[36][37] - 训练成本优势显著:当预训练数据从80小时增至160小时,仅带来4%的性能提升;而SOP仅用3小时在轨经验,就换来了约30%的性能提升[41] - 最终性能上限仍被预训练模型的初始规模所锚定,在线学习是既有知识的超级优化器,而非大规模预训练的完全替代品[41] 产业影响与未来展望 - SOP范式转变意味着机器人可以带着尚不完美的初始模型上线,极大地降低了产业落地门槛[44] - 部署就是通往完美之路,机器人的每一次任务执行、每一次失败后的纠正都能转化为宝贵的训练数据[44] - 随着更多机器人走入真实世界,分布式集群规模将呈指数级增长,将见证前所未有的群体智能增长速度[45] - SOP让众多机器人的经验共同驱动智能快速成长,是通用机器人走向大规模真实世界部署的关键一步[47]
英伟达用千万Clip搞定了反事实推理VLA!安全指标提升了20%......
自动驾驶之心· 2026-01-05 11:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhenghao等 编辑 | 自动驾驶之心 近几个月,反事实推理的工作多了起来。 现有的思维链在推理中无法纠错,模型会沿着错误的逻辑推理出一个看似合理的结果。 在大模型领域,也有一些工作在尝试解决这个问题。业内像理想的ReflectDrive通过离散扩散的反思机制实现安全轨迹生成。今天自动驾驶之心为大家分享的英 伟达&UCLA&斯坦福的工作Counterfactual VLA - 具有自适应推理功能的自反思VLA模型,参考了很多英伟达前作Alpamayo-R1的设计。 CF-VLA这篇工作的重 点在数据pipeline,云端数据闭环很有参考价值,教师模型用的Qwen2.5-VL-72B-Instruct。 训练的数据量总结如下: 两个关键词:自适应推理、自反思。 自适应推理是在解决不同场景的推理开销问题,复杂场景长推理,简单场景短推理或者不推理。自反思能够让模型在执行 动作前对规划动作进行推理和修正。 这两点都是当前自驾VLA模型研究的热点,也 ...
突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控
具身智能之心· 2025-12-26 08:55
研究背景与核心问题 - 现有视觉-语言-动作模型依赖2D视觉输入制定策略,但在真实3D物理环境中执行任务时,感知与行动存在割裂,导致机器人空间定位精度低、任务通用性差,难以适应复杂现实场景[3] - 核心难题在于如何让机器人像人类一样,从2D视觉信息中精准推断3D空间关系,解决“2D感知与3D动作脱节”的问题[3] 解决方案与核心洞察 - 研究团队提出一种全新的空间感知VLA预训练范式,通过人类演示视频的视觉-物理对齐,让模型在学习机器人策略前就掌握3D空间理解能力[4] - 核心洞察是不纠结于人类与机器人的“身体差异”,而是提取人类动作中不变的3D空间逻辑,这些空间先验知识可以跨载体迁移到机器人身上[7] 关键数据集:Hand3D - 构建了Hand3D数据集,分为Hand3D-visual和Hand3D-action两部分,作为机器人的“3D空间教科书”[8] - Hand3D-visual包含约30万条指令-答案对,通过点云估计、物体定位和手部姿态标注,将2D视觉观测与3D物理空间关联[9][10] - Hand3D-action包含103万条视频-指令-运动三元组,从人类视频中提取手腕的3D轨迹并离散化为“运动令牌”,提供细粒度的3D动作监督[14] - 该数据集无需依赖昂贵3D扫描设备,大幅降低了3D空间监督数据的获取成本[14] 模型架构:VIPA-VLA - 设计了VIPA-VLA双编码器架构,核心是将语义视觉特征与3D空间特征深度融合[15] - 语义视觉编码器基于预训练的视觉-语言模型,负责提取图像高层语义特征;3D视觉编码器采用Cut3R模型,从单张2D图像中估计密集点云,输出几何信息[23] - 通过基于交叉注意力的融合层结合两种特征,并利用残差连接得到最终融合特征,既能保留语义理解能力,又能注入3D空间信息[17] - 在动作建模方面,将3D动作轨迹转化为运动令牌序列,并引入扩散Transformer作为动作头,生成可执行的动作块[18] 训练流程 - 训练分为三个阶段:3D视觉预训练、3D动作预训练、后训练适配机器人任务[21] - 阶段1冻结所有预训练参数,仅训练融合层,利用Hand3D-visual的VQA数据,让模型学习从2D语义和3D空间特征中推理3D关系[22] - 阶段2冻结语义和3D编码器,扩展LLM词汇表以包含运动令牌,并用Hand3D-action数据训练LLM,预测3D运动令牌序列[23] - 阶段3添加DiT动作头,冻结视觉和3D编码器,仅训练LLM骨干和动作头,使用机器人任务数据适配具体任务[24] 实验结果 - 在LIBERO基准的单视图输入设置下,VIPA-VLA的平均成功率达到92.4%,超过GR00T N1.5和4D-VLA等基线;在双视图设置下,平均成功率高达96.8%[28] - 在LIBERO的长序列任务中,VIPA-VLA的成功率达到85.6%,显著高于专门优化空间推理的SpatialVLA[29] - 在更具挑战性的RoboCasa基准上,仅用每个任务50条人类演示数据训练,VIPA-VLA的平均成功率达到45.8%,超越GR00T N1和π0.5,在“门/抽屉”类别中成功率高达67.7%[30] - 在真实机器人任务中,Wipe-Board任务的整体成功率达到60%,子任务成功率83%,远超GR00T N1.5和InternVL3.5;Water-Plant任务的整体成功率50%,子任务成功率57%,同样大幅领先基线[31] - 在unseen环境中,VIPA-VLA的Wipe-Board任务整体成功率仍有50%,而其他模型的成功率普遍降至10%左右,证明其学到的3D空间逻辑具有极强的迁移能力[31] - 在空间理解专项测试中,VIPA-VLA的距离预测误差仅为0.12米,方向预测准确率达到1.82/3,显著优于未经过空间预训练的InternVL3.5[35] 消融实验与关键贡献 - 移除“空间感知预训练”导致模型平均成功率下降1.2%[43] - 移除“双编码器架构”导致平均成功率下降3.7%[43] - 仅移除“融合层”导致平均成功率下降2.0%[43] - 结果表明,空间感知预训练和双编码器架构是VIPA-VLA性能提升的核心,两者相辅相成共同解决了2D-3D对齐问题[39] 研究意义与未来方向 - 该研究为机器人学习提供了一种新范式:不依赖昂贵的机器人数据,而是利用海量、易获取的人类演示视频,让模型提前掌握3D空间理解能力,再适配具体的机器人任务[40] - 该范式降低了机器人学习的数据源成本,并大幅提升了模型的泛化性[40] - 技术可直接用于家庭服务机器人、工业机械臂、医疗机器人等领域,让机器人在复杂、动态的真实环境中更精准地执行任务[40] - 未来计划将这种预训练范式与机器人数据预训练相结合,并扩展Hand3D数据集的场景覆盖范围[40]
从 2D 感知到 3D 预测:GeoPredict 重构VLA模型的几何推理能力
具身智能之心· 2025-12-25 09:41
文章核心观点 - 由香港中文大学(深圳)、湖南大学、理想汽车等联合团队提出的GeoPredict框架,通过“预测性运动学 + 3D高斯几何”的双核心架构,为视觉-语言-动作模型注入了未来感知的几何先验,突破了传统方法在3D空间推理和长时程物理一致性方面的瓶颈,显著提升了机器人操纵的精度与泛化能力 [2][3][17] 传统VLA模型的局限 - **空间建模缺失**:现有模型局限于2D图像空间进行反应式决策,缺乏对物体姿态、间隙、末端执行器运动的显式3D几何建模,在需要精准定位的任务中可靠性不足 [3] - **长时程预测不足**:反应式策略仅依赖瞬时观测,无法捕捉运动惯性与场景动态演化,难以应对长时程操纵任务中的物理一致性要求 [4] - **推理效率矛盾**:引入复杂3D预测模块的方法往往导致推理时计算开销激增,无法满足实时机器人控制的部署需求 [5] GeoPredict的技术架构 - **第一层:轨迹级运动学预测模块**:通过编码运动历史、预测多步轨迹,为策略提供显式的运动学先验,并引导后续几何建模的资源分配 [6][8] - **第二层:预测性3D高斯几何模块**:基于3D高斯splatting的高效表征能力,构建未来场景几何预测模块,并利用预测的未来关键点轨迹生成二进制细化掩码,对交互区域分配更多高斯基元,实现高分辨率建模 [6][8] - **第三层:块级因果注意力**:将不同类型的token按“感知-预测-控制”层级组织,块内双向交互,块间严格因果注意力,构建合理高效的信息流动链路 [6][8] - **训练-推理解耦设计**:运动学预测与3D高斯几何模块仅在训练时提供监督信号,推理时仅需轻量级查询token,保持与基础VLA模型一致的高效性 [8] 性能验证结果 - **RoboCasa Human-50基准测试**:在24个复杂日常任务的少样本设置中,平均成功率达52.4%,较基础模型提升10.1%,大幅超越BC-Transformer和GWM等基线方法 [10] - **LIBERO基准测试**:在空间推理、物体交互、目标达成、长时任务四大套件中平均成功率达96.5%,超越UniVLA+和4D-VLA等当前SOTA方法,尤其在长时任务中提升6.4% [10] - **真实场景验证**:在空间、几何、鲁棒性三大任务中,成功率分别达到85.0%、95.0%和90.0%,显著高于基线模型的60.0%、50.0%和35.0% [14] - **组件消融分析**:添加轨迹编码器使平均成功率提升2.5%,结合未来轨迹查询后提升至47.2%;基础3D高斯建模提升至49.4%,结合轨迹引导细化后达到52.4% [11][12] - **效率对比**:轨迹引导细化训练效率较全局高分辨率建模提升20%,且性能更优 [12] 局限与未来方向 - **几何表征维度**:当前聚焦深度几何建模,未融合物体材质、物理属性等信息 [18] - **预测步长平衡**:更长的预测步长可能提升长时任务性能,但需解决累积误差问题 [18] - **实时性优化**:轨迹预测与注意力计算仍有精简空间,可结合模型压缩技术提升部署效率 [18] - **多机器人适配**:当前针对单臂机器人设计,未来可扩展至多臂协作场景 [18]
近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
具身智能之心· 2025-12-17 08:05
文章核心观点 - 该综述对视觉-语言-动作模型进行了全面剖析,指出VLA模型正推动机器人技术变革,其发展遵循“基础模块→历史里程碑→核心挑战”的逻辑,五大核心挑战是当前研究的关键突破口 [1] 基础模块与架构趋势 - VLA系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势 [3] - 感知模块正从传统视觉骨干网络转向语言对齐Transformer,并新增几何表征以提升操作精度 [10] - 大脑模块向预训练视觉语言模型收敛,利用互联网级知识实现零样本泛化 [10] - 动作模块从离散令牌化转向连续生成建模,追求平滑的多模态分布建模 [10] - 机器人感知编码器以CNN和ViT为主,语言编码器从Transformer演进至LLM和VLM [10] - 机器人大脑主流架构包括Transformer、扩散Transformer、混合架构和VLM [10] - 机器人动作表征分离散、连续、混合三类,解码方式包括自回归、非自回归和混合解码 [10] 发展里程碑 - **2017-2019年**:奠定基础,VLN、EmbodiedQA等基准推动语言与视觉环境对齐 [13] - **2020-2021年**:转向长时推理,ALFRED、CLIPort实现语言引导的机器人操作零样本泛化 [13] - **2022年**:大模型时代开启,RT-1、RT-2构建统一VLA框架,实现端到端视觉-语言-动作学习 [13] - **2023年**:技术突破集中,PaLM-E统一多模态输入空间,Diffusion Policy革新动作建模范式,Open X-Embodiment提供大规模跨机器人数据 [13] - **2024年**:开源与泛化推进,OpenVLA降低研究门槛,Octo实现跨平台多任务控制,3D-VLA转向全3D世界建模 [13] - **2025年**:多元进化,Humanoid-VLA拓展至人形机器人,Cosmos-Reason1标准化物理推理 [13] 核心挑战与解决方案 - **多模态对齐与物理世界建模**:核心问题是弥合语义、感知与物理交互的鸿沟,实现从2D图像到时空表征的升级,解决方案包括通过对比学习实现模态对齐,引入点云、体素等提升空间推理能力 [18] - **复杂指令理解与高效执行**:核心问题是解析复杂/模糊指令,分解长时任务,实现错误自修复与低延迟执行,解决方案包括采用多模态序列建模处理混合指令,通过分层规划拆解任务 [24] - **从泛化到持续适应**:核心问题是实现开放世界泛化,避免持续学习中的遗忘,缩小仿真到现实的差距,解决方案包括利用多任务预训练、互联网视频迁移知识,通过参数隔离缓解遗忘 [25] - **安全、可解释性与可靠交互**:核心问题是保障物理安全,提升决策透明度,建立人机信任,解决方案包括注入安全约束、通过Constitutional AI对齐人类价值观,输出中间推理过程增强可解释性 [26] - **数据构建与基准测试标准**:核心问题是获取大规模异质数据,建立统一的评估体系,解决方案包括通过表征统一、数据增强整合多源数据,开发覆盖复杂任务与泛化能力的基准测试 [27] 数据集与评估基准 - **模拟数据集**:例如ALFRED包含8,055个专家演示和约120个室内场景,LIBERO包含约6,500个演示和130项技能,VLA-3D包含970万对参考数据和11.5千个重建的3D房间 [6] - **真实世界机器人操作数据集**:例如BridgeData V2包含60,096条轨迹,DROID包含约76千条轨迹,Open X-Embodiment包含超过100万条轨迹和527项技能,AgiBot World包含超过100万条轨迹和217项任务 [6] - **以人为中心及第一人称数据集**:例如Ego4D包含约3,700小时视频,HOI4D包含约4,000个序列,HD-EPIC包含约4,881个物体行程 [6] - **评估基准**:包括用于语言条件操作的RLBench、ManiSkill系列,用于长时任务完成的ALFRED、CALVIN、TEACh,用于高级认知能力的LIBERO、RoboCAS,以及用于评估基础模型的EmbodiedBench、EWM Bench、RoboTwin [30] 应用场景与未来方向 - 主要应用场景包括家庭机器人和工业与野外机器人,前者需处理非结构化环境和长时任务,后者需实现高精度操作与安全合规 [29] - 未来趋势包括发展原生多模态架构、形态无关表征,构建自监督探索与在线强化学习的闭环进化体系,推动评估从二元成功率转向综合诊断测试 [30]
新国大团队首创!当VLA具备4D感知能力后会怎么样?
具身智能之心· 2025-12-15 11:17
文章核心观点 - 文章介绍了一款名为VLA-4D的新型通用机器人模型,该模型通过引入4D感知能力,旨在解决现有视觉-语言-动作模型在需要细粒度表征的时空一致机器人操作任务中面临的挑战,从而实现更精准、流畅且时序一致的动作规划与执行 [2] 模型技术架构 - VLA-4D模型的核心设计包含两大关键模块:4D感知视觉表征和时空动作表征 [2] - 4D感知视觉表征模块首先提取视觉特征,然后将一维时间信息嵌入三维位置信息以生成4D嵌入特征,最后通过交叉注意力机制融合为统一的视觉表征 [2] - 时空动作表征模块为传统的空间动作表征拓展了时序信息维度,支持时空层面的动作规划,并将多模态表征与大语言模型进行对齐以完成动作预测 [2] - 在这一统一框架下,特殊设计的视觉与动作表征协同作用,使机器人操作兼具空间流畅性与时序一致性 [2] 研究背景与数据 - 现有视觉-语言-动作模型在通用机器人任务中展现出潜力,但在需要细粒度表征的时空一致机器人操作任务中仍面临挑战 [2] - 现有方法通常将三维位置信息嵌入视觉表征以提升动作空间精度,但难以实现对动作执行过程的时序一致性控制 [2] - 该研究工作为现有VLA数据集补充了时序动作标注,用于模型的微调训练 [2] 相关技术生态 - 物理世界是动态变化的四维场景,感知和理解其时空知识极具挑战 [6] - 技术生态中,4D-VGGT模型用于实现动态几何感知,LLaVA-4D模型用于增强动态场景推理,而VLA-4D模型则赋能动态时空规划 [6][7] - 相关深度内容在知识星球「具身智能之心」中涵盖,包括灵巧手技术、Agent定义、VLA与强化学习方案的真机部署探讨,以及跨实体世界模型等话题 [9]
理想自动驾驶负责人回应宇树王兴兴对VLA质疑:空谈架构不如看疗效
凤凰网· 2025-12-10 18:27
公司对VLA模型的技术立场与信心 - 理想自动驾驶负责人郎咸朋认为,经过两个多月的实践,VLA(视觉-语言-动作)模型是自动驾驶最好的模型方案 [1] - 公司坚持VLA模型的原因在于其拥有由数百万辆车构建的数据闭环,这使其能在当前算力下将驾驶水平做到接近人类 [1] - 公司CEO李想认为,未来五到十年,具身机器人核心将有两种形态:汽车类具身机器人和人形类具身机器人 [1] 行业技术争议与公司回应 - 宇树科技创始人王兴兴曾对VLA模型表示怀疑,认为其是“相对比较傻瓜式的架构” [1] - 公司方面回应称,在自动驾驶领域,脱离海量真实数据谈模型架构是空中楼阁,强调“空谈架构不如看疗效” [1] - 公司认为具身智能最终比拼的是整体的系统能力 [1] 公司技术应用的未来规划 - 理想的VLA模型不仅服务于公司当前的各类汽车产品形态,也将服务于未来的汽车类具身机器人 [1]
上交&ai lab团队联合提出MM-ACT:一个统一的VLA模型实现感知-规划-执行的高效协同
具身智能之心· 2025-12-02 17:30
文章核心观点 - MM-ACT模型通过统一多模态表征、差异化并行解码和上下文共享学习三大创新设计,有效解决了机器人操作领域“通用性”与“高效性”的平衡难题[1][3][27] - 该模型在模拟与真实场景中均展现出超越现有方案的性能,平均成功率高达96.3%,在长序列任务中提升5.0%[13][14] - 模型实现了文本规划、图像预测和动作生成的高效协同,推理延迟低至0.22秒,支持40Hz高频率动作输出[10][19] 技术架构创新 - 采用统一多模态表征空间,将文本、图像、机器人状态与动作编码为离散token,消除模态壁垒[6] - 设计差异化并行解码策略:文本/图像采用重掩码并行解码保证质量,动作采用单步并行解码满足实时需求[8][10] - 创新上下文共享学习范式,通过双阶段训练实现跨模态正向迁移[9][11] 性能表现 - 在LIBERO基准测试中平均成功率96.3%,超越UniVLA(95.5%)和DreamVLA(92.6%)等基线模型[13] - RoboTwin2.0跨域任务平均成功率52.38%,较单动作训练提升9.25%,显著优于To(48.13%)和OpenVLA-OFT(23.13%)[14] - 真实机器人实验在3个实物操作任务中平均成功率72.0%,优于对比模型[15] 跨模态协同价值 - 文本-动作联合训练使动作生成成功率提升3.37%[16][17] - 图像-动作联合训练带来5.62%的成功率提升[16][17] - 三模态联合训练实现1+1+1>3的效果,验证跨模态信息互补性[17] 效率优化 - 单步并行解码配置实现0.22秒推理延迟,平衡效率与精度[19][20] - 动作块大小8的配置支持40Hz高频率动作输出[10][19] - 重掩码解码虽提升精度但耗时增至1.06秒,最终选择单步解码满足实时需求[19] 应用场景拓展 - 在双臂机器人复杂操作场景表现优异,如Place Burger Fries任务成功率73%[22][25] - 自动化文本标注生成70k训练样本,无需人工干预[25] - 为工业分拣、家庭服务等规模化落地场景提供重要技术参考[27]
估值超390亿元,头部具身智能大模型创企发布最强VLA模型!
Robot猎场备忘录· 2025-11-27 13:06
公司核心产品与技术突破 - 公司发布最新视觉-语言-动作大模型π*0 6 在π0 5基础上实现机器人从错误中学习和实践中进化的核心能力 将长序列任务成功率提升至90%以上[2] - 模型采用独创的RECAP训练框架 首创离线强化学习加在线优势条件强化学习三阶段流程 解决了传统VLA模型依赖模仿学习导致的错误积累问题[8] - 通过优势条件策略将优势值作为条件输入VLA 并利用分布式价值函数和稀疏奖励解决信用分配问题 实现超越演示者的性能[10][11] - 在折叠多样化衣物 组装纸箱和制作浓缩咖啡三大高难度现实任务中测试 连续运行数小时至一整天成功率稳定在90%以上 吞吐量提升2倍 失败率降低50%[12] - 模型采用双系统架构 将长链条端到端模型拆分为VLM和动作执行两个模型 以应对复杂多样 长时间跨度的场景和任务[14] 公司发展历程与融资情况 - 公司由UC Berkley 斯坦福大学教授团队和谷歌科学家等科研人员于2024年3月成立 致力于创建机器人通用大脑[15] - 成立一个月时获得7000万美元融资 投后估值4亿美元 2024年11月完成4亿美元融资 投后估值24亿美元 2025年11月完成6亿美元融资 投后估值约56亿美元[15][16] - 2024年10月发布首个机器人通用基础模型π0并于2025年2月开源 2025年4月发布新一代大模型π0 5并于9月开源[16] - 2025年4月与国内头部人形机器人公司智元机器人达成深度技术合作 由原伯克利人工智能研究实验室博士后研究员罗剑岚负责推进[16] 创始团队背景 - 联合创始人团队包括UC Berkley助理教授Sergey Levine 斯坦福大学助理教授Chelsea Finn 前谷歌大脑高级研究科学家Karol Hausman等行业领军人物[18] - 创始人Sergey Levine被认为是强化学习领域领军人物 曾带领团队与谷歌联合开发RT-X机器人项目[18] - 联合创始人Chelsea Finn是ALOHA家务机器人项目导师 谷歌学术论文引用数超4 7万[18] 行业趋势与竞争格局 - 2025年以来采用双系统架构的VLA模型已成为具身智能领域主流 国外人形机器人独角兽Figure AI于2025年2月推出自研通用型VLA模型Helix[14] - 软件算法进步是推动人形机器人功能提升和应用场景拓展的关键 强大的AI能力是企业核心壁垒[19] - 谷歌 OpenAI Meta等国外科技大厂从投资转向躬身入局本体制造 国内华为 蚂蚁集团 京东等随后跟进 资本越发关注具备强大AI能力的初创公司[19]
华科&清华最新DeepThinkVLA:如何让模型 “会思考、能落地”?
具身智能之心· 2025-11-24 18:02
核心观点 - DeepThinkVLA模型通过“混合注意力解码器+两阶段训练pipeline”的创新设计,解决了视觉-语言-动作模型中推理与动作生成的模态冲突问题[2] - 该模型在LIBERO基准测试中实现了97.0%的平均任务成功率,树立了VLA模型的性能新标杆[2] - 架构实现了推理与动作的深度协同,既让模型具备连贯推理能力,又保障动作生成的高效与精准[2][3] 技术架构创新 - 采用混合注意力解码器,在推理生成阶段使用自回归因果注意力,在动作生成阶段切换为双向注意力以支持高维动作向量的并行解码[4] - 通过两阶段训练pipeline(监督微调+强化学习)强化推理与动作的因果关联[6] - 将传统的“观察-指令→动作”直接映射分解为“观察-指令→推理”与“观察-指令-推理→动作”两步概率分解[10] 性能表现 - 在LIBERO基准的四大任务套件中平均成功率达97.0%,其中Object任务成功率99.0%、Goal任务96.4%、Long长程任务96.2%[15] - 相较于顶级自回归模型UniVLA(平均95.2%)和扩散模型π₀(平均94.2%)形成显著优势[15] - 推理延迟大幅降低,相对推理时间仅为0.175倍,为大规模强化学习的高速rollout提供可能[16] 训练与数据策略 - 构建包含273,465个标注帧的具身CoT数据集,通过两阶段标注pipeline平衡标注成本与数据质量[8][10] - 采用基于结果的稀疏奖励+格式正则化奖励设计,仅关注任务最终成功与否[11] - 引入KL散度惩罚正则化机制,避免模型遗忘SFT阶段学到的基础推理能力[11] 技术优势 - 推理学习更高效,复用VLM已有能力,无需海量数据[12] - 动作学习更简单,推理作为显式规划将“一对多”的模糊映射转化为明确映射[12] - 具备错误恢复机制,模型在执行错误时能通过思维链显式引导实现自我修正[10]