Workflow
视觉 - 语言 - 动作(VLA)
icon
搜索文档
分析了102个VLA模型、26个数据集和12个仿真平台
自动驾驶之心· 2025-07-22 10:18
视觉-语言-动作(VLA)模型综述 - 核心观点:VLA模型通过整合视觉感知、语言理解和机器人控制,正在推动机器人技术的变革性发展[3][7] - 研究范围:全面梳理了102个VLA模型、26个基础数据集和12个仿真平台[3] - 发展趋势:从端到端框架向模块化架构演进,强调跨模态对齐和泛化能力[9][12] VLA模型架构 - 主流架构:基于Transformer的视觉和语言骨干网络,通过跨模态注意力机制融合[9] - 视觉编码器:CLIP、SigLIP和DINOv2等ViT变体成为主流选择[13] - 语言编码器:LLaMA、Vicuna系列和T5风格模型广泛应用[15] - 动作解码器:扩散策略因能建模复杂动作分布而受青睐[15][16] 数据集发展 - 数据集演进:从早期简单状态-动作映射发展到多模态、长时间跨度数据集[21] - 代表性数据集:Open X-Embodiment统一22个机器人实体和500多个任务数据[5] - 评估标准:建立任务复杂性和模态丰富度二维评估框架[22][24] 仿真平台 - 主要平台:AI2-THOR、Habitat和NVIDIA Isaac Sim等提供多模态支持[30][31] - 功能差异:从逼真室内导航到接触丰富的物理模拟各有侧重[31] - 发展趋势:强调GPU并行计算和大规模场景生成能力[33] 应用领域 - 主要方向:操作与任务泛化、自主移动、人机交互等六大领域[34] - 代表性模型:RT-2、Pi-0和CLIPort等在各自领域表现突出[37] - 技术路线:分为大型通用架构和模块化专用系统两大发展轨迹[38] 挑战与机遇 - 架构挑战:分词对齐、模态融合和跨实体泛化等关键技术瓶颈[39][40] - 数据限制:任务多样性不足、模态不平衡和注释成本高等问题[42] - 仿真差距:物理准确性、视觉真实性和语言接地API等亟待改进[44][45]
机器人「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证
具身智能之心· 2025-07-21 16:42
>> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。 但若要机械臂 自 主完成繁 重且复杂的任务 ,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。 近年来,随着 视觉 - 语言 - 动作(VLA) 模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智 能、更通用的方向迈进。 但是目前 VLA 的研究尚未达到里程碑式的成果,具身智能的「GPT」似乎离我们还很遥远。 作者丨 机器之心 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 前英伟达学者 Jiafei Duan 表示: 直到我看到了这两段视频: 机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。 深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步, ...
机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验
机器之心· 2025-07-21 12:04
机器之心报道 编辑:冷猫 提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。 但若要机械臂 自 主完成繁 重且复杂的任务 ,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。 近年来,随着 视觉 - 语言 - 动作(VLA) 模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智 能、更通用的方向迈进。 但是目前 VLA 的研究尚未达到里程碑式的成果,具身智能的「GPT」似乎离我们还很遥远。 直到我看到了这两段视频: 机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。 深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步,在扩散模型策略的基础上,完全构建了一个针对机器人的 大型行为模型(Large Behavior Model,LBM) ,经过训练和微调,便能够实现机械臂自主执行复杂操作中如此令人惊艳的结果。 来自谷歌的研究者 Ted Xiao 说: 「如果你从事机器人技术和人工智 ...
分析了102个VLA模型、26个数据集和12个仿真平台
具身智能之心· 2025-07-20 09:06
视觉-语言-动作(VLA)模型综述 核心观点 - VLA模型通过整合视觉感知、自然语言理解和机器人控制,实现跨模态智能决策,是机器人技术的变革性突破[3] - 当前已梳理102个VLA模型、26个基础数据集和12个仿真平台,形成完整技术生态[3] - 未来发展方向包括可扩展预训练协议、模块化架构设计和稳健多模态对齐策略[3] 技术架构 - **主流架构范式**:采用基于Transformer的视觉/语言骨干网络,通过跨模态注意力融合多模态输入,典型代表包括RT-2、OpenVLA等[9] - **三流编码设计**: - 视觉编码器处理RGB图像(ViT/DINOv2等)[13] - 语言编码器嵌入指令(LLaMA/PaLM等)[15] - 状态编码器处理机器人本体感受数据[11] - **动作生成机制**:扩散策略(Octo)和自回归Transformer(Gato)成为主流解码方式[15] 数据集发展 - **演进趋势**: - 早期:EmbodiedQA等简单状态-动作映射数据集[22] - 中期:ALFRED等引入多模态感官流[22] - 当前:Open X-Embodiment整合22个机器人实体和500+任务数据[5] - **评估框架**:通过任务复杂性和模态丰富度二维指标量化数据集质量,最高分Kaiwu兼具极高任务复杂性和七种模态[23][29] 仿真平台 - **关键功能**: - AI2-THOR:逼真室内场景生成[34] - NVIDIA Isaac Sim:支持激光雷达/IMU等多传感器[35] - MuJoCo:高精度接触力建模[35] - **技术瓶颈**:物理准确性不足、语言接地API缺失制约仿真到现实的迁移效果[47] 应用领域 - **六大方向**: - 操作与任务泛化(RT-2/Octo)[37] - 自主移动(NaVILA)[38] - 人机交互(RoboNurse-VLA)[38] - 专用机器人平台(QUAR-VLA)[38] - 虚拟环境(JARVIS-VLA)[38] - 边缘计算(Edge VLA)[38] 技术挑战 - **架构层面**:模态融合不充分、跨实体泛化能力弱[43][44] - **数据层面**:任务多样性不足、模态不平衡[45] - **仿真层面**:视觉-物理保真度难以兼顾[47] 未来方向 - 开发可学习的分词器统一多模态输入[49] - 构建长视距跨域基准测试体系[49] - 推进可微分物理引擎和标准化语言接口[50]
加利福尼亚大学!EgoVLA:从第一视角人类视频中学习VLA模型
具身智能之心· 2025-07-20 09:06
研究背景与核心思路 - 传统机器人模仿学习受限于硬件和操作成本,难以突破数据规模和任务多样性 [3] - 人类操作行为构成海量潜在训练数据,全球数十亿人在机器人期望工作的场景中持续活动 [3] - 核心突破在于人类与机器人的动作空间差异可通过几何变换近似,无需直接基于机器人数据训练视觉-语言-动作模型 [3] - 先在人类第一视角视频上训练模型,再通过少量机器人演示微调,实现技能迁移 [3] 模型架构与动作空间设计 - 以NVILA-2B为基础框架,输入包括当前及历史第一视角视觉观测、语言指令、动作查询token和人类本体感觉 [5] - 动作头预测未来1秒内的动作序列,采样频率30 Hz [6] - 动作空间采用人类手腕位姿和MANO手模型的前15个PCA主成分,兼顾紧凑性与表达力 [8] - 通过3D变换对齐坐标系,结合逆运动学转换为机器人末端执行器位置 [11] 数据组成与训练 - 整合四个来源的第一视角视频,形成约50万图像-动作对的大规模人类操作数据集 [12] - 数据集涵盖TACO(23%)、HOI4D(25%)、HoloAssist(39%)、HOT3D(13%),涉及33种刚性物体 [12] - 训练损失函数包括L2损失(针对手腕平移和手部关节角回归)和rot6D旋转损失 [10] 评估基准与实验结果 - 基于NVIDIA IsaacSim构建仿真基准,包含12个任务,通过世界坐标系相机位姿解决标注不一致问题 [14] - 人类数据预训练的EgoVLA在短视距和长视距任务中成功率提升约20% [16] - 在seen视觉背景下,EgoVLA的成功率和进度率显著优于无预训练的基线 [18] - 在unseen视觉背景下,EgoVLA短视距任务成功率仅小幅下降,而无预训练模型下降23% [20] 数据规模与多样性影响 - 人类数据多样性越高,模型泛化越好,整合多数据集的模型在短视距任务上的表现显著优于单一数据集训练的模型 [23] - 仅用50%机器人演示数据的EgoVLA性能明显下降,尤其长视距任务 [23] - 依赖带手腕和手部姿势标注的人类数据,当前数据获取仍有局限 [23] - 需少量机器人数据微调才能部署,零样本迁移能力不足 [23]
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 12:26
世界模型与多模态融合 - 世界模型正加速成为连接感知、理解与决策的关键基座,重塑多模态边界[4] - 现有方法多以语言模态为中心,忽视视觉信息的时序动态与因果结构[5] - UniVLA通过原生建模视觉、语言与动作信号,引入世界模型增强下游决策性能[5][14] UniVLA模型架构 - 采用全离散自回归机制,统一视觉、语言与动作信号的离散token表示[8][9] - 构建视觉-动作交错的多模态时序序列,支持原生统一建模[9] - 自回归训练范式高效稳定,具备大规模扩展潜力[9][24] 技术突破与性能表现 - 后训练阶段仅需海量视频数据,无需依赖大量动作标签即可提升决策性能[14] - 在CALVIN基准上平均成功率达95.5%,长程任务(LONG)成功率94.0%,显著超越TO-FAST的60.2%[19] - LIBERO基准整体成功率69.8%,较Robo VLMs提升32.3个百分点[20] - SimplerEnv任务中世界模型策略取得64.6%成功率,较基线提升64.6个百分点[16] 应用场景与未来方向 - 展现出真机操控和自动驾驶等现实场景的应用潜力[5] - 提出视频版VLA架构,有效捕捉时空动态特征[23] - 未来将探索与多模态强化学习深度融合,提升开放世界决策能力[24] 行业影响 - 刷新CALVIN、LIBERO、SimplerEnv等主流具身智能基准的SOTA纪录[5][17][18] - 为机器人从视频中学习真实世界知识提供新路径[15] - 开创区别于传统VLM拓展路径的全新技术路线[22]
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解~
具身智能之心· 2025-07-03 16:22
自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向! 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 麦吉尔大学、清华大学、小米公司 和威斯康辛麦迪逊的研究团队 最新的工作! 面向自动驾驶的视觉-语言-动作模 型综述! 如果您有相关工作需要分享,请在文末联系我们! 以下文章来源于自动驾驶之心 ,作者Sicong Jiang等 自动驾驶之心 . 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 当视觉(Vision)、语言(Language)和行动(Action)三大能力在一个模型中融合,自动驾驶的未来将走向何方? 近日,来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队联合发布了全球首篇针对自动驾驶领域的视觉-语言-行动(Vision-Language-Action, VLA)模型的全面综述。这篇题为《A Survey on Vision-Languag ...
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 22:19
核心观点 - 中科院自动化所提出的BridgeVLA模型通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习 [4] - BridgeVLA在仿真和真实场景中均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率 [4][6] - 该模型在多种泛化性设置中展现出碾压式性能,相较于基线模型取得32%的性能提升 [6] 技术背景 - 现有VLA模型大多只以2D信息作为输入且需要大量数据进行微调,而3D操作策略如PerAct、RVT-2仅需10条轨迹就能取得不错效果 [6] - 2D VLA架构如OpenVLA、pi0借助预训练多模态大模型展现出强泛化能力,但需要上百条专家演示 [9] - 3D操作策略凭借显式空间结构信息具有很高数据效率,但现有3D VLA模型未能实现预期效果 [9] 模型设计 - BridgeVLA通过将3D输入与动作输出统一到2D空间,同时继承2D VLA泛化能力与3D操作策略数据效率 [12] - 训练流程分为2D热度图预训练和3D动作微调两个阶段 [15] - 使用SigLIP视觉编码器和Gemma Transformer构成的PaliGemma作为VLM主干 [15] - 微调阶段通过三视角图像进行动作预测,结合深度图和相机参数反投影得到末端执行器位置估计 [17] 性能表现 - 在RLBench中成功率达88.2%,较基准模型提升6.8% [20] - 在COLOSSEUM环境中较之前SoTA方法提升7.3% [20] - 在GemBench环境中面对全新位置、全新物体考验取得50%成功率 [20] - 真机实验中仅用3条轨迹就达到96.8%基础任务成功率 [25] 行业影响 - BridgeVLA建立起高性能且高数据效率的3D VLA新范式 [26] - 该技术路线有望推动VLA模型持续演进 [27] - 模型对数据要求极低,非常适合在真实机器人系统中部署与扩展 [25]
再获超5亿融资,“伯克利”AI大牛领衔,这家具身智能机器人创企冲刺独角兽!
Robot猎场备忘录· 2025-04-27 18:09
公司概况 - 千寻智能(杭州)科技有限公司成立于2024年1月16日,是国内领先的AI+机器人全栈技术具身智能公司,致力于打造世界级通用人形机器人和下一代具身大模型与学习算法 [6] - 公司成立1年内完成4轮融资,累计融资额超7亿元,包括种子轮(顺为资本领投)、天使轮(弘晖基金领投)、天使+轮(柏睿资本独投)和5.28亿元Pre-A轮(Prosperity7 Ventures领投)[5][6] - 公司入选《2025中国未来独角兽TOP100榜单》等三项重磅榜单,是榜单中最年轻(成立仅1年)的具身智能企业 [2] 核心团队 - 创始人兼CEO韩峰涛师从机器人泰斗丁汉院士,曾任珞石机器人联合创始人兼CTO,是国内力控协作机器人量产交付第一人 [9] - 联创兼首席科学家高阳(清华大学助理教授)为UC Berkeley博士,师从Vision领域大牛Trevor Darrell,与Pieter Abbeel合作强化学习研究,其团队在具身智能领域发表多篇标志性论文 [9][10][18] - 团队汇聚UC Berkeley、CMU、清华、北大等顶尖高校人才,以及小米、华为、腾讯、大疆等企业精英,前字节跳动AI专家解浚源加入负责具身大模型研发 [19] 技术突破 - 采用软硬一体全栈路线,具备AI工程化能力,首席科学家高阳强调算法与硬件需无缝衔接(0.1秒内响应)[21] - 2024年9月发布半身人形机器人Demo,展示多任务连续泛化能力,为中国首个实现该技术的具身模型机器人 [23] - 2025年3月发布商用级人形机器人Moz1,拥有26个自由度,关节功率密度比特斯拉Optimus高15% [25] - 同步推出自研VLA模型Spirit v1,攻克柔性物体长程操作难题(如叠衣服),成为全球第二家实现全流程叠衣任务的公司 [27][28][31] 行业地位与商业化 - 全球具身智能领域超200家企业中,千寻智能是少数同时布局"大脑+本体"的代表企业,被称"中国版Figure AI"[20][34] - 聚焦智能制造、物流、康养等高附加值领域,已完成80+场景调研,计划2025年交付数百台产品 [33] - 行业趋势显示,具备AI能力且软硬协同的企业更受资本青睐,全栈路线被视为商业化成功关键(参考大疆案例)[34] 行业动态 - 具身智能赛道受AI技术突破推动,软件算法成为人形机器人商业化核心壁垒,自研大模型构建技术闭环成企业竞争焦点 [34] - 国际对标企业Physical Intelligence(PI)估值超170亿元,其VLA模型π0.5已实现更高泛化能力 [31] - 行业专家(如智元机器人首席科学家)普遍认为软硬一体是全栈路线的唯一出路 [34]
在与 OpenAI 分道扬镳后,Figure AI 推出了其第二代机器人,将业务重点从工厂拓展至家庭领域。
Counterpoint Research· 2025-04-03 10:59
公司战略与产品发布 - Figure AI推出第二代机器人Figure 02并推进C轮融资 [1][5] - 公司核心技术创新为Helix模型 专为通用型人形机器人控制设计 [3][5] - 估值可能飙升至395亿美元 相比去年增长15.2倍 [16][18] 关键技术突破 - Helix模型具备视觉-语言-动作(VLA)能力 实现端到端推理 [5][19] - 四项技术突破:压力反馈手部控制 自我校准机器人交接 上半身人类级精准操作 多机器人协作 [11][13][15][6] - 演示视频展示机器人首次接触陌生物品仍能自适应协作 [6][7] 融资与估值 - A轮融资7000万美元 估值5亿美元 [18] - B轮融资6.75亿美元 估值26亿美元 增长5.2倍 [18] - 拟C轮融资15亿美元 估值将达395亿美元 [16][18] 竞争优势 - 自主研发Helix模型 摆脱对OpenAI依赖 掌握核心技术知识产权 [19] - 业务从工厂拓展至家用机器人领域 市场潜力巨大 [19] - Helix支持低功耗GPU运行 无需云基础设施 具备商业量产条件 [19] 发展目标 - 计划未来四年交付10万台人形机器人 [19] - 主要投资者包括微软 OpenAI基金 英伟达 贝索斯等 [18]