Workflow
视觉 - 语言 - 动作(VLA)模型
icon
搜索文档
自驾VLA再升级!博世最新IRL-VLA:奖励世界模型打造全新闭环强化学习框架
自动驾驶之心· 2025-08-13 07:33
自动驾驶技术框架IRL-VLA - 提出三阶段闭环强化学习框架:模仿学习预训练VLA策略、逆向强化学习构建奖励世界模型(RWM)、RWM引导的PPO策略优化[3][11][26] - 核心创新点包括轻量化RWM替代高成本仿真器、扩散式轨迹生成规划器、语义与3D推理模块融合[11][18][19] - 在NAVSIM v2基准测试EPDMS达74.9,CVPR2025挑战赛获亚军成绩45.0 EPDMS[3][42][46] 技术架构创新 - VLA模型整合语义推理模块(Senna-VLM框架)、BEV编码的3D推理模块、基于扩散的轨迹规划器[18][19] - RWM通过逆向强化学习建模8项驾驶指标(碰撞/合规性/舒适度等),权重遵循EPDMS标准[22][24] - 采用分层去噪的扩散策略生成多模态轨迹,结合GAE优势估计优化PPO训练过程[29][32] 性能验证与对比 - NAVSIM数据集测试显示:预训练模型(IRL-VLA-PT)在扩展舒适度(EC 76.0)和自车进度(EP 83.9)显著优于GTRS-Aug(EC 54.2/EP 76.1)[42] - 消融实验证实:扩散规划器使EPDMS提升3.0,语义推理模块提升1.4;模仿学习权重0.5时效果最佳[44][45] - 相比传统方法(PDM-Closed EPDMS 51.3),实现46%的性能提升且保持计算效率[42] 行业应用价值 - 首个不依赖仿真器的闭环VLA方案,解决Sim2Real领域差距与计算瓶颈问题[11][23] - 方法可扩展至真实世界数据,支持多目标(安全/效率/规则)联合优化[26][33] - 为端到端自动驾驶提供新范式,推动感知-规划-控制全链路协同优化[46]
万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里
具身智能之心· 2025-08-08 08:08
具身智能发展现状 - 机器人技术进入闭环系统时代,融合感知、行动及软件与物理世界的紧密连接,强调物理定律的重要性[5] - 技术就绪水平(TRL)成为工业应用关键指标,汽车等行业要求达到8-9级成熟度才能获得信任[6] - 过去5-10年机器学习带来显著进步,但物理世界要求99%以上成功率,远高于其他AI领域标准[8] - 行业更倾向从结构化和半结构化环境切入,非结构化环境商业化难度大[9] 技术路线之争 - AGI(人工通用智能)强调端到端学习和泛化能力,但距离实际应用仍有距离[19] - ASI(人工专门智能)专注于特定领域高性能小模型,适合工业实时控制需求[23][24] - 专门模型优势:支持多速率系统、高效实时、易调试、可本地运行[27] - 通用模型优势:开发时强大、适合语义规划和人机交互,但难以满足机器人实时需求[27] 关键技术突破 - 视觉-语言-动作(VLA)模型展现潜力,RT-2X实现跨具身任务执行[39][40] - RT-2成为首个机器人基础模型,基于PaLI-X视觉语言模型改造[41] - RTX跨具身数据集包含34个实验室22种机器人数据,通用模型性能优于专用模型50%[42][43] - 第二代VLA模型采用连续动作分布,如PI-Zero增加动作专家模块处理高频率控制[45][46] 数据与训练方法 - 物理机器人产生的真实数据被视为关键,模拟数据作用有限[69][70][71] - PI-0.5模型仅3%数据来自移动操作器,却能在全新场景执行长期任务[54] - 强化学习(SERL)与基础模型结合,专用策略可生成训练数据提升通用性[87][91] - 未来需解决从数十亿轨迹中筛选最有价值数据的问题[73] 行业应用方向 - 工业领域倾向高混合低产量模式,需要快速适应能力[33] - 操作被视为最具挑战领域,需融合复杂环境理解与精细物理交互[99] - 持续学习、从反馈中学习、自主数据收集将成为未来重点[103][104][105] - 学术界与产业界需协同,选择对失败更宽容的应用场景加速技术落地[95][96] 前沿趋势展望 - 物理AGI实现路径存在分歧:性能优先或能力优先[62][63] - 需构建共享的物理世界常识理解框架,统一导航、移动与操作的方法论[101] - 年轻研究人员应关注根本性问题,超越短期实用性考虑[107] - 行业需要复合型人才,掌握物理、AI、机器学习和大数据科学[106]
分析了102个VLA模型、26个数据集和12个仿真平台
自动驾驶之心· 2025-07-22 10:18
视觉-语言-动作(VLA)模型综述 - 核心观点:VLA模型通过整合视觉感知、语言理解和机器人控制,正在推动机器人技术的变革性发展[3][7] - 研究范围:全面梳理了102个VLA模型、26个基础数据集和12个仿真平台[3] - 发展趋势:从端到端框架向模块化架构演进,强调跨模态对齐和泛化能力[9][12] VLA模型架构 - 主流架构:基于Transformer的视觉和语言骨干网络,通过跨模态注意力机制融合[9] - 视觉编码器:CLIP、SigLIP和DINOv2等ViT变体成为主流选择[13] - 语言编码器:LLaMA、Vicuna系列和T5风格模型广泛应用[15] - 动作解码器:扩散策略因能建模复杂动作分布而受青睐[15][16] 数据集发展 - 数据集演进:从早期简单状态-动作映射发展到多模态、长时间跨度数据集[21] - 代表性数据集:Open X-Embodiment统一22个机器人实体和500多个任务数据[5] - 评估标准:建立任务复杂性和模态丰富度二维评估框架[22][24] 仿真平台 - 主要平台:AI2-THOR、Habitat和NVIDIA Isaac Sim等提供多模态支持[30][31] - 功能差异:从逼真室内导航到接触丰富的物理模拟各有侧重[31] - 发展趋势:强调GPU并行计算和大规模场景生成能力[33] 应用领域 - 主要方向:操作与任务泛化、自主移动、人机交互等六大领域[34] - 代表性模型:RT-2、Pi-0和CLIPort等在各自领域表现突出[37] - 技术路线:分为大型通用架构和模块化专用系统两大发展轨迹[38] 挑战与机遇 - 架构挑战:分词对齐、模态融合和跨实体泛化等关键技术瓶颈[39][40] - 数据限制:任务多样性不足、模态不平衡和注释成本高等问题[42] - 仿真差距:物理准确性、视觉真实性和语言接地API等亟待改进[44][45]
机器人「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证
具身智能之心· 2025-07-21 16:42
机械臂技术发展 - 传统机械臂功能局限于简单抓取和小任务如制作冰淇淋和咖啡 [2] - 复杂任务如布置餐桌和组装自行车对感知、理解和动作控制协同要求极高 [3] - 视觉-语言-动作(VLA)模型推动机器人整合多模态信息执行复杂任务 [3] 大型行为模型(LBM)突破 - LBM基于扩散模型策略构建,整合视觉、语言和本体感知输入,输出20维动作序列 [18][19] - 在1700小时机器人数据上训练,完成1800次真实评估和47000次模拟部署 [13] - 仅需数百小时多样化数据和少量演示即可显著提升性能 [14] LBM性能优势 - 微调后LBM在"已见任务"上优于单任务基线模型且对分布偏移更具鲁棒性 [31][32] - 在"未见任务"中,微调LBM仅需不到30%任务特定数据即可达到单任务模型效果 [39] - 预训练使LBM用3-5倍更少数据学习新任务且性能随数据量持续提升 [16][43] 实验验证 - 采用Franka Panda FR3双臂平台和最多六个摄像头进行物理和模拟测试 [22] - 评估指标包括成功率(Success Rate)和任务完成度(Task Completion) [26] - 在仿真和现实环境中验证LBM对复杂任务的执行能力 [25][30] 数据规模与效果 - 混合数据集包含468小时双臂数据、45小时模拟数据、32小时UMI数据和1150小时开源数据 [23] - 预训练规模法则显示性能随数据量增加呈稳定上升趋势 [41][42] - 当前数据规模虽未达"互联网级"但已显现显著性能收益 [14]
机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验
机器之心· 2025-07-21 12:04
机械臂技术发展 - 传统机械臂功能局限于简单抓取和小任务如制作冰淇淋和咖啡 [1] - 自主完成复杂任务(如布置餐桌、组装自行车)对感知、理解和动作控制协同要求极高,难度呈指数级上升 [2] 视觉-语言-动作(VLA)模型进展 - VLA模型推动机器人整合多模态信息(图像、指令、场景语义),执行复杂任务能力显著提升 [3] - 当前VLA研究未达里程碑式成果,具身智能的「GPT」尚未实现 [4] - 最新研究显示机械臂已能实现双臂写作和操作纠错,性能远超早期VLA成果 [7] 大型行为模型(LBM)突破 - 丰田研究院(TRI)团队基于扩散模型策略构建LBM,通过训练实现机械臂自主执行复杂操作 [8][10] - LBM架构采用Diffusion Transformer,输入语言、视觉和本体感知,输出20维动作序列(覆盖未来16个时间步长) [19][20] - 模型以10Hz频率运行,执行前8个时间步动作后重新规划 [20] 实验数据与训练规模 - 训练数据包含468小时双臂机器人遥操作数据、45小时模拟数据、32小时UMI数据及1,150小时开源数据集 [24] - 在1,700小时机器人数据上训练LBM,完成1,800次真实世界评估和47,000次模拟部署 [15] - 预训练数据量仅需数百小时即可显著提升性能,性能增益在远未达「互联网级」数据量时已显现 [16] 性能评估与结果 - 评估指标包括成功率(Success Rate)和任务完成度(Task Completion),后者通过人工打分或自动化谓词量化 [25][26][29] - 微调后的LBM在「已见任务」上优于单任务基线模型,且未经微调的LBM性能接近单任务模型 [36][37] - 在「未见任务」中,微调LBM仅需不到30%任务特定数据即可达到单任务模型全数据效果 [42][43][44] - 预训练使LBM学习新任务所需数据量减少3-5倍,且性能随数据量增加持续提升 [17][49] 行业影响与展望 - LBM验证了多任务预训练的有效性,为机器人通用大规模模型发展奠定基础 [52] - 研究显示数据获取与性能自举的良性循环可能实现,预示具身智能「GPT时刻」临近 [16][17]
分析了102个VLA模型、26个数据集和12个仿真平台
具身智能之心· 2025-07-20 09:06
视觉-语言-动作(VLA)模型综述 核心观点 - VLA模型通过整合视觉感知、自然语言理解和机器人控制,实现跨模态智能决策,是机器人技术的变革性突破[3] - 当前已梳理102个VLA模型、26个基础数据集和12个仿真平台,形成完整技术生态[3] - 未来发展方向包括可扩展预训练协议、模块化架构设计和稳健多模态对齐策略[3] 技术架构 - **主流架构范式**:采用基于Transformer的视觉/语言骨干网络,通过跨模态注意力融合多模态输入,典型代表包括RT-2、OpenVLA等[9] - **三流编码设计**: - 视觉编码器处理RGB图像(ViT/DINOv2等)[13] - 语言编码器嵌入指令(LLaMA/PaLM等)[15] - 状态编码器处理机器人本体感受数据[11] - **动作生成机制**:扩散策略(Octo)和自回归Transformer(Gato)成为主流解码方式[15] 数据集发展 - **演进趋势**: - 早期:EmbodiedQA等简单状态-动作映射数据集[22] - 中期:ALFRED等引入多模态感官流[22] - 当前:Open X-Embodiment整合22个机器人实体和500+任务数据[5] - **评估框架**:通过任务复杂性和模态丰富度二维指标量化数据集质量,最高分Kaiwu兼具极高任务复杂性和七种模态[23][29] 仿真平台 - **关键功能**: - AI2-THOR:逼真室内场景生成[34] - NVIDIA Isaac Sim:支持激光雷达/IMU等多传感器[35] - MuJoCo:高精度接触力建模[35] - **技术瓶颈**:物理准确性不足、语言接地API缺失制约仿真到现实的迁移效果[47] 应用领域 - **六大方向**: - 操作与任务泛化(RT-2/Octo)[37] - 自主移动(NaVILA)[38] - 人机交互(RoboNurse-VLA)[38] - 专用机器人平台(QUAR-VLA)[38] - 虚拟环境(JARVIS-VLA)[38] - 边缘计算(Edge VLA)[38] 技术挑战 - **架构层面**:模态融合不充分、跨实体泛化能力弱[43][44] - **数据层面**:任务多样性不足、模态不平衡[45] - **仿真层面**:视觉-物理保真度难以兼顾[47] 未来方向 - 开发可学习的分词器统一多模态输入[49] - 构建长视距跨域基准测试体系[49] - 推进可微分物理引擎和标准化语言接口[50]
加利福尼亚大学!EgoVLA:从第一视角人类视频中学习VLA模型
具身智能之心· 2025-07-20 09:06
研究背景与核心思路 - 传统机器人模仿学习受限于硬件和操作成本,难以突破数据规模和任务多样性 [3] - 人类操作行为构成海量潜在训练数据,全球数十亿人在机器人期望工作的场景中持续活动 [3] - 核心突破在于人类与机器人的动作空间差异可通过几何变换近似,无需直接基于机器人数据训练视觉-语言-动作模型 [3] - 先在人类第一视角视频上训练模型,再通过少量机器人演示微调,实现技能迁移 [3] 模型架构与动作空间设计 - 以NVILA-2B为基础框架,输入包括当前及历史第一视角视觉观测、语言指令、动作查询token和人类本体感觉 [5] - 动作头预测未来1秒内的动作序列,采样频率30 Hz [6] - 动作空间采用人类手腕位姿和MANO手模型的前15个PCA主成分,兼顾紧凑性与表达力 [8] - 通过3D变换对齐坐标系,结合逆运动学转换为机器人末端执行器位置 [11] 数据组成与训练 - 整合四个来源的第一视角视频,形成约50万图像-动作对的大规模人类操作数据集 [12] - 数据集涵盖TACO(23%)、HOI4D(25%)、HoloAssist(39%)、HOT3D(13%),涉及33种刚性物体 [12] - 训练损失函数包括L2损失(针对手腕平移和手部关节角回归)和rot6D旋转损失 [10] 评估基准与实验结果 - 基于NVIDIA IsaacSim构建仿真基准,包含12个任务,通过世界坐标系相机位姿解决标注不一致问题 [14] - 人类数据预训练的EgoVLA在短视距和长视距任务中成功率提升约20% [16] - 在seen视觉背景下,EgoVLA的成功率和进度率显著优于无预训练的基线 [18] - 在unseen视觉背景下,EgoVLA短视距任务成功率仅小幅下降,而无预训练模型下降23% [20] 数据规模与多样性影响 - 人类数据多样性越高,模型泛化越好,整合多数据集的模型在短视距任务上的表现显著优于单一数据集训练的模型 [23] - 仅用50%机器人演示数据的EgoVLA性能明显下降,尤其长视距任务 [23] - 依赖带手腕和手部姿势标注的人类数据,当前数据获取仍有局限 [23] - 需少量机器人数据微调才能部署,零样本迁移能力不足 [23]
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 12:26
世界模型与多模态融合 - 世界模型正加速成为连接感知、理解与决策的关键基座,重塑多模态边界[4] - 现有方法多以语言模态为中心,忽视视觉信息的时序动态与因果结构[5] - UniVLA通过原生建模视觉、语言与动作信号,引入世界模型增强下游决策性能[5][14] UniVLA模型架构 - 采用全离散自回归机制,统一视觉、语言与动作信号的离散token表示[8][9] - 构建视觉-动作交错的多模态时序序列,支持原生统一建模[9] - 自回归训练范式高效稳定,具备大规模扩展潜力[9][24] 技术突破与性能表现 - 后训练阶段仅需海量视频数据,无需依赖大量动作标签即可提升决策性能[14] - 在CALVIN基准上平均成功率达95.5%,长程任务(LONG)成功率94.0%,显著超越TO-FAST的60.2%[19] - LIBERO基准整体成功率69.8%,较Robo VLMs提升32.3个百分点[20] - SimplerEnv任务中世界模型策略取得64.6%成功率,较基线提升64.6个百分点[16] 应用场景与未来方向 - 展现出真机操控和自动驾驶等现实场景的应用潜力[5] - 提出视频版VLA架构,有效捕捉时空动态特征[23] - 未来将探索与多模态强化学习深度融合,提升开放世界决策能力[24] 行业影响 - 刷新CALVIN、LIBERO、SimplerEnv等主流具身智能基准的SOTA纪录[5][17][18] - 为机器人从视频中学习真实世界知识提供新路径[15] - 开创区别于传统VLM拓展路径的全新技术路线[22]
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 22:19
核心观点 - 中科院自动化所提出的BridgeVLA模型通过将3D输入投影为2D图像并利用2D热图进行动作预测,实现了高效且泛化的3D机器人操作学习 [4] - BridgeVLA在仿真和真实场景中均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率 [4][6] - 该模型在多种泛化性设置中展现出碾压式性能,相较于基线模型取得32%的性能提升 [6] 技术背景 - 现有VLA模型大多只以2D信息作为输入且需要大量数据进行微调,而3D操作策略如PerAct、RVT-2仅需10条轨迹就能取得不错效果 [6] - 2D VLA架构如OpenVLA、pi0借助预训练多模态大模型展现出强泛化能力,但需要上百条专家演示 [9] - 3D操作策略凭借显式空间结构信息具有很高数据效率,但现有3D VLA模型未能实现预期效果 [9] 模型设计 - BridgeVLA通过将3D输入与动作输出统一到2D空间,同时继承2D VLA泛化能力与3D操作策略数据效率 [12] - 训练流程分为2D热度图预训练和3D动作微调两个阶段 [15] - 使用SigLIP视觉编码器和Gemma Transformer构成的PaliGemma作为VLM主干 [15] - 微调阶段通过三视角图像进行动作预测,结合深度图和相机参数反投影得到末端执行器位置估计 [17] 性能表现 - 在RLBench中成功率达88.2%,较基准模型提升6.8% [20] - 在COLOSSEUM环境中较之前SoTA方法提升7.3% [20] - 在GemBench环境中面对全新位置、全新物体考验取得50%成功率 [20] - 真机实验中仅用3条轨迹就达到96.8%基础任务成功率 [25] 行业影响 - BridgeVLA建立起高性能且高数据效率的3D VLA新范式 [26] - 该技术路线有望推动VLA模型持续演进 [27] - 模型对数据要求极低,非常适合在真实机器人系统中部署与扩展 [25]
再获超5亿融资,“伯克利”AI大牛领衔,这家具身智能机器人创企冲刺独角兽!
Robot猎场备忘录· 2025-04-27 18:09
公司概况 - 千寻智能(杭州)科技有限公司成立于2024年1月16日,是国内领先的AI+机器人全栈技术具身智能公司,致力于打造世界级通用人形机器人和下一代具身大模型与学习算法 [6] - 公司成立1年内完成4轮融资,累计融资额超7亿元,包括种子轮(顺为资本领投)、天使轮(弘晖基金领投)、天使+轮(柏睿资本独投)和5.28亿元Pre-A轮(Prosperity7 Ventures领投)[5][6] - 公司入选《2025中国未来独角兽TOP100榜单》等三项重磅榜单,是榜单中最年轻(成立仅1年)的具身智能企业 [2] 核心团队 - 创始人兼CEO韩峰涛师从机器人泰斗丁汉院士,曾任珞石机器人联合创始人兼CTO,是国内力控协作机器人量产交付第一人 [9] - 联创兼首席科学家高阳(清华大学助理教授)为UC Berkeley博士,师从Vision领域大牛Trevor Darrell,与Pieter Abbeel合作强化学习研究,其团队在具身智能领域发表多篇标志性论文 [9][10][18] - 团队汇聚UC Berkeley、CMU、清华、北大等顶尖高校人才,以及小米、华为、腾讯、大疆等企业精英,前字节跳动AI专家解浚源加入负责具身大模型研发 [19] 技术突破 - 采用软硬一体全栈路线,具备AI工程化能力,首席科学家高阳强调算法与硬件需无缝衔接(0.1秒内响应)[21] - 2024年9月发布半身人形机器人Demo,展示多任务连续泛化能力,为中国首个实现该技术的具身模型机器人 [23] - 2025年3月发布商用级人形机器人Moz1,拥有26个自由度,关节功率密度比特斯拉Optimus高15% [25] - 同步推出自研VLA模型Spirit v1,攻克柔性物体长程操作难题(如叠衣服),成为全球第二家实现全流程叠衣任务的公司 [27][28][31] 行业地位与商业化 - 全球具身智能领域超200家企业中,千寻智能是少数同时布局"大脑+本体"的代表企业,被称"中国版Figure AI"[20][34] - 聚焦智能制造、物流、康养等高附加值领域,已完成80+场景调研,计划2025年交付数百台产品 [33] - 行业趋势显示,具备AI能力且软硬协同的企业更受资本青睐,全栈路线被视为商业化成功关键(参考大疆案例)[34] 行业动态 - 具身智能赛道受AI技术突破推动,软件算法成为人形机器人商业化核心壁垒,自研大模型构建技术闭环成企业竞争焦点 [34] - 国际对标企业Physical Intelligence(PI)估值超170亿元,其VLA模型π0.5已实现更高泛化能力 [31] - 行业专家(如智元机器人首席科学家)普遍认为软硬一体是全栈路线的唯一出路 [34]