Workflow
视觉语言动作模型(VLA)
icon
搜索文档
王鹤团队最新!解决VLA 模型缺乏精准几何信息的问题
具身智能之心· 2026-01-05 09:03
文章核心观点 - StereoVLA模型通过创新性地融合立体视觉的几何线索与语义理解,系统性解决了现有视觉-语言-动作模型在空间感知精度上的核心不足,为机器人高精度操纵提供了全新解决方案 [1] 问题根源:VLA模型空间感知的挑战 - **单模态视觉局限**:现有方案如手腕相机视野有限且易遮挡,深度传感器对透明或镜面物体噪声大,多相机配置则增加硬件复杂度且泛化性受相机姿态影响显著 [4][5] - **几何与语义融合难题**:立体视觉能提供丰富空间线索,但现有VLA模型缺乏有效机制融合几何信息与语义理解,直接输入立体图像会因视角细微差异导致性能次优 [6] 方案设计:StereoVLA的三层技术架构 - **第一层:特征提取模块** - 几何特征提取:基于FoundationStereo预训练模型,提取过滤后的代价体积作为几何特征源,通过注意力混合代价过滤模块捕捉长程空间关联,无需额外深度估计计算 [12] - 语义特征提取:利用SigLIP和DINOv2模型仅对左视角图像进行处理,获取富含语义的视觉令牌,以解决立体视觉模型语义信息不足的问题 [12] - 特征融合策略:通过空间池化统一分辨率,采用通道维度拼接方式融合几何与语义特征,生成兼具几何精度与语义丰富度的混合特征表示 [12] - **第二层:辅助训练任务** - 聚焦交互区域:将采样范围限制在通过物体2D边界框定位的夹持器与目标物体交互区域,引导模型关注关键空间细节 [12] - 度量深度预测:基于合成数据集的真实深度标签,训练模型预测交互区域内采样点的度量深度,以提升操纵精度并加速模型收敛,且不增加推理计算负担 [12] - **第三层:大规模数据支撑** - 合成数据生成:利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列,渲染立体图像对,相机参数在真实Zed Mini相机参数的5%范围内随机化 [12] - 语义增强数据:融入互联网规模接地数据集GRIT,新增2D边界框预测辅助任务以提升模型语义接地能力 [12] - 数据多样性设计:生成三种不同随机化范围的数据集,覆盖15×10×15cm至150×50×60cm的空间变化,以验证相机姿态鲁棒性 [12] 验证逻辑:全面性能验证 - **核心任务性能突破** - 通用操纵任务:在常见物体抓取/放置、立方体堆叠等任务中,成功率较基线模型提升明显 [13] - 条形物体抓取:针对0°、45°、90°三种朝向的条形物体,实现近完美抓取成功率,解决了长轴视觉重叠导致的定位难题 [13] - 中小尺寸物体抓取:在1-2cm小型物体抓取任务中,以30.0%的成功率成为唯一有效模型,其他基线模型完全失败 [13] - **相机配置对比** - 在四种主流相机配置对比中,StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著,较其他配置降低了相机姿态变化对操纵的影响 [17] - 相比前+侧面相机配置,StereoVLA在大姿态随机化场景下成功率提升157%,且部署更简洁,无需多相机校准 [17] - **核心模块消融验证** - 几何特征选择:过滤后的代价体积表现最优,较相关体积加语义特征的组合,成功率从54.0%提升至77.0% [15][18] - 语义特征作用:缺失语义特征时,模型抓取错误物体的概率显著增加,成功率平均下降20%以上 [15][18] - 深度估计策略:交互区域深度估计较全图像均匀采样,成功率提升18%,且避免了背景信息干扰 [18] 局限与未来方向 - 图像分辨率限制:当前224×224分辨率对1-2cm小型物体的语义接地与定位精度不足,需在高分辨率与计算成本间寻求平衡 [18] - 长时程依赖缺失:当前模型未捕捉长时程时间依赖,难以应对复杂连续操纵任务 [18] - 多机器人适配:验证仅基于Franka机械臂,未来需扩展至人形机器人等多具身化场景 [18] - 特征提取优化:可探索更多立体视觉基础模型的适配,以进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - 该模型的核心贡献在于首次将立体视觉系统融入VLA模型,并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破,以及对相机姿态变化的强鲁棒性,为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑 [16]
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 08:25
行业技术趋势:VLA与强化学习(RL)的深度融合 - 当前视觉-语言-动作模型在真实世界应用中面临挑战,仅依赖模仿学习的VLA在分布外场景中表现脆弱,缺乏失败恢复、自主探索与闭环纠错能力 [2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示其在分布外任务上的性能提升可达42.6% [2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善 [2] 代表性研究方向与工作 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,例如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练 [2][5] - **离线强化学习优化**:多个工作专注于通过离线RL对VLA进行后训练,以平衡信号与方差,并提升效率,例如CO-RFT采用分块离线强化学习进行高效微调 [5] - **策略优化与泛化增强**:研究通过强化学习放大机器人视觉-语言操作能力,并探索RL为VLA泛化带来的实际效益,有工作对此进行了实证研究 [5][13] 关键工具与框架发展 - **RLinf框架**:由行业专家推动的Rlinf工具,支持的方法越来越多,为VLA+RL训练提供了一个统一且高效的框架 [2][11] - **多样化训练方法**:行业出现了多种微调与后训练方法,包括使用世界模型作为虚拟环境、基于反射的任务适应、以及结合人类在环的双行动者微调等 [8][10][12] 近期(2025年)重要研究成果列举 - **2025年11月**:发布了NORA-1.5、pi0.6、WMPO、RobustVLA、World-Env等多篇重要论文,涉及世界模型策略优化、鲁棒性后训练等方向 [5][6][8][9] - **2025年10月**:推出了DeepThinkVLA以增强模型推理能力,以及多个基于流匹配策略的强化学习微调工作 [9][10][11] - **2025年9月**:研究包括自改进的具身基础模型、VLA-Critic模型用于机器人现实世界强化学习,以及简单的VLA-RL扩展训练 [11][12] - **2025年5月至6月**:工作聚焦于强化学习恢复压缩模型、轨迹组策略优化,并实证研究RL对VLA泛化的作用 [13][14] - **2025年1月至3月**:研究方向包括通过在线RL改进VLA、大规模RL微调实现卓越的机器人策略,以及VLA的安全对齐 [16][17][18]
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心· 2025-12-22 18:23
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-动作模型在真实世界开放分布场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善[2] 代表性研究方法与框架 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练[2][5] - **离线强化学习**:离线RL方法被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调,例如CO-RFT方法[5] - **工具与框架**:RLinf等工具框架正在完善,支持的方法越来越多,为VLA+RL训练提供统一高效的平台[2][11] 近期重要研究成果(2025年) - **NORA-1.5**:一种通过世界模型和基于动作的偏好奖励学习的VLA模型[5][6] - **Pi0.6**:推测结合了强化学习技术,取得了惊艳效果[2] - **GR-RL与WholebodyVLA**:近期工作显示出显著效果[2] - **WMPO**:基于世界模型的VLA策略优化方法[8][9] - **RobustVLA**:专注于鲁棒性的VLA强化学习后期训练方法[8][9] - **DeepThinkVLA**:通过增强推理能力来提升VLA模型[8][9] - **Self-Improving VLA**:通过残差RL进行数据生成以实现自我改进的VLA模型[8][9] 技术细分方向 - **后期训练与微调**:多种方法专注于VLA模型的强化学习微调,如VLA-RFT在世界模拟器中使用已验证奖励进行微调[10][11] - **策略优化与泛化**:研究探索RL如何提升VLA泛化能力,并有实证研究[13][14] - **安全与对齐**:研究开始关注VLA模型的安全对齐问题,例如SafeVLA通过约束学习实现安全对齐[16][18] - **数据生成与蒸馏**:通过强化学习进行策略蒸馏和数据生成,以创建通用且强大的机器人策略[17][18]
微软&港科对比多种迁移技术!VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验?
具身智能之心· 2025-11-16 00:03
文章核心观点 - 微软研究院与香港科技大学等团队提出的GrinningFace基准,旨在解决视觉语言动作模型如何有效继承大型视觉语言模型中丰富视觉-语义先验的核心问题 [1] - 该基准通过表情符号桌面操作任务,构建了能分离动作技能与语义识别能力的纯净测试环境,以精准诊断知识迁移效果 [2][4] - 系统实验揭示了VLM先验对VLA泛化能力的关键作用,并指出共训练、潜态动作预测等技术是实现高效知识迁移的关键方向 [7][13][19] GrinningFace基准的设计与目的 - 基准创新性地选择在VLM预训练数据中普遍存在、但机器人数据集中几乎未出现的表情符号作为核心代理,以分离“机器人动作技能”与“VLM先验知识”的贡献 [2] - 任务要求机器人手臂根据语言指令将立方体放置到对应的表情符号卡片上,指令格式为“拿起立方体并放置在 [表情描述] 上” [4] - 基准包含100个训练集表情符号和100个验证集表情符号,确保评估模型的泛化能力 [8] 评估体系与关键指标 - 采用双维度评估体系,将成功率拆分为执行成功率和识别成功率进行单独量化 [5] - 执行成功率反映机器人成功抓取立方体并放置到任意表情卡的概率,用于衡量动作技能掌握程度 [8] - 识别成功率反映机器人选择正确目标表情卡的概率,直接体现VLM先验知识的迁移效果 [8] - 设计了三类测试场景,全面覆盖分布内与分布外泛化评估 [8] 不同微调策略的性能对比 - 全参数微调适配特定任务效果好,但易发生灾难性遗忘,丢失VLM先验知识 [5] - 仅微调动作头能最大程度保留VLM先验,但动作技能学习不足,分布内场景适配差 [5] - LoRA微调能平衡先验保留与动作学习,但知识迁移提升有限,仍有优化空间 [5] 高效知识迁移的关键技术方向 - 共训练技术在VLA训练中加入视觉语言任务,在真实机器人实验中识别成功率达86.7%(26/30) [7][11] - 潜态动作预测将潜态动作作为高阶训练目标,避免模型被低阶信号干扰,识别成功率达80%(24/30) [11][13] - VLM冻结加LoRA预训练能大幅提升识别成功率超过90%,但复杂动作技能适配速度慢 [13] 实验验证与核心发现 - 真实机器人实验与仿真环境结果高度一致,验证了结论的可靠性 [11] - 注意力图谱分析揭示了“VLM先验→预训练对齐→微调优化”的递进式迁移路径 [15] - VLM先验的保留程度直接决定VLA的泛化能力,灾难性遗忘是当前技术的主要瓶颈 [19] 未来研究方向 - 优化参数高效微调技术,提升LoRA等方法的知识迁移效率 [19] - 设计更贴合真实场景的复杂任务,验证迁移技术的规模化应用能力 [19] - 探索多模态先验融合,结合触觉、语音等信息增强VLA的环境适应能力 [19]
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 16:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
阿里新研究:一统VLA和世界模型
具身智能之心· 2025-10-31 08:04
WorldVLA框架概述 - 核心创新是将视觉语言动作模型与世界模型融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出[2] - 该自回归动作世界模型通过结合动作与图像理解来预测未来图像,同时基于图像观测生成后续动作[5][6] - 实验结果显示其表现显著优于独立的动作模型与世界模型,体现二者相互增强效应[3] 技术架构设计 - 基于Chameleon模型初始化,采用三套独立分词器处理图像、文本和动作编码[9] - 图像分词器使用VQ-GAN模型,压缩比为16,码本大小8192:256×256图像生成256个token,512×512图像生成1024个token[9] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示[9] - 创新设计替代注意力掩码,使动作生成仅依赖文本和视觉输入,屏蔽之前动作影响,实现并行生成多个动作[12][13] 性能基准测试 - 在离散动作模型对比中,WorldVLA(256×256)平均成功率79.1%,优于OpenVLA的76.5%[22] - 分辨率提升至512×512时性能进一步提高,平均成功率81.8%,显示分辨率与性能正相关[22] - 在连续动作模型对比中,WorldVLA未使用预训练即超越部分预训练模型,证明架构有效性[20][22] 世界模型对动作模型的增强 - 引入世界模型后动作模型成功率从62.8%提升至78.1%,特别是在长序列任务中从23.0%提升至52.4%[26][27] - 世界模型赋予系统前瞻推演能力,通过预判动作后果优化决策,案例显示能持续尝试直到操作成功[26][28] - 环境物理理解、动作风险评估和精确动作解析是三方面主要增强机制[15][16][17] 动作模型对世界模型的提升 - 在视频生成质量上,动作世界模型在50帧序列的FVD指标从718.6优化至674.1,PSNR从23.98提升至24.30[33] - 纯世界模型出现抽屉无法拉开、物体消失等缺陷,而动作世界模型生成连贯且符合物理规律的后续状态[33] - 动作模型通过增强视觉理解能力进一步支持世界模型的视觉生成[18] 行业专家观点 - 小米汽车高级研究总监陈龙认为VLA与世界模型可结合相互促进,分别负责"抽象思考"和"物理感知"[37] - VLA与世界模型结合被视为通往具身智能的重要路径[37]
阿里新研究:统一了VLA和世界模型
36氪· 2025-10-29 18:32
模型框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 该框架旨在解决VLA模型缺乏对动作的深度理解以及世界模型无法直接生成动作的功能局限 [4] - 模型使用三套独立的分词器对图像、文本和动作进行编码,所有模态信息被离散化为token并以自回归方式训练 [6][8] 技术实现细节 - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192,256×256图像生成256个token,512×512图像生成1024个token [6] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示 [6] - 文本分词器词表大小为65536,包含8192个图像token和256个动作token [8] - 提出针对动作生成的替代注意力掩码,使当前动作生成仅依赖文本和视觉输入,可实现并行生成多个动作 [10] 性能表现与优势 - 在基准测试中,WorldVLA模型即使未经预训练,其性能也优于离散化OpenVLA模型 [12] - 512×512分辨率模型平均成功率(Average SR)达81.8%,优于256×256分辨率模型的79.1% [13] - 更高分辨率带来性能提升,归因于主干模型预训练策略及更多视觉细节信息,对高精度抓取任务尤为重要 [13][14] 模型协同效应 - 引入世界模型数据可增强动作生成能力,世界模型通过预测未来状态促使模型学习底层物理规律 [11][15] - 世界模型赋予系统前瞻推演能力,通过预判候选动作后果来优化动作选择策略,提高任务成功率 [16] - 动作模型能增强视觉理解能力,从而进一步支持世界模型的视觉生成,WorldVLA在生成长视频序列时质量显著优于纯世界模型 [11][21][22] 行业观点与应用前景 - 行业观点认为VLA与世界模型的结合是通往具身智能的答案,一个负责抽象思考,一个负责物理感知 [24] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出,体现了产学研结合的技术发展路径 [1][24]
阿里新研究:统一了VLA和世界模型
量子位· 2025-10-29 17:30
技术框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 框架旨在解决VLA模型仅将动作作为输出而缺乏深度理解,以及世界模型无法直接生成动作的应用局限 [6] - 采用三套独立分词器对图像、文本和动作进行编码,图像分词器压缩比为16,码本大小为8192,256x256图像生成256个token,512x512图像生成1024个token [8] - 创新性地为动作生成设计了替代注意力掩码,使自回归框架能并行生成多个动作,避免早期错误传递 [11][12] 性能优势与实验结果 - 实验结果表明WorldVLA表现显著优于独立的动作模型与世界模型,体现了二者相互增强效应 [2] - 在未使用预训练的情况下,WorldVLA在基准测试中平均成功率优于离散化OpenVLA模型(256x256分辨率79.1% vs 76.5%,512x512分辨率81.8% vs 76.5%) [19][21] - 模型性能与图像分辨率呈正相关,512x512分辨率相比256x256分辨率带来显著提升(平均成功率从79.1%提升至81.8%) [21][22] - 引入世界模型数据训练后,动作模型在目标、物体、空间和长序列任务上的成功率从基线62.8%提升至78.1% [25] 协同效应与能力增强 - 世界模型通过预测未来图像学习环境物理规律,增强动作模型在精细操作任务中的能力 [14][25] - 动作模型通过增强视觉理解能力,反向支持世界模型的视觉生成质量,在生成50帧长视频时FVD指标从718.6改善至674.1 [17][31][32] - 动作世界模型在复杂场景生成中表现优于纯世界模型,能生成连贯且符合物理规律的后续状态 [32]
超万平方米的人形机器人训练场在京启用
环球网资讯· 2025-09-25 18:04
项目概况 - 人形机器人训练场在北京石景山正式投入运营 占地面积上万平方米 是我国人形机器人产业的关键基础设施 [1] - 训练场1:1还原工业智造 智慧家庭 康养服务和5G融合四大类共16个细分场景 构建超万平方米多元场景训练环境 [3] - 采用"训练+应用+孵化+科普"四位一体生态模式 打造全国具身智能公共数据服务底座平台 [6] 技术能力 - "夸父"人形机器人身高1.66米 通过VR设备和动作捕捉系统学习实用技能 执行成功率达95%以上 [3] - 机器人已掌握20多项原子技能 能够胜任搬运 巡检 导览 配送等多种任务 [3] - 数据采集平台通过采集 清洗 标注 导出四个环节 采用自动+人工+模型三重质量评估 单条数据合格率达到99% [3] - 真机运行数据支持跨本体 跨场景迁移使用 解决行业数据质量差 获取成本高 迁移难度大等痛点 [3][5] 产业价值 - 加速人形机器人"具身大脑"进化 推动在汽车制造 物流搬运等场景规模化应用 [1] - 标准化规模化数据生产为整个行业提供高质量 低成本数据服务 [4] - 真机数据是模型从理论走向现实落地的关键桥梁 解决仿真数据无法复现物理交互细节的问题 [5] - 与多所高校及科研机构建立产学研合作 通过产业基金支持创业孵化与赛事培育 [6] 发展前景 - 为未来万亿级产业发展奠定坚实基础 [1] - 将推进数据标准制定和模型训练工作 构建从单机控制到群体协作的完整训练体系 [4] - 通过产业基金扶持垂域初创团队 打造具身智能操作任务挑战赛和创业启航营 形成赛孵联动机制 [6] - 标志着人形机器人产业迈入规模化 标准化发展新阶段 未来将在工厂 物流园区 养老机构等更多场景实现应用 [7]
上海交大卢策吾:如何破解机器人泛化与鲁棒性
21世纪经济报道· 2025-08-12 18:27
机器人行业技术发展 - 机器人操作认知需解决泛化性和鲁棒性两大核心问题 泛化性要求机器人理解见过和未见过物体 鲁棒性确保任务稳定执行[1] - 限制机器人"大脑"成熟的关键因素在于具身模型架构与数据闭环迭代 而非芯片算力和硬件[1] - 行业对机器人智能化提升保持信心 重点关注数据规模 数据类型和大脑结构选择[1] 穹彻智能技术突破 - 公司开发出泛化性极强的机械臂控制技术 在柔性物体操作和食材处理场景展示技术通用性 如叠衣服和削黄瓜[2] - 提出"数字基因"框架 将具身智能从语言理解推进到说明书级执行 使机器人能按说明书稳定通用地执行任务[2] - 数字基因方法将物体解析为程序化模板 统一表达结构 功能 可供性和操作属性 形成万能说明书[4] - 该方法大幅降低操作数据生成成本 从手工生成的150元/2小时降至0.006元/秒(单GPU) 成本降低1万倍 实现数据资产规模化[4] - 自研端到端力位混合机器人行为模型 实现抓取 折叠 刮削等技能 在食品加工行业落地百套规模[6] 应用场景进展 - 双臂自适应机器人平台可完成开关冰柜 手工舀挖冰淇淋 清洗挖勺等连续复杂任务[6] - 机器人挖冰淇淋球时实时判断厚度和颜色状态 自主规划取料位置与路径 并随表面起伏调整力度[6] - 操作接触时间从秒级短程接触提升至分钟级长程接触 要求每毫秒对结果负责 模型优化难度几何级上升[6] 行业融资环境 - 2024年美国私人AI投资达1091亿美元 中国为93亿美元 差距近12倍[7] - 国内单个具身智能创业公司融资额约为美国同行的七分之一[7] - 与大模型和自动驾驶赛道相比 国内具身智能融资规模仍偏弱[7] 企业发展策略 - 在资金约束下 企业需依靠科学见解和技术路线判断进行聚焦 而非盲目试错[8] - 技术决策需具备顶尖科学素养和前瞻判断力 谨慎选择技术路线[8]