视觉语言动作模型(VLA)
搜索文档
星海图合伙人、CFO罗天奇:具身智能尚处于技术竞赛早期阶段
每日经济新闻· 2026-02-12 18:47
文章核心观点 - 具身智能行业正处于由规模定律驱动的早期技术竞赛阶段 行业竞争的本质是资金使用效率 即每一元钱能换回多少智能 而非短期的融资额或硬件成本 [1][2] - 行业正经历结构性转折 资本逻辑从“广撒网”转向“押头部” 企业需储备资金以应对未来算力与数据成本激增 胜负关键在于智能水平和由智能定义的反向硬件能力 [2][5] - 中国具身智能公司在全球竞争中拥有显著的数据供应链优势 其高质量数据采集成本可能仅为美国公司的十分之一 这构成了长期竞争的重要基础 [6] 行业现状与竞争格局 - 行业持续受资本与产业关注 但稳定落地、规模复制及成本控制仍是现实挑战 [1] - 行业处于“百团大战”式的早期阶段 类比互联网发展初期 部分友商正在疯狂烧钱 [2] - 行业正经历重要的结构性转折 从早期技术探索迈向资源密集型竞争阶段 [2] - 头部具身智能企业在算力和数据投入规模上 约为头部大语言模型创业公司的十分之一 但这一差距可能迅速缩小 [2] - 随着规模定律进一步发挥作用 行业将出现明显的格局收敛 [2] 公司融资与战略 - 星海图于2月11日完成10亿元人民币B轮融资 累计融资额近30亿元人民币 估值达百亿元 成为行业新晋“独角兽” [1] - 公司在融资节奏和支出上相对审慎 强调需保留足够资金以应对未来成本激增 [2] - 公司认为行业竞争的本质是资金使用效率 在中国具身智能公司里 谁花钱效率最高 谁就最值得获得资本投资 [2] 技术发展与商业化路径 - 具身智能的“ChatGPT时刻”不一定在一两年内很快到来 但这不妨碍商业化的率先开启 [3] - 从技术驱动角度看 当前能跑通的商业化场景需满足三个硬性边界:厘米级精度、接近人类80%的作业速度以及99%准确率 [4] - 符合上述边界的场景包括料箱搬运、物流分拣及末端配送的“最后一公里”操作 这些场景在当前产业中具有较大数量基础 [4] - 具身智能对容错率更友好 不需要达到99.99%的成功率即可落地 会“润物细无声”地进入千行百业 [4] - 应避免将资源过早投入由商务驱动的商业化 技术基础未稳时大规模市场扩张容易导致头重脚轻 [4] 商业模式与财务视角 - 面向企业端的生意在营收规模上极具潜力 向一个大客户销售数十至上百台机器人可实现数亿元人民币营收 [5] - 相比营收绝对数量 更应关注营收质量 如开机使用比例和毛利率等指标 [5] - 行业中长期的商业模式是卖“物理世界的Token” 当供应链成熟到年产10万台以上规模时 硬件成本将不再有实质性差别 [5] - 真正的长期壁垒在于两点:一是智能水平 二是由智能水平反向定义的硬件设计和生产制造能力 [5] - 硬件成本最终不会是行业比拼的关键 [5] 全球竞争与技术架构 - 中国具身智能公司拥有比硬件供应链更夸张的数据供应链优势 中国最高质量的数据采集成本可能只有美国公司的十分之一 这意味着花相同的钱可采集到10倍数量的数据 [6] - 在技术架构上 世界模型短期内更适合拥有算力与多模态积累优势的大厂推进 创业公司无需重复“造轮子” [6] - 具身智能公司真正独特、必须从零开始研发的部分是具身基础模型 即负责物理世界执行能力的视觉语言动作模型 [7] - 视觉语言模型与视觉语言动作模型是互补关系 前者负责理解与推理 后者负责行动与执行 公司需要将资源集中在物理世界智能的构建上 [7]
华为进军世界模型,重新定义人类与机器的交互边界
选股宝· 2026-01-20 22:56
公司股权变动 - 北京流形空间科技有限公司近日发生工商变更 新增华为旗下深圳哈勃科技投资合伙企业(有限合伙)等为股东 [1] - 流形空间是一家聚焦世界模型与具身智能领域的公司 [1] 行业技术发展 - 世界模型的出现意味着AI开始尝试理解世界 其核心是让AI内部构建一个可交互的世界 [1] - 世界模型需要理解物理规则 模拟未来状态 预测动作结果 [1] - 技术发展路径是从静态图像、视频生成 逐步走向多模态、带动作控制的视觉语言动作模型 [1] - 未来 能否构建“超越人类价值观”的AI系统 或将重新定义人类与机器的交互边界 [1] 相关上市公司 - 据中证报表示 相关公司有神思电子、思泰克等 [2]
AAAI 2026最新!OC-VLA:解决感知与动作的错位问题,以观测视角为中心的VLA范式
具身智能之心· 2026-01-18 17:33
文章核心观点 - 提出了一种名为Observation-Centric VLA(OC-VLA)的新范式,旨在解决视觉-语言-动作模型中感知与动作空间错位的问题 [2][3] - 该方法的核心是将机器人动作的预测目标从机器人基坐标系重新定义到第三人称相机坐标系,从而实现视觉观察与动作预测在相同空间参考系中的对齐 [5] - 实验结果表明,OC-VLA能显著提升任务成功率和模型在不同相机视角下的泛化能力,且该方法模块化,无需增加额外计算成本 [10][15][21] OC-VLA提出的背景和动机 - 现有VLA模型通常使用在相机坐标系中预训练的视觉模型,而机器人控制信号则在机器人基坐标系中定义,这种空间错位阻碍了策略的有效学习和模型迁移 [2] - 机器人数据采集视角多样且硬件配置异构,要求模型从有限的二维观测中推断出在机器人坐标系中一致的三维动作,这在大规模预训练中会引入学习冲突并阻碍泛化 [2] 核心设计与方法 - OC-VLA的核心设计是将预测目标由机械臂基座坐标系重新定义到第三人称相机坐标系中 [5] - 训练阶段:利用外参矩阵将机械臂位姿从世界坐标系转换到相机坐标系,并在此坐标系下计算机械臂动作 [6][7] - 推理阶段:将模型预测的位姿或动作从相机坐标系转换回机械臂基座坐标系,用于最终控制 [8] - 该方法完全模块化,可无缝集成至当前主流的离散token式或连续动作生成式策略模型中 [10] 实验结果 ManiSkill2仿真实验 - 在五个代表性任务上进行了测试,使用了一个包含超过4万条独特轨迹、30万个随机相机视角的数据集 [13] - 使用在相机坐标系中定义的动作作为预测目标,能显著提高任务成功率,在离散动作空间模型中成功率提高了约14% [15] - 具体数据:在连续动作空间下,使用机器人坐标系(Robot)预测的平均成功率为45.2%,而使用相机坐标系(Camera)预测的平均成功率为53.2% [16] 真实机器人平台实验 - 使用配备三台相机的Franka机械臂平台进行实验,采集了包含15个任务和8个任务的两组数据集,以评估小样本和视角扰动下的性能 [17][19] - 在固定相机位置设置下,OC-VLA(Cam Base)的平均成功率为77.5%,高于基线方法(Robot Base)的66.3% [20] - 在相机位置扰动设置下,OC-VLA的平均成功率为73.8%,高于基线方法的61.3% [20] - 实验表明OC-VLA显著增强了模型在零样本视角下的表现能力 [21] 方法扩展与应用 - OC-VLA可自然扩展到基于人类演示数据的训练范式中,通过关键点检测提取人类腕部运动轨迹并与机械臂动作空间对齐 [23] - 引入人类演示数据能进一步增强模型在多相机视角条件下的泛化能力 [23]
王鹤团队最新!解决VLA 模型缺乏精准几何信息的问题
具身智能之心· 2026-01-05 09:03
文章核心观点 - StereoVLA模型通过创新性地融合立体视觉的几何线索与语义理解,系统性解决了现有视觉-语言-动作模型在空间感知精度上的核心不足,为机器人高精度操纵提供了全新解决方案 [1] 问题根源:VLA模型空间感知的挑战 - **单模态视觉局限**:现有方案如手腕相机视野有限且易遮挡,深度传感器对透明或镜面物体噪声大,多相机配置则增加硬件复杂度且泛化性受相机姿态影响显著 [4][5] - **几何与语义融合难题**:立体视觉能提供丰富空间线索,但现有VLA模型缺乏有效机制融合几何信息与语义理解,直接输入立体图像会因视角细微差异导致性能次优 [6] 方案设计:StereoVLA的三层技术架构 - **第一层:特征提取模块** - 几何特征提取:基于FoundationStereo预训练模型,提取过滤后的代价体积作为几何特征源,通过注意力混合代价过滤模块捕捉长程空间关联,无需额外深度估计计算 [12] - 语义特征提取:利用SigLIP和DINOv2模型仅对左视角图像进行处理,获取富含语义的视觉令牌,以解决立体视觉模型语义信息不足的问题 [12] - 特征融合策略:通过空间池化统一分辨率,采用通道维度拼接方式融合几何与语义特征,生成兼具几何精度与语义丰富度的混合特征表示 [12] - **第二层:辅助训练任务** - 聚焦交互区域:将采样范围限制在通过物体2D边界框定位的夹持器与目标物体交互区域,引导模型关注关键空间细节 [12] - 度量深度预测:基于合成数据集的真实深度标签,训练模型预测交互区域内采样点的度量深度,以提升操纵精度并加速模型收敛,且不增加推理计算负担 [12] - **第三层:大规模数据支撑** - 合成数据生成:利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列,渲染立体图像对,相机参数在真实Zed Mini相机参数的5%范围内随机化 [12] - 语义增强数据:融入互联网规模接地数据集GRIT,新增2D边界框预测辅助任务以提升模型语义接地能力 [12] - 数据多样性设计:生成三种不同随机化范围的数据集,覆盖15×10×15cm至150×50×60cm的空间变化,以验证相机姿态鲁棒性 [12] 验证逻辑:全面性能验证 - **核心任务性能突破** - 通用操纵任务:在常见物体抓取/放置、立方体堆叠等任务中,成功率较基线模型提升明显 [13] - 条形物体抓取:针对0°、45°、90°三种朝向的条形物体,实现近完美抓取成功率,解决了长轴视觉重叠导致的定位难题 [13] - 中小尺寸物体抓取:在1-2cm小型物体抓取任务中,以30.0%的成功率成为唯一有效模型,其他基线模型完全失败 [13] - **相机配置对比** - 在四种主流相机配置对比中,StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著,较其他配置降低了相机姿态变化对操纵的影响 [17] - 相比前+侧面相机配置,StereoVLA在大姿态随机化场景下成功率提升157%,且部署更简洁,无需多相机校准 [17] - **核心模块消融验证** - 几何特征选择:过滤后的代价体积表现最优,较相关体积加语义特征的组合,成功率从54.0%提升至77.0% [15][18] - 语义特征作用:缺失语义特征时,模型抓取错误物体的概率显著增加,成功率平均下降20%以上 [15][18] - 深度估计策略:交互区域深度估计较全图像均匀采样,成功率提升18%,且避免了背景信息干扰 [18] 局限与未来方向 - 图像分辨率限制:当前224×224分辨率对1-2cm小型物体的语义接地与定位精度不足,需在高分辨率与计算成本间寻求平衡 [18] - 长时程依赖缺失:当前模型未捕捉长时程时间依赖,难以应对复杂连续操纵任务 [18] - 多机器人适配:验证仅基于Franka机械臂,未来需扩展至人形机器人等多具身化场景 [18] - 特征提取优化:可探索更多立体视觉基础模型的适配,以进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - 该模型的核心贡献在于首次将立体视觉系统融入VLA模型,并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破,以及对相机姿态变化的强鲁棒性,为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑 [16]
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 08:25
行业技术趋势:VLA与强化学习(RL)的深度融合 - 当前视觉-语言-动作模型在真实世界应用中面临挑战,仅依赖模仿学习的VLA在分布外场景中表现脆弱,缺乏失败恢复、自主探索与闭环纠错能力 [2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示其在分布外任务上的性能提升可达42.6% [2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善 [2] 代表性研究方向与工作 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,例如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练 [2][5] - **离线强化学习优化**:多个工作专注于通过离线RL对VLA进行后训练,以平衡信号与方差,并提升效率,例如CO-RFT采用分块离线强化学习进行高效微调 [5] - **策略优化与泛化增强**:研究通过强化学习放大机器人视觉-语言操作能力,并探索RL为VLA泛化带来的实际效益,有工作对此进行了实证研究 [5][13] 关键工具与框架发展 - **RLinf框架**:由行业专家推动的Rlinf工具,支持的方法越来越多,为VLA+RL训练提供了一个统一且高效的框架 [2][11] - **多样化训练方法**:行业出现了多种微调与后训练方法,包括使用世界模型作为虚拟环境、基于反射的任务适应、以及结合人类在环的双行动者微调等 [8][10][12] 近期(2025年)重要研究成果列举 - **2025年11月**:发布了NORA-1.5、pi0.6、WMPO、RobustVLA、World-Env等多篇重要论文,涉及世界模型策略优化、鲁棒性后训练等方向 [5][6][8][9] - **2025年10月**:推出了DeepThinkVLA以增强模型推理能力,以及多个基于流匹配策略的强化学习微调工作 [9][10][11] - **2025年9月**:研究包括自改进的具身基础模型、VLA-Critic模型用于机器人现实世界强化学习,以及简单的VLA-RL扩展训练 [11][12] - **2025年5月至6月**:工作聚焦于强化学习恢复压缩模型、轨迹组策略优化,并实证研究RL对VLA泛化的作用 [13][14] - **2025年1月至3月**:研究方向包括通过在线RL改进VLA、大规模RL微调实现卓越的机器人策略,以及VLA的安全对齐 [16][17][18]
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心· 2025-12-22 18:23
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-动作模型在真实世界开放分布场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善[2] 代表性研究方法与框架 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练[2][5] - **离线强化学习**:离线RL方法被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调,例如CO-RFT方法[5] - **工具与框架**:RLinf等工具框架正在完善,支持的方法越来越多,为VLA+RL训练提供统一高效的平台[2][11] 近期重要研究成果(2025年) - **NORA-1.5**:一种通过世界模型和基于动作的偏好奖励学习的VLA模型[5][6] - **Pi0.6**:推测结合了强化学习技术,取得了惊艳效果[2] - **GR-RL与WholebodyVLA**:近期工作显示出显著效果[2] - **WMPO**:基于世界模型的VLA策略优化方法[8][9] - **RobustVLA**:专注于鲁棒性的VLA强化学习后期训练方法[8][9] - **DeepThinkVLA**:通过增强推理能力来提升VLA模型[8][9] - **Self-Improving VLA**:通过残差RL进行数据生成以实现自我改进的VLA模型[8][9] 技术细分方向 - **后期训练与微调**:多种方法专注于VLA模型的强化学习微调,如VLA-RFT在世界模拟器中使用已验证奖励进行微调[10][11] - **策略优化与泛化**:研究探索RL如何提升VLA泛化能力,并有实证研究[13][14] - **安全与对齐**:研究开始关注VLA模型的安全对齐问题,例如SafeVLA通过约束学习实现安全对齐[16][18] - **数据生成与蒸馏**:通过强化学习进行策略蒸馏和数据生成,以创建通用且强大的机器人策略[17][18]
微软&港科对比多种迁移技术!VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验?
具身智能之心· 2025-11-16 00:03
文章核心观点 - 微软研究院与香港科技大学等团队提出的GrinningFace基准,旨在解决视觉语言动作模型如何有效继承大型视觉语言模型中丰富视觉-语义先验的核心问题 [1] - 该基准通过表情符号桌面操作任务,构建了能分离动作技能与语义识别能力的纯净测试环境,以精准诊断知识迁移效果 [2][4] - 系统实验揭示了VLM先验对VLA泛化能力的关键作用,并指出共训练、潜态动作预测等技术是实现高效知识迁移的关键方向 [7][13][19] GrinningFace基准的设计与目的 - 基准创新性地选择在VLM预训练数据中普遍存在、但机器人数据集中几乎未出现的表情符号作为核心代理,以分离“机器人动作技能”与“VLM先验知识”的贡献 [2] - 任务要求机器人手臂根据语言指令将立方体放置到对应的表情符号卡片上,指令格式为“拿起立方体并放置在 [表情描述] 上” [4] - 基准包含100个训练集表情符号和100个验证集表情符号,确保评估模型的泛化能力 [8] 评估体系与关键指标 - 采用双维度评估体系,将成功率拆分为执行成功率和识别成功率进行单独量化 [5] - 执行成功率反映机器人成功抓取立方体并放置到任意表情卡的概率,用于衡量动作技能掌握程度 [8] - 识别成功率反映机器人选择正确目标表情卡的概率,直接体现VLM先验知识的迁移效果 [8] - 设计了三类测试场景,全面覆盖分布内与分布外泛化评估 [8] 不同微调策略的性能对比 - 全参数微调适配特定任务效果好,但易发生灾难性遗忘,丢失VLM先验知识 [5] - 仅微调动作头能最大程度保留VLM先验,但动作技能学习不足,分布内场景适配差 [5] - LoRA微调能平衡先验保留与动作学习,但知识迁移提升有限,仍有优化空间 [5] 高效知识迁移的关键技术方向 - 共训练技术在VLA训练中加入视觉语言任务,在真实机器人实验中识别成功率达86.7%(26/30) [7][11] - 潜态动作预测将潜态动作作为高阶训练目标,避免模型被低阶信号干扰,识别成功率达80%(24/30) [11][13] - VLM冻结加LoRA预训练能大幅提升识别成功率超过90%,但复杂动作技能适配速度慢 [13] 实验验证与核心发现 - 真实机器人实验与仿真环境结果高度一致,验证了结论的可靠性 [11] - 注意力图谱分析揭示了“VLM先验→预训练对齐→微调优化”的递进式迁移路径 [15] - VLM先验的保留程度直接决定VLA的泛化能力,灾难性遗忘是当前技术的主要瓶颈 [19] 未来研究方向 - 优化参数高效微调技术,提升LoRA等方法的知识迁移效率 [19] - 设计更贴合真实场景的复杂任务,验证迁移技术的规模化应用能力 [19] - 探索多模态先验融合,结合触觉、语音等信息增强VLA的环境适应能力 [19]
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 16:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
阿里新研究:一统VLA和世界模型
具身智能之心· 2025-10-31 08:04
WorldVLA框架概述 - 核心创新是将视觉语言动作模型与世界模型融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出[2] - 该自回归动作世界模型通过结合动作与图像理解来预测未来图像,同时基于图像观测生成后续动作[5][6] - 实验结果显示其表现显著优于独立的动作模型与世界模型,体现二者相互增强效应[3] 技术架构设计 - 基于Chameleon模型初始化,采用三套独立分词器处理图像、文本和动作编码[9] - 图像分词器使用VQ-GAN模型,压缩比为16,码本大小8192:256×256图像生成256个token,512×512图像生成1024个token[9] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示[9] - 创新设计替代注意力掩码,使动作生成仅依赖文本和视觉输入,屏蔽之前动作影响,实现并行生成多个动作[12][13] 性能基准测试 - 在离散动作模型对比中,WorldVLA(256×256)平均成功率79.1%,优于OpenVLA的76.5%[22] - 分辨率提升至512×512时性能进一步提高,平均成功率81.8%,显示分辨率与性能正相关[22] - 在连续动作模型对比中,WorldVLA未使用预训练即超越部分预训练模型,证明架构有效性[20][22] 世界模型对动作模型的增强 - 引入世界模型后动作模型成功率从62.8%提升至78.1%,特别是在长序列任务中从23.0%提升至52.4%[26][27] - 世界模型赋予系统前瞻推演能力,通过预判动作后果优化决策,案例显示能持续尝试直到操作成功[26][28] - 环境物理理解、动作风险评估和精确动作解析是三方面主要增强机制[15][16][17] 动作模型对世界模型的提升 - 在视频生成质量上,动作世界模型在50帧序列的FVD指标从718.6优化至674.1,PSNR从23.98提升至24.30[33] - 纯世界模型出现抽屉无法拉开、物体消失等缺陷,而动作世界模型生成连贯且符合物理规律的后续状态[33] - 动作模型通过增强视觉理解能力进一步支持世界模型的视觉生成[18] 行业专家观点 - 小米汽车高级研究总监陈龙认为VLA与世界模型可结合相互促进,分别负责"抽象思考"和"物理感知"[37] - VLA与世界模型结合被视为通往具身智能的重要路径[37]
阿里新研究:统一了VLA和世界模型
36氪· 2025-10-29 18:32
模型框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 该框架旨在解决VLA模型缺乏对动作的深度理解以及世界模型无法直接生成动作的功能局限 [4] - 模型使用三套独立的分词器对图像、文本和动作进行编码,所有模态信息被离散化为token并以自回归方式训练 [6][8] 技术实现细节 - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192,256×256图像生成256个token,512×512图像生成1024个token [6] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示 [6] - 文本分词器词表大小为65536,包含8192个图像token和256个动作token [8] - 提出针对动作生成的替代注意力掩码,使当前动作生成仅依赖文本和视觉输入,可实现并行生成多个动作 [10] 性能表现与优势 - 在基准测试中,WorldVLA模型即使未经预训练,其性能也优于离散化OpenVLA模型 [12] - 512×512分辨率模型平均成功率(Average SR)达81.8%,优于256×256分辨率模型的79.1% [13] - 更高分辨率带来性能提升,归因于主干模型预训练策略及更多视觉细节信息,对高精度抓取任务尤为重要 [13][14] 模型协同效应 - 引入世界模型数据可增强动作生成能力,世界模型通过预测未来状态促使模型学习底层物理规律 [11][15] - 世界模型赋予系统前瞻推演能力,通过预判候选动作后果来优化动作选择策略,提高任务成功率 [16] - 动作模型能增强视觉理解能力,从而进一步支持世界模型的视觉生成,WorldVLA在生成长视频序列时质量显著优于纯世界模型 [11][21][22] 行业观点与应用前景 - 行业观点认为VLA与世界模型的结合是通往具身智能的答案,一个负责抽象思考,一个负责物理感知 [24] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出,体现了产学研结合的技术发展路径 [1][24]