Workflow
强化学习范式
icon
搜索文档
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
自动驾驶之心· 2025-10-01 00:04
文章核心观点 - 视觉-语言-动作模型代表了机器人学和具身智能领域的重要演进方向,旨在通过统一框架整合感知、语言理解和动作生成,以克服传统机器人系统在动态和非结构化环境中泛化能力不足的局限性 [1][10] - 该综述系统性地总结了纯VLA方法的研究现状,提出了基于动作生成策略的清晰分类体系,包括自回归、扩散、强化学习以及混合与特定领域方法四大范式,并梳理了相关的数据集、仿真平台和硬件资源 [7][9] - VLA模型的发展高度依赖高质量、大规模的多模态数据集和逼真的仿真器,资源如Open X-Embodiment整合了来自21个机构的22个机器人数据集,涵盖超过160,000个任务,显著加速了该领域的研究进程 [15] - 尽管VLA模型展现出通向通用具身智能的巨大潜力,但在可扩展性、泛化性、推理速度、安全性以及现实部署方面仍面临一系列关键挑战,未来的研究方向需要聚焦于数据局限性、效率优化和鲁棒性提升 [16][31][46] 背景介绍 - 传统机器人系统依赖于预编程指令、人工设计的控制策略或任务特定的强化学习方法,在受限环境中表现良好,但难以适应动态和非结构化环境 [10] - 从单模态建模到多模态整合是技术发展的自然轨迹,视觉Transformer和大语言模型等基础模型的突破为VLA模型的出现奠定了方法学和工程基础 [11][12] - VLA模型通过提供一个统一框架,将语言与感知相结合并直接映射为可执行的动作序列,从而闭合感知-语言-动作的循环,是迈向通用具身智能的重要一步 [10][13] - 通用具身智能的实现不仅依赖于认知处理,还需要物理身体、环境感知与反馈机制的协同,VLA模型正朝着这一愿景演进,并展现出在多样化机器人平台上执行广泛任务的潜力 [16] VLA方法分类:自回归范式 - 自回归范式是VLA研究中经典而有效的序列生成方法,通过将动作序列视为时间相关过程,在给定上下文条件下逐步生成动作token,其代表性模型包括Gato、RT-1/RT-2和PaLM-E等 [18][21] - 该类方法的关键创新方向包括通用型智能体构建、与大语言模型结合的语义规划与推理能力增强、轨迹生成与视觉对齐建模,以及旨在提升实时控制效率的结构优化与高效推理机制 [21][23][26][29] - 自回归模型通过在可扩展的Transformer架构中统一多模态感知、语言推理与序列化动作生成,推动了通用智能体的发展,但其局限性在于误差累积、推理时延以及对大规模计算和数据资源的高需求 [31] VLA方法分类:扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题,通过条件去噪过程生成多样化的合理动作轨迹,在几何一致性、多任务泛化和自然语言接口方面展现出优势 [32][36] - 该范式的核心维度包括基础的动作生成建模、与Transformer结合的多模态架构融合,以及面向实际应用场景的优化与部署策略,代表性工作有Diffusion Policy、Dita和TinyVLA等 [34][37][39] - 扩散式VLA的研究正从实验室原型向真实世界部署过渡,趋势是结合轻量化设计、认知启发式架构和运行时鲁棒性机制,以平衡性能、效率与安全性,但其在动态环境中保持时间一致性方面仍较脆弱 [39][43][46] VLA方法分类:强化学习范式 - 基于强化学习的VLA方法通过引入视觉与语言信号来生成可迁移的奖励代理,并结合离线与在线学习策略以稳定策略优化,提升了在交互式动态环境中的决策能力 [48][51] - 该类方法已成功应用于机械臂操作、四足机器人导航、人形机器人全身控制以及自动驾驶等多个领域,例如SafeVLA引入了安全约束机制,NaVILA和LeVERB则针对特定机器人形态进行了适配 [49][50][52] - 强化学习微调策略增强了VLA模型的泛化能力和安全性,但其挑战在于奖励工程可能依赖噪声信号、训练稳定性问题以及在高维真实环境中部署时的高计算开销 [53] VLA方法分类:混合与特定领域方法 - 混合架构通过策略性地结合自回归、扩散和强化学习等多种范式,以发挥各自在连续动作生成、离散推理和环境适应性方面的互补优势,例如HybridVLA统一了扩散轨迹生成和自回归推理 [56][57] - 高级多模态融合研究从简单的特征拼接转向显式建模几何约束、空间关系和物体可供性,例如CLIPort和3D-VLA等工作显著提升了VLA模型在复杂3D场景中的空间落地性和动作生成可靠性 [58][59] - VLA框架展现出强大的领域适配性,已被扩展至自动驾驶、人形机器人控制、图形用户界面交互乃至安全关键系统等特定场景,这验证了其核心原则的普适性,但也带来了过拟合和领域特定挑战 [60][61][67] 数据集与基准测试 - VLA模型的发展极度依赖于高质量、大规模的多模态数据集,这些资源可分为真实世界采集和仿真环境生成两大类,例如Open X-Embodiment数据集整合了超过100万条轨迹,覆盖160,266项技能 [70][71] - 真实世界数据集如BridgeData、RT-1和RH20T等,提供了多模态观测与语言指令对齐的交互数据,但由于采集成本高昂,其规模性和任务多样性仍面临限制 [72][74] - 仿真平台如MuJoCo、Isaac Gym和CARLA等,提供了可扩展的虚拟环境,能够生成包含动作轨迹、物体状态和自然语言指令的多模态标注数据,有效缓解了真实机器人数据稀缺性问题,加速了模型训练与评估 [15][71]
记者观察:大模型行业应集各家所长打通最后一公里
证券时报网· 2025-07-29 15:32
行业协同创新趋势 - 大模型行业出现同行相互站台、彼此助力的现象,商汤科技、阶跃星辰、第四范式、智谱等公司负责人齐聚论坛共同探讨协同创新 [1] - 行业围绕"模型之问"核心议题,重点讨论如何打通"算力-数据-模型-应用"的最后一公里 [1] - 大模型发展范式从OpenAI开创的预训练为主转向显著提升推理能力的强化学习范式 [1] 技术发展方向 - 降低推理成本成为决定大模型应用渗透率的关键因素 [1] - 阶跃星辰提出"多开好省"四大黄金法则:"多"指多模态,"开"代表开源,"好"是性能好,"省"强调节省成本 [1] - 近半年行业技术路线发生明显转变,从预训练为主转向强化学习范式 [1] 产业链合作模式 - 模型厂商与芯片厂商通过联合创新实现大模型和算力双向价值最大化 [2] - 阶跃星辰联合近10家芯片厂商和算力平台发起"模芯生态创新联盟",从底层提升模型适配性和算力应用效率 [2] - 智谱建议建立联盟组织共享沉淀数据,为实际应用提供充足"弹药" [2] 平台建设进展 - 无问芯穹建设上海首个人工智能终端软硬适配优化中试平台,聚焦共性技术难题解决 [2] - 该平台将形成覆盖计算效能、功能实现和交互体验的完整评价体系 [2] - 平台目标是打造可持续盈利的投资收益型中试平台 [2] 商业模式创新 - 阶跃星辰提出大模型时代应有AI总集成商,整合算力、算法、语料数据、智能体等要素 [2] - 行业需要让各公司发挥专长形成协同合力,打通技术创新到产业应用的最后一公里 [3]
AI三问③模型之问 | 直面模型之问,以大爱共塑 AI 未来 ——WAIC 2025 大模型论坛以问题破局引领技术革新
36氪· 2025-07-17 11:21
2025世界人工智能大会(WAIC)核心内容 - 2025年7月26日至28日在上海世博中心等地举办 聚焦"AI三问"框架:数学之问(公理推演)、科学之问(实证研究)、模型之问(技术落地) 三者协同推动跨领域创新 [3] - 商汤科技承办7月27日"大爱无疆・模塑未来"大模型论坛 贯穿"模型之问"主题 聚集全球专家探讨模型本质难题 [3] 跨国界技术交流亮点 - 活动打造跨国界跨架构交流平台 聚焦"泛化性瓶颈与模型底层范式关联"问题 分析架构设计固有局限 探索技术突破路径 [4] - 汇集全球顶尖企业技术专家与高校学者 促进不同技术路线智慧碰撞 为解决大模型技术瓶颈提供多元视角 [4] 架构革新与产业应用 - 探索Transformer与非Transformer架构融合路径 研究跨模态智能的语义鸿沟问题 优化文本/图像等多模态融合技术 [5] - 直击"性能-开销曲线优化"痛点 研究降低训练能耗同时保持性能的方案 重点关注轻量化架构与非Transformer可能性 [5] - 学术界探讨推理时扩展架构性能边界 产业界展示工程化优化方案 促进理论研究与产业实践互动 [5] 全球技术共识与发展方向 - 产学研领袖共同探讨高阶智能实现障碍 分析复杂推理/自主决策等认知短板成因 形成包含中国智慧的技术方案 [6] - 海内外专家围绕算力优化/跨模态语义破解等议题凝聚共识 推动AI从技术竞争转向协同破题的新模式 [6] 大会配套内容 - 推出首份刊物《WAIC UP!》定位为"AI时代进化指南" 汇集跨领域先锋力量探讨技术跃迁与未来文明 [7][8][10]