Vision-Language-Action(VLA)
搜索文档
在看完近50篇VLA+RL工作之后......
具身智能之心· 2025-12-14 00:02
具身智能领域技术发展综述 - 文章核心观点:梳理了近50篇视觉-语言-动作模型与强化学习相结合的研究工作,展示了该领域从2023年到2025年底的技术发展历程,主要聚焦于利用离线、在线及混合强化学习方法来微调或后训练VLA模型,以提升其在机器人操控等具身智能任务中的性能、泛化能力和安全性 [1] 离线强化学习与VLA结合 - 提出NORA-1.5模型,该模型利用世界模型和基于动作的偏好奖励进行训练 [2][4] - 提出CO-RFT方法,通过分块离线强化学习对VLA模型进行高效微调 [9] - 提出ReinboT,通过强化学习增强机器人视觉-语言操控能力 [12] - 提出Offline Actor-Critic强化学习方法,证明其可扩展至大模型 [14] - 提出Q-Transformer,通过自回归Q函数实现可扩展的离线强化学习 [18][20] - 研究平衡信号与方差,提出用于VLA流模型的自适应离线RL后训练方法 [7] - 提出Perceiver Actor-Critic架构,用于大规模离线强化学习 [17] 在线强化学习与VLA结合 - 提出WMPO方法,基于世界模型的策略优化用于VLA模型 [24][25] - 提出RobustVLA,采用鲁棒性感知的强化后训练方法 [27] - 提出World-Env,利用世界模型作为VLA后训练的虚拟环境 [29][32] - 提出DeepThinkVLA,通过在线强化学习增强VLA模型的推理能力 [31][36] - 提出Self-Improving VLA,通过残差强化学习进行数据生成的自我改进方法 [34][37] - 提出RLinf-VLA,一个统一高效的VLA+RL训练框架 [39][41][48] - 提出VLA-RFT,在世界模拟器中使用已验证奖励进行VLA强化微调 [50] - 提出通过动作分块PPO和自行为克隆进行VLA模型后训练的方法 [52] - 提出VLA-Critic模型,用于机器人现实世界强化学习 [54][56] - 提出Self-Improving Embodied Foundation Models,实现具身基础模型的自我改进 [58][60] - 提出Dual-Actor Fine-Tuning,一种人机交互的对话调整微调方法 [61] - 提出SimpleVLA-RL,通过强化学习扩展VLA训练规模 [63] - 提出RLRC,基于强化学习的压缩VLA模型恢复方法 [65] - 提出TGRPO,通过轨迹级分组相对策略优化微调VLA模型 [70] - 提出RFTF,为具身智能体提供带时序反馈的强化微调 [72] - 实证研究强化学习能为VLA泛化带来什么 [75] - 提出VLA-RL,通过可扩展强化学习实现精通且通用的机器人操控 [77] - 提出Interactive Post-Training方法,用于VLA模型 [79] - 提出SafeVLA,通过约束学习实现VLA模型的安全对齐 [81][82] - 提出GRAPE,通过偏好对齐实现机器人策略泛化 [84] - 提出通过在线强化学习改进VLA模型的方法 [86][88] - 提出RLDG,通过强化学习进行机器人通用策略蒸馏 [90][92] - 提出Policy Agnostic RL,可对任何类别和骨干网络进行离线与在线RL微调 [95] - 提出FLaRe,通过大规模强化学习微调实现精通且自适应的机器人策略 [97] 离线与在线混合强化学习与VLA结合 - 提出GR-RL,为长视野机器人操控实现灵巧与精确 [100] - 提出Discover, Learn, and Reinforce方法,利用多样化的RL生成轨迹扩展VLA预训练 [104] - 提出SRPO,用于VLA模型的自我参考策略优化 [106][108] - 提出ConRFT,通过一致性策略对VLA模型进行强化微调 [110][112] 测试时强化学习与VLA结合 - 提出通过基于模型的搜索改进预训练VLA策略的方法 [112][114] - 提出VLA-Reasoner,通过在线蒙特卡洛树搜索赋予VLA模型推理能力 [117] - 提出Hume,在VLA模型中引入系统2思维 [119] - 提出V-GPS,通过价值引导改进机器人基础模型 [121][122]
具身智能机器人:2025商业元年底色兑现,2026量产元年基色明晰
格隆汇· 2025-11-28 10:07
文章核心观点 - 2025年是具身智能机器人商业化的关键节点,头部厂商已获得亿元级订单,行业总市值突破3万亿元 [1] - 在OEM、供应链及科技巨头的协同推进下,机器替代人力的效率提升、供应链产能布局及多维技术赋能正加速产业升级 [1] - 2026年产业重点在于特斯拉Optimus的量产预期、国产整机厂的资本化加速以及数据和算力规模效应带来的根本性突破 [3][4] 2025年具身智能机器人产业实际进展 - 整机厂方面,多家头部厂商已获得超亿元订单,优必选累计订单超8亿元,智元机器人累计订单超5.2亿元,应用率先落地于科研教育、文化娱乐及数据采集工厂领域 [1] - 供应链方面,为配合特斯拉2026年量产计划,中国供应商正积极布局泰国等海外产能枢纽,覆盖丝杠、轻量化部件等核心环节 [2] - 科技巨头方面,分化成两类路径:一类如华为对标英伟达模式,聚焦芯片、算力、模型等基础设施建设;另一类如美团、京东基于自身业务场景渗透Physical AI,通过构建平台生态竞争 [2] 2026年具身智能机器人产业重点方向展望 - 特斯拉预计2026Q1发布Optimus V3,马斯克薪酬激励计划的达成目标包括累计100万台人形机器人的交付,短期量产目标波动属合理范畴,建议聚焦机器替代人力的实际进展 [3] - 国产链应重点关注整机厂,港股市场已成为“聚集地”,在“18C章”政策支持下,优必选、越疆等企业已登录港交所,具身智能产业有望迎来千亿元级别市值的整机厂标的 [3] - 具身智能模型的根本性突破取决于数据与算力的规模效应,Vision-Language-Action模型性能随数据规模提升而增强,视频生成模型对算力需求持续增强,率先拥有数据和算力资源的玩家将掌握话语权 [4] 行业板块规模与投资主线 - 截至2025年10月,基于100家企业样本,板块整体市值预计已超3万亿元,行业分布上机械、汽车、电子占据主导地位,公司市值占比分别为26%、22%、22% [7] - 板块变化体现三大主线:市值规模投资主线从“大市值→小市值→大市值”回归;产业进展催生小范围主题型投资;国产链崛起加速 [7]
VLA/VLA+触觉/VLA+RL/具身世界模型等!国内首个具身大脑+小脑算法实战教程
具身智能之心· 2025-08-14 14:00
具身智能技术发展 - 具身智能强调智能体与物理环境的交互与适应,聚焦感知、理解、执行和反馈学习能力,其核心模块为大脑(语义理解与任务规划)和小脑(高精度运动执行)[1] - 技术演进分为四个阶段:从抓取位姿检测(静态物体单步决策)→行为克隆(端到端模仿但泛化弱)→Diffusion Policy(扩散模型提升时序稳定性)→VLA模型(多模态协同实现零样本泛化)[6][7] - 2025年技术前沿探索VLA与强化学习、世界模型、触觉感知的融合,以解决"理解不反馈"、"关注当下不预测未来"等局限[8] 产业竞争格局 - 国内企业以产业链投资驱动:华为2024年建"全球具身智能产业创新中心"联合乐聚机器人等;京东2025年连续投资智元机器人等强化物流与家庭服务场景;腾讯/蚂蚁/小米通过战略合作布局生态[5] - 海外企业侧重基础研发:Tesla/Figure AI推进工业物流机器人;Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人;中美进入关键技术竞赛阶段[5] - 明星创业团队涌现:星海图、银河通用、逐际动力等从实验室走向商业化,推动本体与大小脑技术进步[3] 应用与商业化进展 - 技术落地产品涵盖人形机器人、机械臂、四足机器人,应用于工业、家居、餐饮、医疗康复等领域,融资与岗位呈爆发式增长[9] - 工程化需求激增:产业界要求从论文转向部署,需掌握Mujoco/IsaacGym等仿真平台训练、Diffusion Policy/VLA模型部署、强化学习微调等能力[24] 技术培训市场动态 - 课程体系覆盖全技术栈:包括具身仿真框架配置、Diffusion Policy/VLA/VLA+RL算法详解、触觉融合与世界模型等前沿内容[15][20] - 实践导向设计:每个模块配备实战代码(如DP3、SmolVLA)、大作业监督,目标使学员达到1-2年从业经验水平[20][30] - 受众定位明确:面向算法从业人员、转行者及在校生,要求具备Python/Pytorch基础及3090ti以上算力[13][30]