VLA(视觉语言模型)
搜索文档
读了 40 篇 VLA+RL之后......
具身智能之心· 2025-11-28 08:04
文章核心观点 - 强化学习在视觉语言动作模型领域的应用趋势正从监督微调转向结合强化学习,其核心价值在于提升模型在真实环境中的适应性和任务完成效率[1] - 强化学习在单一任务上已表现出色,当前最大挑战在于实现多任务间的正向迁移,以提升预训练模型的基础性能,这关系到该技术路径的上限[3] - 行业研究重点集中在解决奖励稀疏性、大规模策略网络特性以及多任务学习等关键问题上,这些方向代表了潜在的技术突破点和投资机会[5] 强化学习在VLA中的应用分类与现状 - 强化学习优化方法呈现多样化,包括在线强化学习、离线强化学习、迭代式强化学习及推理时改进等,不同方法在效果上可相互转化[1] - 行业已出现代表性算法案例:What can RL brings to VLA generalization采用在线强化学习,CoRFT采用离线强化学习,pi-star-0.6采用迭代式强化学习,V-GPS采用推理时改进[1] - 强化学习在完成单一复杂任务方面效果显著,例如pi-star-0.6模型仅需约1千条轨迹即可完成叠衣服长程任务[3] 技术部署与基础设施 - 技术部署的核心考量是真实环境的可用性,重点解决安全性与数据采集效率问题,例如SafeVLA项目专注于安全性设计[2] - 模拟环境可能发挥重大价值,存在大规模强化学习预训练的可能性,世界模型与强化学习结合的预训练模式是未来方向[2] - 强化学习基础设施成为关键支撑,RLinf、RLinf-VLA、SimpleVLA-RL等项目在基础设施方面表现突出[2] 多任务学习与技术挑战 - 多任务学习是当前最大技术挑战,目标在于实现任务间正向迁移而非相互干扰,MoRE项目采用混合专家模型应对多任务相互影响问题[3] - 强化学习能否像大语言模型中的RLVR技术那样提升预训练模型基础性能,目前仍不确定,是领域内终极问题[3] - 行业关注多任务学习能否相互促进以及在预训练规模上强化学习能否提供帮助,这些问题的答案将决定技术发展路径[3] 奖励函数设计与技术演进 - 奖励函数或价值函数的必要性存在争议,一方面能降低优化方差,另一方面随着VLA模型性能提升,对密集奖励的需求可能降低[4] - 技术演进参考大语言模型中的GRPO方法已取消批判网络,预示奖励函数设计可能趋向简化[4] - 实际应用中出现两种路径:小奖励函数如SERL中的专用神经网络,大价值函数如VLAC中的视觉语言模型级神经网络[5] 研究方向与课题机会 - 当前主要研究方向包括:奖励稀疏性问题解决方案、大规模策略网络特性研究、多任务学习核心问题[5] - 具体课题机会体现在:DSRL针对扩散模型特性设计强化学习方案,SERL-HIL利用人类干预解决奖励稀疏问题,iRe-VLA专注于稳定性解决方案[5] - 行业已积累大量技术文献,涵盖RIPT-VLA、VLA-RL、pi_RL等30余个关键技术项目,为后续研究提供丰富基础[6]
楼天城:VLA帮不了L4
自动驾驶之心· 2025-11-16 00:04
文章核心观点 - L4级自动驾驶(Robotaxi)的技术发展已进入超越人类理解的阶段,其决策逻辑与L2级辅助驾驶有本质区别,L2模仿人类而L4必须超越人类[5][6] - 小马智行发布的第七代自动驾驶系统实现了100%车规级零部件,成本下降70%,并基于世界模型技术使安全性达到人类驾驶的10倍[8][9] - 公司认为实现L4级自动驾驶面向个人用户的时间将晚于2020年代,目前技术降维至量产车仍面临挑战,而具身智能领域正经历类似自动驾驶早期的真空期[22][24][26] 技术路线与模型应用 - 世界模型技术在机器学习领域有30年历史,小马智行已使用近6年,L4公司普遍采用强化学习模式进行技术演进[12] - 自Transformer出现后,公司开始整合从感知到执行的模块,并于2023年8月将感知、预测、规控三大模块打通为统一端到端模型,该模型在L4车辆中扮演冗余系统角色[15] - 视觉语言模型(VLA)被视为“全科大夫”,其跨领域通用性不适合L4对极端场景安全性的深度优化需求,在L4应用上帮助有限[17] 商业化与成本控制 - 小马智行Robotaxi车队已累计运行至少50万小时,覆盖市中心及高快速路场景,第七代系统的使命是实现降本与量产[29][30][33] - 降本两大里程碑为“去掉人”和“实现车规化量产硬件”,公司强调云代驾方案成本极高,相当于购买并折旧十辆普通车辆的总和,因此从未采用该逻辑[33][34] - 尽管成本下降70%,第七代Robotaxi定价将在合理范围内相对较高,公司认为AI应提供高质量服务而非追求最低价格[34] 行业发展趋势 - L2级辅助驾驶技术已逐渐“平权”,行业向L3进阶是合理趋势,但L3做法仍延续L2思路,无法渐进至L4,L4的安全及格线接近满分,L2目前远未达到该标准[19][21] - 自动驾驶被视为智能体(Agent)领域中最前沿的应用,Robotaxi是当前最好落地的场景,若无法在此领域突破则难以参与行业竞争[28] - 具身智能与机器人领域与自动驾驶存在技术通用性,但商业化需解决长尾问题,目前状态类似自动驾驶2018年阶段,需经历真空期才能衡量商业价值[23][24][26]