Workflow
奖励函数
icon
搜索文档
读了 40 篇 VLA+RL之后​......
具身智能之心· 2025-11-28 08:04
文章核心观点 - 强化学习在视觉语言动作模型领域的应用趋势正从监督微调转向结合强化学习,其核心价值在于提升模型在真实环境中的适应性和任务完成效率[1] - 强化学习在单一任务上已表现出色,当前最大挑战在于实现多任务间的正向迁移,以提升预训练模型的基础性能,这关系到该技术路径的上限[3] - 行业研究重点集中在解决奖励稀疏性、大规模策略网络特性以及多任务学习等关键问题上,这些方向代表了潜在的技术突破点和投资机会[5] 强化学习在VLA中的应用分类与现状 - 强化学习优化方法呈现多样化,包括在线强化学习、离线强化学习、迭代式强化学习及推理时改进等,不同方法在效果上可相互转化[1] - 行业已出现代表性算法案例:What can RL brings to VLA generalization采用在线强化学习,CoRFT采用离线强化学习,pi-star-0.6采用迭代式强化学习,V-GPS采用推理时改进[1] - 强化学习在完成单一复杂任务方面效果显著,例如pi-star-0.6模型仅需约1千条轨迹即可完成叠衣服长程任务[3] 技术部署与基础设施 - 技术部署的核心考量是真实环境的可用性,重点解决安全性与数据采集效率问题,例如SafeVLA项目专注于安全性设计[2] - 模拟环境可能发挥重大价值,存在大规模强化学习预训练的可能性,世界模型与强化学习结合的预训练模式是未来方向[2] - 强化学习基础设施成为关键支撑,RLinf、RLinf-VLA、SimpleVLA-RL等项目在基础设施方面表现突出[2] 多任务学习与技术挑战 - 多任务学习是当前最大技术挑战,目标在于实现任务间正向迁移而非相互干扰,MoRE项目采用混合专家模型应对多任务相互影响问题[3] - 强化学习能否像大语言模型中的RLVR技术那样提升预训练模型基础性能,目前仍不确定,是领域内终极问题[3] - 行业关注多任务学习能否相互促进以及在预训练规模上强化学习能否提供帮助,这些问题的答案将决定技术发展路径[3] 奖励函数设计与技术演进 - 奖励函数或价值函数的必要性存在争议,一方面能降低优化方差,另一方面随着VLA模型性能提升,对密集奖励的需求可能降低[4] - 技术演进参考大语言模型中的GRPO方法已取消批判网络,预示奖励函数设计可能趋向简化[4] - 实际应用中出现两种路径:小奖励函数如SERL中的专用神经网络,大价值函数如VLAC中的视觉语言模型级神经网络[5] 研究方向与课题机会 - 当前主要研究方向包括:奖励稀疏性问题解决方案、大规模策略网络特性研究、多任务学习核心问题[5] - 具体课题机会体现在:DSRL针对扩散模型特性设计强化学习方案,SERL-HIL利用人类干预解决奖励稀疏问题,iRe-VLA专注于稳定性解决方案[5] - 行业已积累大量技术文献,涵盖RIPT-VLA、VLA-RL、pi_RL等30余个关键技术项目,为后续研究提供丰富基础[6]
SFT的本质,其实是在优化RL目标的下界...
自动驾驶之心· 2025-10-22 08:03
核心观点 - 在稀疏奖励设定下,标准监督微调(SFT)的优化目标实际上是强化学习(RL)目标的一个(较松的)下界 [1][9] - 为收紧该下界并保持训练稳定,研究引入了一个桥梁分布q进行调节,最终得到一个重要性加权版本的SFT目标(iw SFT) [1][11] - 相比于标准SFT,iw SFT通过调整辅助分布q,能够收紧下界并隐式利用负样本信息,从而可能学习到更优的策略 [11][19][20] 理论推导:SFT与RL的联系 - RL策略梯度算法的目标是最大化期望累积奖励,即 $J(\theta)=\mathbb{E}_{p(\tau;\theta)}[R(\tau)]$ [4][5] - 通过重要性采样和对数不等式,将RL目标与参考分布π_ref联系起来,推导出在稀疏奖励(仅对优质样本奖励为1)下,SFT目标是RL目标的一个下界,即 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}[\log p(\tau;\theta)]$ [5][6][7][8] - 标准SFT的下界可能不够紧,且随着训练策略p_π与参考分布π_ref差异增大,下界会变松,影响性能 [9] 重要性加权SFT(iw SFT)的引入 - 为解决下界松弛问题,引入一个可自由设置的辅助分布q作为桥梁分布 [11] - 通过引入q,RL目标被重写,并再次应用不等式,得到重要性加权的SFT目标 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}\left[{\frac{q(\tau)}{\pi_{\mathrm{ref}}(\tau)}}\log p(\tau;\theta)\right]$ [11] - 该目标多了一个权重系数 $q(\tau)/\pi_{\mathrm{ref}}(\tau)$,通过调整q可以收紧下界 [11] 桥梁分布q的选择与约束 - 理想情况下,q应尽可能接近当前策略p_π以保证下界紧度,但又不能离参考分布π_ref太远以保证训练稳定性 [13] - 研究采用时间滞后的策略模型参数来定义q,即 $q(\tau)=p_{\pi}(\tau;\theta_{q})$,以保持与p_π接近 [13] - 为控制重要性权重方差,提出了两种约束方案:在token维度进行每步裁剪,或在轨迹维度进行平滑处理 [14][15] 示例说明与优势 - 通过一个多臂老虎机示例说明,标准SFT在均匀参考策略下学习到的策略(期望奖励5/6)并非最优(最优为1)[18][19] - 在该例中,iw SFT能自适应地为高奖励动作(拉右杆)分配更高权重,最终收敛到最优策略,隐式地恢复了负样本信息 [19][20] - iw SFT的优势在于其目标函数中包含了参考分布π_ref的信息,从而能更有效地利用数据 [20]
我们找到3位大学教授,聊了聊越来越严重的AI幻觉
36氪· 2025-07-15 11:23
AI大模型幻觉现象 - DeepSeek模型在与用户对话中虚构"向王一博道歉"事件及不存在的判决书,引发AI幻觉讨论[1] - OpenAI o3模型发布后出现幻觉率上升现象,包括捏造代码、使用无效字符等错误[1] - PersonQA基准测试显示o3模型幻觉率达33%,是o1模型(16%)的2倍,o4-mini模型高达48%[1] - 近期发布的深度思考模型呈现推理能力增强但幻觉率同步升高的规律[1] 强化学习与幻觉关联 - 艾伦研究所科学家指出o3模型幻觉源于强化学习(RL)过度优化导致的"奖励黑客"现象[2] - 斯坦福团队发现Grok3 mini最终答案正确率71.5%,但推理过程正确率仅6.0%[2] - 上海交大教授认为强化学习优化任务性能后,人类才开始关注其输出合理性[3] - 天津大学教授指出强化学习仅对最终结果奖励导致中间推理过程错误[3] - 伦敦大学教授实验显示模型为最大化奖励会走捷径,产生冗余但正确的推理[4] 奖励函数设计挑战 - 当前奖励模型多为标量形式输出,限制表达能力和场景适用性[7] - 奖励函数可分为结果级(ORM)和过程级(PRM),但PRM实现困难且数据收集成本高[4][5] - 近两年奖励函数设计领域发展缓慢,缺乏突破性进展[6] - 未来可能采用非结构化语言反馈作为奖励形式,如教练式文字评价[8] 模型推理能力本质 - 清华大学团队发现深度思考模型与基础模型在足够采样下表现无差异[11] - UC Berkeley团队提出通过token自我确定度激发模型推理能力的方法[12] - 华盛顿大学团队观察到异常奖励信号仍能提升Qwen2.5-Math的数学能力[13] - 当前训练更多形成计算量增大或激活预训练模式,而非知识层面能力[14] 未来发展前景 - 大模型需与开放复杂环境交互生成超越人类数据才能突破成长上限[6] - 逻辑推理类问题本质是NP问题的树搜索过程,神经网络可建模为求解器[17] - 专家预测奖励函数设计将逐步改善,深度强化学习技术将融入大模型训练[18] - 尽管存在局限性,大模型在逻辑推理领域仍具备超越人类的潜力[15]