Workflow
强化学习
icon
搜索文档
边学边练,推理觉醒:LUFFY让强化学习即学即用!
机器之心· 2025-05-05 11:40
核心观点 - 上海AI实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式LUFFY,旨在解决AI模型训练中“只学不练”和“只练不学”的两难困境 [1][2] - LUFFY通过混合使用在线推理和离线示范轨迹,实现“边学边练”的目标,在多个数学推理任务中平均提升7.0分,并在分布外任务上展现出显著泛化能力 [2][4][24] - 该方法在Hugging Face社区和alphaXiv学术论坛引起广泛关注 [5] 模仿学习与强化学习的两难困境 - 模仿学习(SFT)通过参考专家解题轨迹快速学习已知方法,但遇到新题时缺乏自主能力 [8] - 强化学习(Zero-RL)通过试错获得奖励反馈并优化策略,具备泛化能力但容易陷入局部最优 [10] - 两种方法分别存在“泛化差”和“效率低”的问题 [1] LUFFY的直觉与机制 - 关键思想是在强化学习过程中引入“离策略指导”,混合使用模型自身生成的在线推理过程和来自更强模型的离线示范轨迹 [14] - 通过“策略塑形”机制,在模型自身推理失败时从专家示范中学习关键步骤,表现优异时保持独立探索 [16] - 该机制引导模型聚焦低概率但关键的行动,实现推理能力的持续进化与泛化 [16] 技术亮点 - 混合策略训练:同时利用在线轨迹和离线示范,引导模型向高奖励动作靠拢并保留有效尝试 [18] - 策略塑形函数:通过非线性加权机制强化对关键步骤的学习,防止过早收敛并保持持续探索 [18][20] - 基于GRPO算法框架实现,提升对罕见但重要行为的梯度响应 [18][21] 实验结果 - 在AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math和OlympiadBench六个基准测试中平均准确率达49.6%,较Zero-RL方法提升+7.0分 [4][24] - 在Qwen2.5-Math-1.5B小模型上表现显著优于基线,平均得分从34.8提升至42.1 [27] - 推理路径长度优于SFT,能用更短过程达成正确答案,且在增加探索强度时性能保持稳定 [28][31] 应用前景 - 可扩展至代码生成、科学问答、自动规划等需要复杂推理的AI任务 [33] - 项目已在GitHub开源,具备复现和拓展潜力 [34]
梁文锋和杨植麟再“撞车”
虎嗅APP· 2025-05-04 16:29
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿增长近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [2] - 月之暗面同期发布形式化定理证明模型Kimina-Prover,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试成绩10道题,性能逊于DeepSeek-Prover-V2 [2] - 两家公司技术均采用强化学习方法,DeepSeek侧重子目标分解,月之暗面聚焦形式推理 [3] 公司竞争动态 - DeepSeek面临阿里巴巴开源模型追赶,市场期待其发布R2或V4模型巩固优势 [4] - 月之暗面Kimi受字节跳动豆包和腾讯元宝挑战,豆包月活5600万领先Kimi的2000万(2024年11月数据),2025年2月DeepSeek以1.94亿月活反超豆包1.16亿 [12] - 腾讯元宝通过微信引流和14亿元投流费用(一季度数据),月活达4200万超越Kimi [13] 技术路径与产品矩阵 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - DeepSeek模型矩阵同步进化:Prover系列2024年3月首发,2025年4月升级至V2;代码模型Coder迭代至V3-0324;通用推理模型R1性能比肩OpenAI o1 [8] - Prover-V2基于DeepSeek-V3微调,采用子目标分解与思维链合成技术 [9] 行业格局与挑战 - 阿里巴巴发布通义千问Qwen3,参数量为DeepSeek-R1的1/3但性能全面超越,开源模型全球下载量超3亿次 [14] - 百度推出文心4.5 Turbo和X1 Turbo,批评DeepSeek存在多模态缺失、幻觉率高、响应慢及成本高问题,但计划6月跟进开源策略 [15][16] - 行业观点认为中国需多个领先大模型而非单一明星公司,鼓励竞争推动技术发展 [14]
机器人领域新突破!顶刊《IJRR》近期重磅论文概述
机器人大讲堂· 2025-05-03 16:04
机器人学术研究前沿 - 新型低型软体旋转气动执行器采用纤维增强弹性体结构和精确分析模型,解决了传统设计体型庞大和建模不准确的问题,实验误差控制在20%以内[1][2][4] - THÖR-MAGNI数据集包含5类场景和40名参与者的多模态数据,支持长期行为预测和复杂避障交互研究,数据量达3.5小时[6][7][11][14][15][17] - FMB基准测试平台提供66种3D打印物体和22,500条人类演示轨迹,验证了多模态数据对任务成功率的提升效果[18][19][20][22][24][26] 机器人操作与控制技术 - 双臂机器人操作可变形线性物体的框架结合全局规划和局部控制,在仿真和真实实验中实现100%成功率,执行时间<60秒[27][28][30][31][34][37] - 大规模异构多机器人系统实时规划方法采用规划决策树结构,任务分配复杂度仅为O(n),在200个任务状态下规划时间仅16.4秒[38][39][40][42][43][45][47] - 强化学习双足机器人控制框架实现多技能统一控制,在Cassie机器人上完成400米冲刺和0.47米高跳等复杂动作[58][60][61][62][64] 人机交互与学习 - 学习与通信闭环框架通过多模态接口提升人机协作效能,AR+触觉方式使任务正确预测率达100%[48][50][51][53][54][55][57] - 机器人操作研究面临物理复杂性和泛化能力不足的挑战,需要兼顾复杂任务和广泛适应性的解决方案[19][28][39]
OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到
量子位· 2025-05-03 12:05
一水 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4o更新后"变谄媚"?后续技术报告来了。 OpenAI一篇新鲜出炉的认错小作文,直接引来上百万网友围观。 CEO奥特曼也做足姿态,第一时间转发小作文并表示: (新报告) 揭示了GPT-4o更新失败是因为什么,从中OpenAI学到了什么,以及我们将会采取的应对措施是什么。 概括而言,最新报告提到,大约一周前的bug原来出在了"强化学习"身上—— 上次更新 引入了一个基于用户反馈的额外奖励信号 ,即对ChatGPT的点赞或点踩。 虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。 此外,尽管还没有明确证据,但 用户记忆在某些情况下也可能加剧奉承行为的影响。 一言以蔽之,OpenAI认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得"谄媚"。 而在看到这篇报告后,目前大多数网友的反应be like: (你小汁) 认错态度不错~ 甚至有人表示,这算得上OpenAI过去几年里最详细的报告了。 具体咋回事儿?接下来一起吃瓜。 完整事件回顾 4月25日,OpenAI对GPT-4o进行了一次更新。 在官网的更新日志中,当时提到 ...
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
机器之心· 2025-05-02 12:39
当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」 (Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。 我们认为,要真正提升 GUI 智能体的能力,关键在于从「反应式」迈向「深思熟虑的推理者」(Deliberative Reasoners)。为此,浙江大学联合香港理 工大学等机构的研究者们提出了 InfiGUI-R1 ,一个基于其创新的 Actor2Reasoner 框架训练的 GUI 智能体,旨在让 AI 像人一样在行动前思考,行动后 反思。 论文标题:InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners 从「反应行动」到「深思熟虑」:GUI 智能体面临的挑战 想象一下,你让 AI Agent 帮你完成一个多步骤的手机操作,比如「预订明天下午去北京的高铁票」。一个简单的「反应行动」式 Agent 可能会按顺序点 击它认为相关的按钮,但一旦遇到预 ...
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
量子位· 2025-05-01 11:53
DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。 在普特南测试上, 新模型 DeepSeek-Prover-V2 直接把记录刷新到 49道 。 目前的 第一名 在657道题中只做出 10道 题,为Kimi与 AIME2024冠军团队Numina 合作成果 Kimina-Prover 。 而未针对定理证明优化的 DeepSeek-R1只做出 1道 。 让还没发布的R2更令人期待了。 | 657) | | --- | | (out of | | Lean | | मै | Model | num- | | | --- | --- | --- | --- | | | | solved | compute | | 1 | Kimina-Prover-7B-Distill♥ | 10 | pass@192 | | 2 | Self-play Theorem Prover♥ | 8 | pass@3200 | | 3 | Goedel-Prover-SFT♥ | 7 | pass@512 | | 4 | ABEL | 7 | pass@596 | | 5 | InternLM2.5-StepPr ...
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
机器之心· 2025-05-01 10:11
大型语言模型后训练技术综述 核心观点 - 微调和强化学习等后训练技术是提升LLM能力的关键手段,可解决幻觉、逻辑一致性不足等问题[1][5] - 强化学习通过动态反馈优化序列决策,结合LoRA、RAG等技术可提升计算效率和事实准确性[9][14] - 后训练需平衡专业化与泛化能力,面临过拟合、计算成本高、道德对齐等挑战[7][10][15] 技术方法分类 微调技术 - 监督式微调基于精选数据集更新参数,增强情绪分析、医疗诊断等特定任务能力[10] - LoRA和适配器等参数高效技术可减少90%以上计算开销,缓解过拟合问题[10][20] - 领域专业化与多功能性存在权衡,需动态调整模型深度和宽度[14][20] 强化学习优化 - 采用PPO、DPO、GRPO等算法,通过奖励模型对齐人类偏好[24][25] - 语言模型强化学习需处理高维token输出、延迟反馈和多目标平衡[11][13] - RLAIF实现部分监督自动化,但面临奖励hacking和偏差校准问题[52] 规模扩展策略 - 思维链(CoT)和思维树(ToT)框架将复杂问题分解为多步骤推理[14][44] - 检索增强生成(RAG)动态整合外部知识,提升事实准确性达30%[20] - 分布式训练框架支持千亿参数模型部署,如DeepSeek-V2(236B参数)[19][32] 主流模型对比 | 技术特征 | 代表模型 | 参数规模 | 核心创新 | |----------------|-----------------------------------|----------------|------------------------------| | MoE架构 | GPT-4/4.5、DeepSeek-V2 | 236B-1.2T | GRPO算法、动态专家网络[19] | | 单模型 | Claude 3、Gemini | 70B-340B | RLAIF对齐框架[19][25] | | 高效微调 | Llama3、Qwen2 | 8B-405B | DPO直接偏好优化[19][31] | 评估基准体系 - **推理能力**:GSM8K(8.5K数学题)、MATH(7.5K分步解)[49] - **对齐评估**:HelpSteer(37K+多属性评分)、UltraFeedback(64K指令遵循)[49] - **多语言**:CulturaX(6.3T去重数据)、PangeaIns(6M指令)[49] 未来发展方向 - 交互式强化学习需求年增长200%,需解决奖励稀疏性问题[52] - 测试时扩展技术使推理时间增加50%,需优化计算分配策略[53] - 隐私保护联邦学习成为企业数据微调新标准[53]
从论文中积累复现 R1 的 insight
理想TOP2· 2025-04-30 21:04
算法改进与优化 - GRPO算法存在响应级长度偏差和问题级难度偏差,导致生成错误响应 Dr. GRPO通过去除归一化项、采用蒙特卡罗回报估计优势等方法,有效避免优化偏差,提升令牌效率并维持推理性能 [3][4] - DAPO方法解决GRPO和PPO在大语言模型强化学习中的熵坍缩、样本效率低等问题 Clip-Higher技术提高低概率token概率提升空间,动态采样过滤无效样本,Token-Level Policy Gradient Loss优化长思维链场景训练 [6] 强化学习超参数设置 - 较大Train Batch Size(如TBS=1024)增强训练效率与稳定性 On-policy策略相比Off-policy更具优势,促进模型探索 Tollout Times增加(如n=64)提升训练效果,Rollout Temperature为1.2时性能更佳 KL惩罚系数采用动态退火策略(从KL=1×10⁻³到KL=0余弦衰减)平衡探索与稳定性 [6] 奖励机制设计 - 早期奖励规则不完善导致模型出现多种reward hacking行为 迭代完善规则设计后,要求模型按特定格式输出并构建规则式奖励系统,格式正确得1分错误得-1分,答案完全正确得2分部分错误得-1.5分 [6] - ruled-based reward相比reward model更不易受reward hacking影响 在业务没有明确答案时,建议结合ruled-based数据(如数学、编程任务)与reward model一起训练 [9] 推理能力发展特点 - 推理能力提升是渐进过程,没有明显的"顿悟时刻" 模型在训练前已具备复杂推理行为(如反思、验证),后续提升呈渐进趋势 [5][6] - 增加回答长度与推理性能提升相关但非因果关系 响应长度增加可能提供更多探索空间,但核心提升源于对有效推理步骤的优化 通常response越长准确性越低,因难题需要更长推理 [5][6] 强化学习泛化效应 - RL相比SFT更能促进泛化 在逻辑题上使用RL对数学题也有提升,表明推理可能是模型的通用能力 [7][9]
新势力 AI 大模型全对比:小鹏野心、理想务实、蔚来追赶
21世纪经济报道· 2025-04-29 20:07
行业技术趋势 - AI大模型技术正快速迭代,OpenAI发布GPT4后,Sora、o1等新模型相继诞生,推动行业技术爆发 [1] - 自动驾驶领域正从高精地图、无图技术转向端到端大模型,并进一步探索世界基座模型、VLA等更优路径 [4] - 多模态大模型成为行业新方向,车企需处理视觉、导航等多模态数据以提升物理世界理解能力 [5][15] - 规模法则(Scaling Law)在自动驾驶领域得到验证,模型参数扩大可显著降低误差 [6][7] 小鹏汽车技术布局 - 研发720亿参数超大规模自动驾驶大模型"小鹏世界基座模型",参数规模为主流车端模型的35倍 [1][5][13] - 采用"云端模型工厂"模式,全链路迭代周期平均5天一次,数据训练量达2000万clips,计划增至2亿clips [2][8][13] - 通过云端蒸馏技术将大模型压缩部署至车端,实现"小身材、大智商"的端侧模型 [12] - 搭建万卡规模算力集群,算力储备10EFLOPS,利用率超90%,数据上传效率提升22倍 [13] - 布局AI汽车、机器人、飞行汽车三大领域,计划2025年实现L3级智能驾驶落地 [13] 理想汽车技术布局 - 车端部署22亿参数MindVLA大模型,采用VLA(视觉-语言-动作)架构提升物理世界交互能力 [2][15] - 运用3D高斯泼溅技术增强3D空间理解,采用MoE架构和稀疏注意力优化车端推理效率 [16] - 引入RLHF(基于人类反馈的强化学习)对齐人类驾驶行为,提升安全底线 [17] - 计划2026年将MindVLA搭载于量产车型,首款纯电SUV理想i8将于2024年7月发布 [17] 蔚来汽车技术布局 - 发布蔚来世界模型NWM,具备全量信息理解、长时序推演和仿真能力,但尚未大规模上车 [4][18] - 通过20万台NT2.0平台车辆构建"群体智能"网络,月均采集500万+接管数据,积累超1000万高价值clips [19] - 端到端AEB功能覆盖场景提升6.7倍,每月避免7万次事故,全球首个应用端到端技术的主动安全车企 [20] 技术路径对比 - 小鹏侧重云端大模型训练+蒸馏部署,理想聚焦车端高效推理,蔚来依赖群体智能数据积累 [2][12][16][19] - 小鹏模型参数规模(720亿)远超理想(22亿)和行业主流(1-5亿) [5][13][15] - 三家公司均需解决3D空间理解、车端算力限制、极端场景应对等核心问题 [15][17] 未来发展目标 - 小鹏计划2025年实现L3级智能驾驶落地,2026年量产飞行汽车和人形机器人 [13] - 理想目标2026年量产搭载MindVLA的车型,强化"人工智能企业"定位 [17] - 蔚来聚焦安全底线,通过群体智能持续优化事故预防能力 [20]
对谈 Pokee.ai 朱哲清:强化学习做核心,Agent 的少数派造法
晚点LatePost· 2025-04-29 16:43
AI Agent技术路径 - 主流AI Agent以大语言模型(LLM)为核心大脑进行任务规划和工具调用[3] - Pokee.ai提出替代方案:强化学习模型负责任务规划执行,LLM仅作为人机交互界面[3][7] - LLM作为核心的局限:工具调用超过50个易产生幻觉,因上下文长度限制[7] - LLM方案成本高:多步交互单次消耗数百万Token,成本达几到几十美元[3] 强化学习方案优势 - 强化学习模型通过self-play训练掌握工具使用,已见过15000个工具[4][18] - 参数量更小:任务完成时间仅需几分钟,成本为同类产品的1/10[4][15] - 决策效率高:一次规划多步操作,避免LLM需反复扫描上下文的缺陷[10] - 思维模式差异:强化学习可能跳出人类思维框架,找到非传统解决方案[11][12] Pokee产品特性 - 直接调用平台数据接口:已打通Facebook/Google/Amazon等数千接口[15] - 开发新协议:简化工具调用流程,开发者只需声明输入输出和唤起方式[4][17] - 目标用户定位:先服务营销/运营等专业用户,再拓展企业客户[16][17] - 产品设计理念:最小化人工干预,支持全自动和分步确认两种模式[17] 市场竞争与行业趋势 - 预计未来一年将出现10家通用Agent公司,最终存活3-4家[19] - 强化学习技术复兴:DeepSeek R1模型验证了强化学习潜力[21] - 地域发展差异:北美开放生态更利于通用Agent发展,中国互联网较封闭[21] - 商业化路径:通过绑定用户工作流建立壁垒,技术优势需转化为使用习惯[17]