Workflow
强化学习
icon
搜索文档
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
机器之心· 2025-05-02 12:39
当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」 (Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。 我们认为,要真正提升 GUI 智能体的能力,关键在于从「反应式」迈向「深思熟虑的推理者」(Deliberative Reasoners)。为此,浙江大学联合香港理 工大学等机构的研究者们提出了 InfiGUI-R1 ,一个基于其创新的 Actor2Reasoner 框架训练的 GUI 智能体,旨在让 AI 像人一样在行动前思考,行动后 反思。 论文标题:InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners 从「反应行动」到「深思熟虑」:GUI 智能体面临的挑战 想象一下,你让 AI Agent 帮你完成一个多步骤的手机操作,比如「预订明天下午去北京的高铁票」。一个简单的「反应行动」式 Agent 可能会按顺序点 击它认为相关的按钮,但一旦遇到预 ...
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
量子位· 2025-05-01 11:53
模型性能突破 - DeepSeek-Prover-V2在普特南测试中刷新记录至49道题解答,远超当前第一名Kimi-Prover的10道题表现[2][3] - 在miniF2F测试中,671B参数的Prover-V2通过率达到88.9%,7B参数版本在非CoT模式下解决13个671B模型未能处理的问题[36][9] - 7B小模型展现出独特推理能力,在处理有限基数问题时使用Cardinal.toNat等671B模型未掌握的技巧[9][10] 技术架构创新 - 采用"形式化和非形式化数学证明统一模型"设计,整合DeepSeek-V3的高上下文窗口和自然语言推理能力[15] - 引入"子目标分解的强化学习"方法,通过递归证明搜索合成冷启动数据,使用70亿参数模型处理子目标证明[19][21] - 建立两阶段训练体系:第一阶段生成非CoT数据,第二阶段采用高精度CoT模式强化复杂问题推理能力[28][29] 训练方法论 - 采用GRPO算法进行强化学习,通过二元奖励机制(正确证明得1分)优化策略,避免使用单独裁判模型[32][33] - 监督微调数据包含两个来源:专家迭代收集的非CoT形式化验证数据,以及冷启动CoT结构化证明路径数据[31] - 对7B模型执行与671B相同的强化学习阶段,使其上下文窗口扩展至32768个token并融入非CoT证明数据[35] 行业影响与生态建设 - 推出ProverBench基准数据集,包含325个形式化数学问题(15道AIME竞赛题+310道教科书问题)[38][39] - GitHub仓库12小时内获350+星标,引发X/Twitter和Hugging Face社区热烈讨论,包括Kimina-Prover团队祝贺[51][52][59] - 普林斯顿教授评价miniF2F测试最后10%-20%问题的攻克标志着"能力重大飞跃",显示行业竞争白热化[57] 团队与研发背景 - 18人团队包含DeepSeek-V3/R1/Prover系列前作核心成员,新增清华背景研究员Shirong Ma等资深成员[42][44][45] - 采用Fire-Flyer AI-HPC架构降低训练成本,但未披露具体基础设施优化细节[48][49] - 研究延续DeepSeek-Prover系列技术路线,从V1的合成数据微调演进至V2的子目标分解强化学习[12][13][14]
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
机器之心· 2025-05-01 10:11
大型语言模型后训练技术综述 核心观点 - 微调和强化学习等后训练技术是提升LLM能力的关键手段,可解决幻觉、逻辑一致性不足等问题[1][5] - 强化学习通过动态反馈优化序列决策,结合LoRA、RAG等技术可提升计算效率和事实准确性[9][14] - 后训练需平衡专业化与泛化能力,面临过拟合、计算成本高、道德对齐等挑战[7][10][15] 技术方法分类 微调技术 - 监督式微调基于精选数据集更新参数,增强情绪分析、医疗诊断等特定任务能力[10] - LoRA和适配器等参数高效技术可减少90%以上计算开销,缓解过拟合问题[10][20] - 领域专业化与多功能性存在权衡,需动态调整模型深度和宽度[14][20] 强化学习优化 - 采用PPO、DPO、GRPO等算法,通过奖励模型对齐人类偏好[24][25] - 语言模型强化学习需处理高维token输出、延迟反馈和多目标平衡[11][13] - RLAIF实现部分监督自动化,但面临奖励hacking和偏差校准问题[52] 规模扩展策略 - 思维链(CoT)和思维树(ToT)框架将复杂问题分解为多步骤推理[14][44] - 检索增强生成(RAG)动态整合外部知识,提升事实准确性达30%[20] - 分布式训练框架支持千亿参数模型部署,如DeepSeek-V2(236B参数)[19][32] 主流模型对比 | 技术特征 | 代表模型 | 参数规模 | 核心创新 | |----------------|-----------------------------------|----------------|------------------------------| | MoE架构 | GPT-4/4.5、DeepSeek-V2 | 236B-1.2T | GRPO算法、动态专家网络[19] | | 单模型 | Claude 3、Gemini | 70B-340B | RLAIF对齐框架[19][25] | | 高效微调 | Llama3、Qwen2 | 8B-405B | DPO直接偏好优化[19][31] | 评估基准体系 - **推理能力**:GSM8K(8.5K数学题)、MATH(7.5K分步解)[49] - **对齐评估**:HelpSteer(37K+多属性评分)、UltraFeedback(64K指令遵循)[49] - **多语言**:CulturaX(6.3T去重数据)、PangeaIns(6M指令)[49] 未来发展方向 - 交互式强化学习需求年增长200%,需解决奖励稀疏性问题[52] - 测试时扩展技术使推理时间增加50%,需优化计算分配策略[53] - 隐私保护联邦学习成为企业数据微调新标准[53]
从论文中积累复现 R1 的 insight
理想TOP2· 2025-04-30 21:04
算法改进与优化 - GRPO算法存在响应级长度偏差和问题级难度偏差,导致生成错误响应 Dr. GRPO通过去除归一化项、采用蒙特卡罗回报估计优势等方法,有效避免优化偏差,提升令牌效率并维持推理性能 [3][4] - DAPO方法解决GRPO和PPO在大语言模型强化学习中的熵坍缩、样本效率低等问题 Clip-Higher技术提高低概率token概率提升空间,动态采样过滤无效样本,Token-Level Policy Gradient Loss优化长思维链场景训练 [6] 强化学习超参数设置 - 较大Train Batch Size(如TBS=1024)增强训练效率与稳定性 On-policy策略相比Off-policy更具优势,促进模型探索 Tollout Times增加(如n=64)提升训练效果,Rollout Temperature为1.2时性能更佳 KL惩罚系数采用动态退火策略(从KL=1×10⁻³到KL=0余弦衰减)平衡探索与稳定性 [6] 奖励机制设计 - 早期奖励规则不完善导致模型出现多种reward hacking行为 迭代完善规则设计后,要求模型按特定格式输出并构建规则式奖励系统,格式正确得1分错误得-1分,答案完全正确得2分部分错误得-1.5分 [6] - ruled-based reward相比reward model更不易受reward hacking影响 在业务没有明确答案时,建议结合ruled-based数据(如数学、编程任务)与reward model一起训练 [9] 推理能力发展特点 - 推理能力提升是渐进过程,没有明显的"顿悟时刻" 模型在训练前已具备复杂推理行为(如反思、验证),后续提升呈渐进趋势 [5][6] - 增加回答长度与推理性能提升相关但非因果关系 响应长度增加可能提供更多探索空间,但核心提升源于对有效推理步骤的优化 通常response越长准确性越低,因难题需要更长推理 [5][6] 强化学习泛化效应 - RL相比SFT更能促进泛化 在逻辑题上使用RL对数学题也有提升,表明推理可能是模型的通用能力 [7][9]
新势力 AI 大模型全对比:小鹏野心、理想务实、蔚来追赶
21世纪经济报道· 2025-04-29 20:07
行业技术趋势 - AI大模型技术正快速迭代,OpenAI发布GPT4后,Sora、o1等新模型相继诞生,推动行业技术爆发 [1] - 自动驾驶领域正从高精地图、无图技术转向端到端大模型,并进一步探索世界基座模型、VLA等更优路径 [4] - 多模态大模型成为行业新方向,车企需处理视觉、导航等多模态数据以提升物理世界理解能力 [5][15] - 规模法则(Scaling Law)在自动驾驶领域得到验证,模型参数扩大可显著降低误差 [6][7] 小鹏汽车技术布局 - 研发720亿参数超大规模自动驾驶大模型"小鹏世界基座模型",参数规模为主流车端模型的35倍 [1][5][13] - 采用"云端模型工厂"模式,全链路迭代周期平均5天一次,数据训练量达2000万clips,计划增至2亿clips [2][8][13] - 通过云端蒸馏技术将大模型压缩部署至车端,实现"小身材、大智商"的端侧模型 [12] - 搭建万卡规模算力集群,算力储备10EFLOPS,利用率超90%,数据上传效率提升22倍 [13] - 布局AI汽车、机器人、飞行汽车三大领域,计划2025年实现L3级智能驾驶落地 [13] 理想汽车技术布局 - 车端部署22亿参数MindVLA大模型,采用VLA(视觉-语言-动作)架构提升物理世界交互能力 [2][15] - 运用3D高斯泼溅技术增强3D空间理解,采用MoE架构和稀疏注意力优化车端推理效率 [16] - 引入RLHF(基于人类反馈的强化学习)对齐人类驾驶行为,提升安全底线 [17] - 计划2026年将MindVLA搭载于量产车型,首款纯电SUV理想i8将于2024年7月发布 [17] 蔚来汽车技术布局 - 发布蔚来世界模型NWM,具备全量信息理解、长时序推演和仿真能力,但尚未大规模上车 [4][18] - 通过20万台NT2.0平台车辆构建"群体智能"网络,月均采集500万+接管数据,积累超1000万高价值clips [19] - 端到端AEB功能覆盖场景提升6.7倍,每月避免7万次事故,全球首个应用端到端技术的主动安全车企 [20] 技术路径对比 - 小鹏侧重云端大模型训练+蒸馏部署,理想聚焦车端高效推理,蔚来依赖群体智能数据积累 [2][12][16][19] - 小鹏模型参数规模(720亿)远超理想(22亿)和行业主流(1-5亿) [5][13][15] - 三家公司均需解决3D空间理解、车端算力限制、极端场景应对等核心问题 [15][17] 未来发展目标 - 小鹏计划2025年实现L3级智能驾驶落地,2026年量产飞行汽车和人形机器人 [13] - 理想目标2026年量产搭载MindVLA的车型,强化"人工智能企业"定位 [17] - 蔚来聚焦安全底线,通过群体智能持续优化事故预防能力 [20]
对谈 Pokee.ai 朱哲清:强化学习做核心,Agent 的少数派造法
晚点LatePost· 2025-04-29 16:43
AI Agent技术路径 - 主流AI Agent以大语言模型(LLM)为核心大脑进行任务规划和工具调用[3] - Pokee.ai提出替代方案:强化学习模型负责任务规划执行,LLM仅作为人机交互界面[3][7] - LLM作为核心的局限:工具调用超过50个易产生幻觉,因上下文长度限制[7] - LLM方案成本高:多步交互单次消耗数百万Token,成本达几到几十美元[3] 强化学习方案优势 - 强化学习模型通过self-play训练掌握工具使用,已见过15000个工具[4][18] - 参数量更小:任务完成时间仅需几分钟,成本为同类产品的1/10[4][15] - 决策效率高:一次规划多步操作,避免LLM需反复扫描上下文的缺陷[10] - 思维模式差异:强化学习可能跳出人类思维框架,找到非传统解决方案[11][12] Pokee产品特性 - 直接调用平台数据接口:已打通Facebook/Google/Amazon等数千接口[15] - 开发新协议:简化工具调用流程,开发者只需声明输入输出和唤起方式[4][17] - 目标用户定位:先服务营销/运营等专业用户,再拓展企业客户[16][17] - 产品设计理念:最小化人工干预,支持全自动和分步确认两种模式[17] 市场竞争与行业趋势 - 预计未来一年将出现10家通用Agent公司,最终存活3-4家[19] - 强化学习技术复兴:DeepSeek R1模型验证了强化学习潜力[21] - 地域发展差异:北美开放生态更利于通用Agent发展,中国互联网较封闭[21] - 商业化路径:通过绑定用户工作流建立壁垒,技术优势需转化为使用习惯[17]
四个理工男“硬刚”妇科诊断推理大模型,更小参数量实现更高准确率
钛媒体APP· 2025-04-29 10:22
AI行业竞争格局 - 大厂聚焦参数升级的"军备竞赛",中小创业者深耕大厂无暇顾及的细分赛道[1] - 医疗行业被视为"数字化攻坚的最难阵地",通用大模型难以满足其高准确性和严谨性需求[1] - 越来越多的AI企业意识到细分赛道重要性,加大垂直领域行业大模型投入[1] 医疗垂直大模型必要性 - AI在医疗场景应用需专业算法和高质量数据才能达到80分以上水平[1] - 通用大模型如医学生具备广泛医学认知但缺乏临床实战经验[1] - 垂直大模型需上万例临床实践和持续学习才能成为专家级诊疗能力[2] 公司实践案例 - 壹生检康专注女性健康3年,积累丰富行业经验和庞大用户群体[4] - 通用大模型存在"幻觉"问题,特定场景无法控制其自由发挥[4] - 公司选择32B参数模型在计算资源和回复效果间取得最佳平衡[5] 模型训练过程 - 第一轮使用1400例蒸馏数据训练准确率仅50%[5] - 第二轮经医生标注后准确率提升至60%[6] - 补充600例数据解决数据失衡问题,最终准确率达77.1%[6] 模型性能对比 - 豆蔻妇科大模型整体准确率77.1%,高出DeepSeek 7%[13] - 在下腹包块诊断中准确率优势达17.1%[14] - 在月经推迟诊断中更全面考虑激素类药物影响[15] 成本优化措施 - 仅使用一张英伟达4090 GPU进行训练[16] - 最终模型参数量仅为DeepSeek R1的1/20[17] - 选择INT8量化版本对准确率影响可忽略不计[17] 应用场景规划 - toC端解决女性健康问题描述困难和病耻感问题[17] - toB端赋能基层诊所和大健康机构弥补专业资源不足[18] - 模型设计带推理过程便于专业人员评估其正确性[18] 未来发展方向 - 强化学习可使模型从垂直领域拓展到全医学领域[19] - 强化学习让模型具备解决通用问题和泛化能力[19] - 目标使模型成为既优秀又全面的医生[19]
上海车展|Momenta与六大品牌达成战略合作,累计合作量产车型超130款
观察者网· 2025-04-29 09:48
战略合作进展 - 公司与通用别克、一汽丰田、本田中国、凯迪拉克、上汽奥迪、智己六大品牌宣布进一步战略合作[1][3] - 合作量产车型数量呈现指数级增长:2022年1款、2023年8款、2024年26款[3] - 累计合作量产车型已超130款 预计未来交付增速持续加快[3] 技术产品突破 - 下半年将推出基于强化学习的Momenta R6飞轮大模型 具备模拟环境自我学习能力[5] - 智能辅助驾驶解决方案无需高精地图 已成功落地欧洲、澳新、中东、日本等市场[5] - 行业首个前装量产Robotaxi方案即将推出 通过复用硬件降低单车成本[7] 商业化落地数据 - 车型搭载量呈跨越式增长:首个10万辆耗时2年 第二个10万辆仅用半年[3] - 预计2024年5月内完成第三个近10万辆搭载[3] - 合作伙伴覆盖本田、日产、奇瑞、AUDI、大众、凯迪拉克等全球主流车企[3] Robotaxi发展规划 - 首批车端无人Robotaxi预计2025年底进入试运营[7] - 提出规模化安全标准:万辆车队需达到人类驾驶万倍安全水平[7] - 采用无图技术实现跨国道路环境快速适配[7]
小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了
量子位· 2025-04-28 11:43
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 宝可梦之后,让大模型玩 井字棋 又成了一个新的热门挑战。 起因是网友在X上吐槽大模型宝可梦玩得不够好,结果被大神 Karpathy 翻了牌子: 别盯着宝可梦了,让大模型玩井字棋会更有趣,它们不会。 结果Karpathy的话引发了大量围观,有人表示惊讶,也有人在分析原因,还有人表示那句经典的话含金量还在上升: 对人类而言很简单的任务,对机器来说反而很难;对人类而言难的任务,对机器来说反而简单。 不过也有人表示不服,其中就包括OpenAI的 Noam Brown ,他表示让o3玩井字棋完全没问题, 甚至还能看图下棋 。 大模型挑战井字棋 我们也尝试了一下,用不同的方式和o3对战。 第一种方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局输入给o3,并要求其用同样的方式输出。 思考约12秒之后,o3首先占据了棋盘中央的位置,我们落子之后,o3又思考了23秒,放置了第二颗X棋子。 接下来的两个回合情况是这样,其实当o3占据对角线上两个位置的时候就已经锁定了胜局。 不过有意思的是,直到已经连成一条线, o3都没发现自己已经赢了 。 | | | | | XOO ...
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心· 2025-04-28 09:26
大规模语言模型技术发展 - 大语言模型(LLM)正以前所未有的速度推动科技进步和产业变革,重塑人机交互方式并成为学术研究与产业创新的关键技术[3] - 2023年9月复旦大学团队发布《大规模语言模型:从理论到实践》,两年内该领域在理论研究、预训练方法、后训练技术等方面取得重要进展[6] - 大语言模型展现出惊人泛化性(仅需60条数据即可学习)但存在脆弱性(130亿参数模型中修改1个参数可能导致功能崩溃)[6] 书籍核心升级内容 - 新增40%前沿内容,深度剖析MoE、强化学习、多模态、智能体、RAG、效率优化等技术趋势[8][10] - 知识体系重构后覆盖预训练、微调、强化学习、应用开发、效率优化全流程[9] - 新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,指令微调和强化学习部分大幅修改[11] 技术体系架构 - 理论基础部分涵盖Transformer结构、LLaMA模型实例及混合专家模型(MoE)[15] - 预训练部分详解数据分布/预处理方法及DeepSpeed框架下的分布式训练技术[15] - 指令理解部分包含LoRA等高效微调方法,强化学习章节涉及PPO/RLHF算法及DeepSeek-R1等案例[15] - 能力增强部分探讨多模态架构设计、LangChain智能体实现及RAG系统协作机制[15] - 应用部署部分包含vLLM等推理框架优化技术和本地化部署实践方法[16][21] 作者团队背景 - 复旦大学NLP团队由张奇(发表200+论文)、桂韬(NeurIPS 2023最佳论文)、郑锐(NeurIPS 2024最佳论文)、黄萱菁(8项论文奖)等学者组成[24][25] - 团队在ACL/ICML/NeurIPS等顶会持续产出,研究方向覆盖预训练模型、智能体交互、多模态学习等前沿领域[25] 行业专家评价 - 中国工程院院士蒋昌俊认为该书"恰逢其时",是学术界和产业界探索LLM的必备读物[28] - 上海人工智能实验室主任周伯文指出该书系统覆盖预训练、多模态、智能体等前沿领域,具有重要参考价值[28] - 专家共识认为第二版新增内容(如RAG、智能体章节)显著提升了理论深度与实践指导性[27][28]