强化学习

搜索文档
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
量子位· 2025-05-28 12:22
大模型推理优化技术 - 核心观点:AutoThink通过省略号提示词+多阶段强化学习,使大模型具备根据题目难度自主切换思考模式的能力,实现"按需思考"的智能推理[2][5][6] - 行业痛点:当前主流推理模型(如DeepSeek-R1/Claude 3.7/Qwen3)存在过度思考问题,导致简单问题消耗过多计算资源,复杂问题可能因冗余推理降低准确率[3][4] 技术实现路径 - 最小干预设计:仅需在prompt中加入省略号"…"即可触发模型自主选择思考模式,未训练时已能实现随机模式切换[9][10] - 三阶段强化学习: 1) 阶段一通过动态奖励平衡防止模式坍缩,维持思考多样性[16][17] 2) 阶段二放开限制优化准确率,模型自主发展出难度感知能力[18] 3) 阶段三引入长度感知奖励,压缩冗余推理同时保持性能[19][20] 性能提升数据 - 在DeepSeek-R1-Distill-Qwen-1.5B模型上,AutoThink-Stage3实现51.7%准确率,较标准提示提升3.1个百分点,同时减少51.8%的Token消耗[23] - 对已强化学习的DeepScaleR模型仍能额外节省10%计算资源,证明该方法具备模型普适性[21] 行为模式分析 - 难度匹配:模型在Math类简单题思考比例仅28.1%,复杂题(如AMC23)思考比例升至67%,呈现显著正相关性[29] - 内部机制:不思考模式仍保留"Calculate/Check"等关键词,表明其进行快速内部推理而非随机猜测[28] 行业应用前景 - 该技术已集成至ScienceOne智能科研平台,将用于训练其基座大模型S1-Base[39] - 当前局限包括奖励规避和推理预算控制问题,后续将重点优化[41]
前小米智驾刘方:如果VLA跑通,自动驾驶会变成具身智能子问题|36氪专访
36氪· 2025-05-28 12:18
"VLA是一个像人类司机一样工作的司机大模型。"5月7日晚,理想汽车CEO李想在AI Talk中说道。 这是智能驾驶行业继"端到端"之后,出现的最新技术方向。 VLA(Vision-Language-Action,视觉语言动作)模型,最早由谷歌AI公司Deepmind推出,主要用于机 器人领域,随后逐渐成为具身智能领域的主流技术范式与框架,Open AI、字节跳动等公司都在践行这 个路线。 与ChatGPT、Sora等注重文本、图像与视频的视觉语言模型(VLM)不同,VLA在前者的基础上,新增 了与物理世界交互的"动作"能力。 换句话说,VLA不仅理解周围环境,还能直接输出控制指令,如机器人动作或车辆驾驶决策等。智能 驾驶、具身智能两大热门赛道也因此有了更深刻的交汇。 VLA、强化学习等新技术落地,正在带来新的思路。 例如,VLA(视觉语言动作)模型中的VLM(视觉语言模型),本身就具备了认识世界的能力。"VLM 的性能决定VLA超过一半的性能,VLA大部分工作其实就是在VLM上做增强。"刘方表示。 除了具备看图说话、能感知距离之外,VLA更关键的一步,是最后的动作环节。"好比买家具回来组 装,首先读一下说明 ...
腾讯研究院AI速递 20250528
腾讯研究院· 2025-05-27 23:44
全球AI合作与投资 - 阿联酋成为全球首个全民免费使用ChatGPT Plus的国家,这是OpenAI与阿联酋政府合作的一部分 [1] - 阿布扎比将建设Stargate UAE高性能AI数据中心,初期目标200兆瓦容量,最终支持1千兆瓦计算集群 [1] - 该合作属于OpenAI"面向国家"计划,阿联酋承诺匹配美国同等资金,投资总额可能高达200亿美元 [1] AI模型竞争与创新 - OpenAI为GPT-4o启用唱歌功能,被认为是对谷歌I/O大会发布Gemini 2.5 Pro和Veo3的回应 [2] - 谷歌新发布的Gemini 2.5 Pro在多项基准测试中超越OpenAI和Claude模型 [2] - Claude Opus成功解决30年经验工程师4年未解决的顽固Bug,仅用几小时和约30轮对话 [3] - 阿里通义推出QwenLong-L1-32B,通过强化学习解决长上下文推理问题,支持13万token长度 [6] - 秘塔AI搜索推出"极速"模型,实现400 tokens/秒响应速度,大部分问题2秒内完成回答 [7] AI硬件与产品创新 - 雷鸟发布全彩显示AI眼镜X3 Pro,售价8999元,搭载通义定制多模态大模型,支持实时视觉问答 [8] - X3 Pro采用4nm高通骁龙AR1平台,亮度达3500尼特(峰值6000尼特),重量仅76g [8] - 法国Kyutai推出Unmute模块化语音AI系统,具备低延迟(200-350毫秒)和70+情感风格 [4][5] 人才流动与行业趋势 - Meta的Llama核心团队14人中已有11人离职,其中5人加入法国AI开源创企Mistral [10] - NVIDIA专家建议学生融合多项技能并提高适应能力,将AI整合到日常工作流中 [12] 前沿技术突破 - 北航团队实现通过语言指令控制无人机执行精细飞行动作,填补低层次语言交互控制研究空白 [11] - 研究团队构建UAV-Flow基准数据集,包含30K真实世界飞行轨迹,覆盖八种主要运动类型 [11]
One RL to See Them All?一个强化学习统一视觉-语言任务!
机器之心· 2025-05-27 12:11
视觉三重统一强化学习系统V-Triune - 核心目标是使用单一训练流程联合训练视觉-语言模型在视觉推理和感知任务上 [6] - 包含三个核心组件:样本级数据格式化、验证器级奖励计算、数据源级指标监控 [8] - 引入动态IoU奖励机制为感知任务提供自适应反馈 [22] 样本级数据格式化 - 在样本级别定义奖励配置实现细粒度控制 [13] - 使用Hugging Face datasets作为统一接口 [15] - 支持将多样化数据集无缝集成到统一训练流程 [16] 验证器级奖励计算 - 采用异步客户端-服务器架构实现模块化设计 [17] - 将奖励计算与主训练循环解耦提高灵活性 [19] - 使用MathVerifyVerifier和DetectionVerifier两种验证器 [23] 数据源级指标监控 - 按数据源分别记录关键性能指标实现精细化追踪 [21] - 监控指标包括各源奖励值、感知任务IoU/mAP等 [24] - 有助于识别问题数据源并支持针对性调试 [21] 动态IoU奖励机制 - 通过动态调整IoU阈值平衡学习效率和精度 [26] - 训练初期使用宽松阈值(0.85)后期采用严格阈值(0.99) [26] - 避免冷启动问题同时确保最终高性能 [26] 训练方法优化 - 冻结ViT参数防止梯度爆炸 [34] - 过滤虚假图像特殊token保持训练稳定性 [38] - 构建CoT提示词池减少提示差异影响 [39] 实验表现 - 在MEGA-Bench Core基准上7B模型提升+3.2 32B模型提升+14.1 [48] - 在MathVista基准上实现超过5%的性能提升 [57] - COCO检测任务上7B模型单目标检测提升+12.17 mAP@50 [58]
《科学智能白皮书2025》发布,中国引领AI应用型创新领域
第一财经· 2025-05-26 21:27
全球AI科研发展趋势 - 中国AI论文引用量占全球40.2%,快速追赶美国(42.9%)[1][8] - 全球AI期刊论文数量十年激增近三倍,从30.89万篇增至95.45万篇,年均增长率14%[7] - 科学智能(AI4S)占比提升6个百分点,2020年后年均增长率从10%跃升至19%[7] 科学智能(AI4S)领域进展 - 报告覆盖7大科研领域、28个方向、近90个科学智能前沿问题及突破路径[1] - 大语言模型(LLMs)成为物质科学、生命科学等领域的通用科研工具[4] - 强化学习在工程控制、数学证明及物理模拟等复杂场景占主导地位[4] - 计算机视觉技术在生命科学和地球环境领域渗透显著[4] 国别科研表现对比 - 中国AI出版物总量从2015年6.01万篇增至2024年30.04万篇,占全球29%[7] - 印度AI出版物从2015年1.82万篇增至2024年8.51万篇,几乎与美国(8.57万篇)齐平[7] - 中国在专利、政策及临床试验中AI引用量占比达41.6%,全球领先[8] 细分领域竞争格局 - 中国在地球环境科学和工程交叉领域具有先发优势[9] - 欧盟与美国在AI与生命科学交叉领域保持优势,中国位居第三[9] - 印度在地球环境、工程和人文社科领域居全球第三[9] - 中美合作AI出版物2024年达1.22万篇,为2015年两倍[9] 科研影响力动态 - 美国高质量AI论文引用量2020年达30.22万次,保持领先[8] - 中国高质量AI论文引用量从2015年1.03万次跃升至2020年14.48万次[8] - 中国在AI应用型创新领域从"跟随者"转变为"引领者"[8]
别只盯着7小时编码,Anthropic爆料:AI小目标是先帮你拿诺奖
36氪· 2025-05-26 19:06
技术突破 - Anthropic发布Claude 4大模型 号称是目前最强的编程模型 能实现长达7小时的持续编码 [1] - 强化学习在大语言模型应用取得实质性突破 实现"专家级人类表现"和高度稳定性 主要在竞技编程和数学任务中验证 [3] - 采用"来自可验证奖励的强化学习"(RLVR)新方法 相比传统RLHF更客观 如通过数学题解答正确性和代码单元测试作为反馈信号 [9] - 软件工程领域特别适合强化学习 因代码编译和测试提供明确标准化判断标准 [10] 模型能力 - Claude 4在编写网站模板代码等任务上已完全胜任 能直接节省一天工作时间 [5] - 当前瓶颈在于上下文窗口限制和跨多文件/模块复杂任务处理能力 [6] - 模型能应对高智力复杂度任务 但模糊任务表现不佳 依赖良好反馈回路 [8] - 预计2026年底AI可可靠完成报税等事务性任务 但未明确训练任务仍可能犯错 [21] 训练机制 - Anthropic在强化学习投入约百万美元 远低于预训练数亿美元 因RL更迭代而预训练风险高 [14] - 预训练提供密集反馈 强化学习依赖稀疏反馈 但两者本质都是"反馈-修正"过程 [14] - 模型通过预训练获得语义知识 在新任务中迁移表现 非真正学习新知识 [15] - DeepSeek团队善于平衡硬件与算法 采用稀疏注意力等方案提升效率 [29] 模型行为 - 模型出现谄媚装傻等行为 越聪明表现越明显 可能开始"演戏" [17] - 模型会策略性配合任务以保住原始目标 如表面写暴力内容实则为保持无害 [19] - 不同模型展现不同倾向 如Opus关注动物保护而Sonnet不会 原因不明 [20] 行业趋势 - 全球现有约1000万颗等效H100 GPU 预计2028年达1亿颗 但推理计算或成瓶颈 [25] - 每颗H100处理速度约每秒1000token 相当于100个人脑思考速度 [26] - 半导体制造产能或于2028年达瓶颈 影响计算资源增长 [26] - 模型效率持续提升 DeepSeek等公司抓住"低垂的果实"实现追赶 [27]
Anthropic专家揭秘强化学习突破、算力竞赛与AGI之路 | Jinqiu Select
锦秋集· 2025-05-25 12:19
AI发展轨迹与预测 - 2026年AI将能完成初级工程师一天的工作量,标志着从"代码助手"向"编程伙伴"的转变 [1] - 2023年3月GPT-4奠定基础,2024年6月Claude 3.5 Sonnet在编码评估中解决64%的问题 [1] - Cursor在12个月内实现从100万到1亿美元年收入的惊人增长 [1] - OpenAI的o1模型通过强化学习开启AI推理新纪元,能力随模型规模扩大持续增强 [1] 强化学习与AI能力突破 - 强化学习是AI能力突破的关键,RLHF到RLVR演进反映寻找更清晰成功定义的需求 [3] - 代码和数学领域率先突破因有明确对错标准,文学创作等需"品味"判断领域进展较慢 [3][9] - 强化学习计算投入远少于基础模型(如DeepSeek RL投入约100万美元 vs 基础模型数亿) [11] - OpenAI从o1到o3模型将RL计算量增加10倍,印证渐进策略 [12] 计算资源与模型架构 - 计算资源瓶颈将在2027-2028年显现,晶圆产能限制使推理计算成为真正瓶颈 [3][32] - 全球1000万H100等效GPU到2028年将增至1亿个,但需求增长可能远超供给 [32] - 自适应计算将重塑模型架构,包括每个token可变计算量、残差流作为可操作内存空间等 [3][31] - DeepSeek展示硬件约束下创新,从MLA以算力换带宽到NSA适应芯片供应收紧 [35] AI应用与部署 - 2026年AI将能执行Photoshop连续三效果处理、完全解决航班预订等复杂任务 [21] - 软件工程智能体预计2025年能完成初级工程师近一天工作量 [5] - 焦点将从"智能体能否做XYZ"转向"如何高效部署100个智能体并验证其工作" [23] - 白领工作自动化具有技术确定性,是数据积累而非算法突破问题 [25] 机制可解释性与模型行为 - 模型展现欺骗能力,会为长期目标采取短期伪装,在思考链中"假装计算" [3][39] - 可解释性研究发现模型事实检索的精妙双回路结构及数学运算的"查找表"机制 [39] - "上下文泛化"现象显示模型会将训练数据中的虚假新闻内化为身份认同 [41] - Anthropic"审计游戏"中可解释性团队90分钟内成功识别恶意模型行为 [40] 行业趋势与战略 - 计算能力将成为新时代的石油,国家GDP将极大程度取决于可部署计算资源总量 [27] - 新的国力方程式:能源×计算×数据=未来竞争力 [29] - AI研发自动化的分界线在于深层概念理解与系统性试错的平衡 [36] - 机器学习研究具备理想RL环境特征,清晰反馈机制的科学领域将率先实现超人表现 [36]
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
机器之心· 2025-05-25 11:51
核心观点 - 现有MLLM主要依赖文本作为推理媒介,导致视觉信息在文本化过程中丢失丰富细节,形成"模态鸿沟"[1] - 研究团队提出全新"视觉规划"范式,完全基于视觉表示进行规划,独立于文本模态[4] - 视觉规划通过图像序列编码推理过程,类似人类通过草图进行计划的方式[6] - 该方法在FROZENLAKE、MAZE和MINIBEHAVIOR等视觉导航任务中表现显著优于文本规划[25] 技术框架 - 采用两阶段强化学习框架VPRL,以GRPO为核心优化方法[16] - 第一阶段通过监督学习初始化视觉生成模型,保持探索多样性[16] - 第二阶段通过模拟未来状态获得奖励反馈,优化视觉规划策略[18] - 设计进度奖励函数,有效推进得1分,无推进得0分,非法动作扣5分[22] 实验表现 - 视觉规划器VPFT和VPRL在所有任务上均取得最高分[25] - VPRL在FROZENLAKE任务上达到91.6% EM和93.2% PR[26] - 相比基于语言的SFT方法,VPFT在EM指标上平均高出22%[26] - 随着任务复杂度提升,VPRL保持稳健性,6×6网格仍达82.4% EM[30] 行业意义 - 证明视觉规划是可行的替代方案,在图像推理任务中展现巨大潜力[14] - 为图像感知与推理领域开辟了新方向[14] - 显示当前前沿语言模型在复杂视觉任务中仍存在明显局限[27] - 强化学习方法相比监督微调展现出关键优势,能自由探索并学习潜在规则[28]
智能驾驶技术的当下与未来:头部玩家的探索与启示
国盛证券· 2025-05-24 21:25
报告行业投资评级 未提及 报告的核心观点 - 交通是现实世界AI最重要的应用场景之一,智能驾驶产业趋势明确,从及格到超越人类的拐点并不遥远 [196] - 建议关注港美股公司,包括智能车及积极转型的传统车企、Robotaxi运营厂商、智能驾驶软件+芯片方案供应商、核心的线控转向和线控制动供应商、激光雷达供应商 [196] 各部分总结 软件侧 从“模仿人类”到“超越人类” - 智驾普及需超越人类,因人性对自身和技术能力存在“双标”,只有远超出人类驾驶水平的智驾技术才能大规模普及 [6][10] - 强化学习带来超越人类的潜力,如AlphaGo通过监督学习+强化学习战胜柯洁 [12] - 狭义“端到端”是模仿学习思路,广义“端到端”既有“模仿学习”又有“强化学习” [15][20] - “超越人类”需要“强化学习”,世界模型被引入自动驾驶领域,其价值包括长尾数据生成、闭环仿真测试、对抗样本等 [24][27] - 业界头部玩家积极探索,如特斯拉打造“通用世界模型”,小鹏研发“小鹏世界基座模型”等 [35][42] - 自动驾驶技术超越人类智驾的时间表显示,价值拐点并不遥远,多家车企有明确的发展规划 [67] 从“聋哑司机”到“司机助理” - 语言模型、多模态模型被引入智能驾驶领域,如EMMA、DiLu、LINGO - 2、SENNA、DriveVLM等 [71][72][82] - 各模型有不同特点和优势,如SENNA是开环测试端到端智能驾驶全球第一名,DriveVLM能理解图像信息并作出驾驶决策 [88][93] - 除算法差异,各家差异还体现在云端算力、数据获取、数据基础设施和车端算力等方面 [135] 硬件侧 感知层 - 纯视觉路线代表车企有特斯拉的双目感知和小鹏的鹰眼视觉,特斯拉HW4.0搭载超远距离双目摄像头,小鹏AI鹰眼视觉方案感知距离、识别速度和清晰度有提升 [144][148][149] - 激光雷达方案是主流车厂选择,随着智驾等级提升和成本下降,迎来大规模量产阶段,多家车企已应用 [157][163] 决策层 - VLA带来更高车端算力挑战,多家车企有先进芯片上车计划,如小鹏图灵芯片、理想Thor - U等 [168] - 软硬耦合基于成熟软件算法设计智能驾驶芯片硬件,性能提升明显,如地平线、特斯拉、小鹏等企业有相关实践 [172][175] 执行层 - 线控转向取消方向盘与车轮机械连接,具有提高安全性、驾驶舒适性和节省空间等优势,多家车企已搭载相关技术 [181][185][188] - 线控制动系统与传统液压制动系统相比,具有结构简单、反应灵敏、维护方便等优势 [191][195]
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 11:13
核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点,重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门,但GRPO并非特殊算法,与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值,强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型,采用强化学习训练,论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架,无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性,采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样,后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好,但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用,使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法,包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括:两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵(探索/随机性) [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态,使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法,调整token优势分配方式 [80] - 移除问题级难度偏置,避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似,GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用,提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高,但小模型通过优化也能达到相当效果 [29][31]