强化学习
搜索文档
快手Klear团队提出CE-GPPO:通过梯度保留协调熵,解决强化学习中的熵不稳定问题
机器之心· 2025-10-25 09:03
研究背景与动机 - 强化学习已成为推动语言模型在复杂推理与思维链能力上实现智能跃升的关键技术环节,相比传统的监督微调,RL通过奖励信号直接优化模型行为[2] - 行业在大规模RL实践中普遍面临模型熵失衡的核心挑战,即探索与利用的不协调,这导致模型训练不稳定和性能难以提升[3] - 策略熵的平衡是优化大模型处理复杂推理任务的核心挑战,熵坍缩会使模型输出单一化丧失探索能力,而熵爆炸会导致模型过度探索难以收敛[6] 算法创新:CE-GPPO - 公司提出CE-GPPO算法,以熵为核心视角重新审视RL中梯度裁剪机制的影响,并提出梯度保留策略,在保证训练稳定的前提下利用裁剪区间外的梯度[3] - 算法核心思想是不丢弃被裁剪token的梯度,而是有控制地保留和缩放它们,使其成为平衡探索与利用的"阀门"[11] - 通过stop gradient解耦机制对超出clip区间的token在反向传播时恢复梯度传导,并通过双系数β₁和β₂对梯度进行缩放,实现精细调控[15] - 梯度表达式显示,裁剪区间外的梯度被限制在β₁(1-ɛ)或β₂(1+ɛ)范围内,其中β₁和β₂通常接近1,从而维持训练稳定[16][17] 实验结果与性能 - 在多个数学推理基准上的实验结果显示,CE-GPPO在所有基准上均超越强基线方法,在AIME25和HMMT25等高难度任务上提升最显著[20][21] - 在1.5B模型上,CE-GPPO最佳配置平均得分达54.9,显著高于基线的45.2;在7B模型上,最佳配置平均得分达67.5,高于基线的60.8[20] - 模型规模越大,CE-GPPO带来的收益越明显,表明该方法具备扩展到更大规模模型的潜力[21] - 训练动态显示,CE-GPPO能保持稳定且中等偏高的熵水平,全程无震荡,最终收敛性能更高[21] 算法机制分析 - 超参数实验验证了CE-GPPO的可控熵调节机制:β₁较大时模型更偏向利用熵下降更快,β₂较大时模型倾向于探索熵保持在较高水平[24] - 维持相对高且稳定的熵有利于训练过程中的持续性能提升,给予PA&LP tokens更大梯度权重β₂同时给予NA&LP tokens更小权重β₁有助于维持探索能力[33] - 与CISPO和GSPO等近期RL算法相比,CE-GPPO在不同基准上取得最好结果,因其对clip区间外梯度的管理更加细粒度且样本利用率更高[35][36] - 相比传统的熵正则化和DAPO的clip-higher策略,CE-GPPO能保持平稳的熵曲线,避免性能崩溃或过度探索的问题[37]
强化学习是怎么赋能人形/四足/机械臂等本体的?学术界是怎么展开的?
具身智能之心· 2025-10-24 18:00
说到具身智能机器人,无论是人形还是四足,都离不开的一个重要任务是步态控制,这也是迈向通用具身 必须要攻克的难关。 最近社区内部有同学留言,强化学习是不是比较古老的学科,审稿人还会青睐吗? 先回答这位同学的问题,RL是个学科,但是以发展时间来判断fashionable不是很合理。最近这段时间,在 arxiv上看到了很多关于RL、RL+VLA的内容,应用在机械臂、人形等本体上。 甚至其他领域也在依靠RL来做产品优化比如自驾,可以说,RL相当重要,相关工作在顶会上出现的也比较 多。 强化学习发挥着重要作用~ 而目前主要方案即是强化学习,宇树、智元等公司的人形机器人大多通过强化学习完成对应任务,包括: 爬楼梯、爬山、跑步、跳舞、翻跟头等各类高难度动作的学习,从而赋予产品能够适应救援、测量、危险 环境的场景。 除此之外机械臂的VLA+RL方案在学术领域越来越受欢迎,RL让机器人执行的更高效、丝滑与顺畅。 但强化学习涉及内容众多,而且非常吃研究经验。体系较大、内容繁杂,很多小白根本不知道怎么入门, 发出一篇论文更是难度极大。产出一篇符合对应标准的论文需要在方法论证、实验结果、写作方式等几个 大模块上突击。哪一环节出错了, ...
有的同学还没入门具身,有的已经CCF-A!?
具身智能之心· 2025-10-24 18:00
CCF-A到CCF-C SCI一区到四区 EI/中文核心/毕业论文/申博等 还在为论文选题抓耳挠腮?被数据建模折磨到头秃?面对导师批注手足无措?别慌!具身智能之心,资深 导师团队在线 "救援",一站式解决你的论文烦恼! 论文辅导上线了 【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 ✅ 全流程闭环辅导:从选题创新点挖掘→实验设计→代码调试→论文写作→投稿策略,助你快速产出高质 量成果。 ✅ 工业界/学术界双视角:不仅发论文,更关注落地价值。 欢迎咨询 现在前10名咨询的同学,能免费匹配专属导师!来和导师进行深度 Meeting,根据你的研究方向、学术基 础,一对一深入分析,给出最适合你的会议、期刊选投建议! 更多详细内容欢迎添加微信进一步交流:AIDriver005,开启你的论文逆袭之旅~ 为什么选择我们? ✅ 顶会/顶刊导师团队:来自国内外名校的PhD及头部大厂研究员,覆盖ICML、ICLR、CoRL、ICRA、 NeurIPS、CVPR等顶级会议中稿审稿经验。 ...
现在,最会赚钱的AI是Qwen3,全球六大模型厮杀,Top 2来自中国
36氪· 2025-10-23 20:49
比赛结果与排名 - Qwen3 Max以14,438美元账户价值位列第一,收益为4,438美元,回报率+44.38% [1][9][11] - DeepSeek V3.1以12,092美元账户价值排名第二,收益为2,092美元,回报率+20.92% [9][11] - Claude 4.5 Sonnet账户价值8,780美元,亏损1,220美元,回报率-12.2% [10][11] - Grok 4账户价值8,301美元,亏损1,699美元,回报率-16.99% [10][11] - Gemini 2.5 Pro账户价值3,946美元,亏损6,054美元,回报率-60.54% [10][11] - GPT-5账户价值2,852美元,亏损7,148美元,回报率-71.48% [10][11] 比赛进程与表现 - 10月21日所有模型经历暴涨,22日凌晨集体大跌 [3] - Qwen3 Max在22日下午先后超越Grok 4和DeepSeek V3.1,首次升至第一 [7] - 23日上午Qwen3 Max再次反超DeepSeek V3.1,优势持续扩大 [3][8] - Qwen3 Max采用稳健的"快准狠"操盘策略实现逆袭 [8] - Gemini 2.5 Pro和GPT-5从比赛第二天开始持续亏损,表现稳定 [24] 交易行为分析 - Gemini 2.5 Pro交易次数达102次,GPT-5为42次,属于高频交易 [26] - Qwen3 Max交易22次,Claude 4.5 Sonnet交易12次,Grok 4交易10次,DeepSeek V3.1仅交易9次 [26] - Gemini 2.5 Pro在交易中表现出情绪化特征,类似人类交易行为 [15] 比赛规则与设置 - Alpha Arena由Nof1实验室组织,为六大模型各提供1万美元初始资金 [18] - 所有模型在Hyperliquid交易所使用相同提示词和输入数据进行交易 [20] - 模型需根据实时价格、MACD、RSI等技术指标自主做出交易决策 [20] - 比赛目标为"最大化风险调整后的收益",要求模型独立生成Alpha、决定仓位、把握时机和管理风险 [20] 行业意义与影响 - 金融市场被视为AI能力的终极试金石,是比游戏更复杂的训练环境 [29][30] - 市场环境会随AI能力提升而同步增加难度,考验模型在不确定性中的生存能力 [30] - Qwen3 Max的胜利体现了国产大模型在高风险动态金融环境中的领先实力 [32][33] - 这次比赛结果被视为AI在真实世界中生存能力的重要里程碑 [32]
晚点独家丨智谱前 COO 张帆创立元理智能完成 800 万美元种子轮,蓝驰创投领投
晚点LatePost· 2025-10-23 18:21
公司融资与创始人背景 - 企业智能体公司元理智能完成800万美元种子轮融资,由蓝驰创投领投,光源创业者基金跟投[4] - 公司由智谱AI前COO张帆创立,目标是利用商业强化学习训练数字员工,服务企业客户[4] - 创始人张帆为连续创业者,拥有机器翻译研究背景,并曾在搜狗、腾讯、妙计旅行、大搜车等公司担任重要职务[4] 技术路径与行业现状 - 强化学习在数学、编程等规则明确场景成效显著,例如OpenAI和Gemini的新模型在国际数学奥赛中达金牌水平,Cursor的代码补全模型每天处理超4亿次请求[6] - 商业情境中应用强化学习的挑战在于反馈稀疏滞后且存在大量文本之外的隐性知识,需要将其与基础模型结合以构建有效奖励机制[6] - 当前Agent to B企业主要分为三类:探索AI原生新型企业服务的初创公司、利用AI新技术升级服务的SaaS企业、以及大厂或云厂商构建的一体化服务平台[6] 商业模式与市场挑战 - 元理智能旨在以商业业务结果为导向,结合行业知识对模型进行强化学习,致力于为生产力建模,而非仅为知识建模[7] - 当前Agent to B主流交付路径是基于定制和全参数微调的固定工作流,单场景部署成本极高,且通用模型在各行业难以突破80分水平[7] - 中国企服市场因付费意愿低、账期管理难等问题,导致早期投资者较为谨慎,基金主要关注最头部的创始人和企业[7]
6800万美元,清华、北大、上海交大多位校友获奖,亚马逊AI博士奖学金公布
机器之心· 2025-10-23 15:45
亚马逊AI博士奖学金项目概况 - 亚马逊AI博士奖学金计划将资助来自九所大学的100多名博士生,研究领域包括机器学习、计算机视觉和自然语言处理 [1] - 项目将在2025–2026和2026–2027两个学年提供1000万美元资助,并每年额外提供2400万美元的AWS云计算额度,两年总计资助金额达6800万美元 [2] - 九所合作高校包括卡内基梅隆大学、约翰霍普金斯大学、麻省理工学院、斯坦福大学、加州大学伯克利分校、加州大学洛杉矶分校、伊利诺伊大学厄巴纳-香槟分校、德克萨斯大学奥斯汀分校和华盛顿大学 [1] 麻省理工学院获奖华人学者 - Jenny Huang是EECS博士生,研究兴趣包括数据驱动的机器学习、不确定性量化及高效人工智能开发 [4][6] - David Jin是计算科学与工程系博士生,研究方向为AI驱动决策系统中GPU加速的大规模优化方法,应用于机器人和能源领域 [8] - 张凇源是航空航天系博士生,本科毕业于清华大学钱学森班,研究兴趣集中在安全多智能体系统、强化学习、控制理论和机器人 [9][11] 卡内基梅隆大学获奖华人学者 - Yuxiao Qu致力于开发能像科学家一样提出假设、进行实验并得出结论的AI系统,以推动科学研究、药物发现和数字辅助领域 [14] - 王丹青专注于提高LLM智能体在复杂现实环境中的可靠性和安全性,通过建立基准评估方法、整合安全性与功能性训练 [15][17] - 吴梦迪本科毕业于清华大学姚班,利用机器学习自动适应计算内核优化策略,旨在跨平台提供高性能内核并加速模型训练推理 [18][20] - Xinyu Yang致力于简化端到端训练系统来扩展AI智能体,引入新生成模型架构实现多智能体工作流程 [21][23] - Zeji Yi研究将生成模型应用于通用机器人平台,为人形机器人基础模型铺平道路,潜在应用包括仓库自动化和配送中心 [24][26][27] - Zichun Yu专注于解决LLM有机数据有限的挑战,通过设计和优化合成数据生成系统提升预训练数据质量 [28][30] - Xinran Zhao研究增强RAG系统,提高在复杂检索增强生成场景中的意识、归因和有效性 [31][33] 加州大学伯克利分校获奖华人学者 - Dacheng Li研究目标是高效开发人工智能和人工世界,从事视觉文本生成模型与分布式系统交叉领域研究 [34][36] - Hao Wang研究通过受控安全推理实现安全代码生成,专注于安全、软件工程和LLM的交叉领域 [37][39] - Melissa Pan研究方向是将可持续性作为大规模机器学习和数据中心系统的首要优化目标,同时关注效率 [40][42] - 曹诗怡研究方向为在大规模异构系统上加速优化计算,特别是机器学习工作负载 [43][45] - Shuo Yang研究方向是高效的机器学习,包括LLM推理和DiT视频生成 [46][48] 德克萨斯大学奥斯汀分校获奖华人学者 - Haoyu Li研究重点是利用AI技术提升现代系统性能和可用性,关注数据分析流程、LLM缓存管理及边缘计算调度 [49][51] - Junbo Li主要研究方向是agentic大语言模型和强化学习,构建能自我演进、解释指令并利用外部工具解决复杂问题的流程 [52][54][55] - Kaizhao Liang研究方向包括高效训练方法、稀疏神经网络以及大语言模型 [56][58] - Zeping Liu研究重点是推进地理空间人工智能,关注地理基础模型和空间表征学习,已发表14篇论文 [59][61] - 徐浩然工作重点是扩展强化学习方法并整合生成式AI,以推动超越人类的通用人工智能,特别是在机器人技术和大语言模型领域 [62][64] - Chutong Yang对理论计算机科学和可信机器学习中的算法设计分析有广泛兴趣,包括学习理论、算法公平性等问题 [65][67] - Xiao Zhang研究重点是网络化和分布式系统,目前重点是通过跨层遥测和资源管理实现5G边缘可预测的AI性能 [68][69]
Qwen 3 Max领跑“AI投资实战赛”:阿里通义千问在Alpha Arena跑赢GPT-5与Gemini
经济观察网· 2025-10-23 15:27
由美国研究实验室nof1.ai发起的"Alpha Arena"AI投资实战竞赛,吸引多家全球主流大模型参赛,正成为观察AI自主交易能力的一场"公开测试"。 目前,阿里旗下Qwen3Max暂列收益榜首。其投资路径显示,该模型能够在高频市场反馈中持续自我优化,通过实时强化学习调整策略,使收益曲线呈现出 稳定上行趋势。业内分析人士指出,这种基于反馈信号的自适应机制,是强化学习在量化投资场景中的典型体现。 与其他五款模型相比,Qwen3Max在策略上更注重机会捕捉与风险平衡。其在市场波动期快速介入、严格止损,保持较低风险敞口。而Gemini2.5Pro与GPT-5 的策略则相对激进,杠杆倍数较高,因入场时机偏差导致亏损超过50%。 Qwen3Max在交易行为上表现出高效与稳健的平衡:共完成8次交易,频率高于平均水平;平均持仓时间约7小时,反映出较强的短期响应能力。收益率从早 期的8.43%提升至13.41%,实现稳定增长并有效控制回撤。同期比特币持有策略仅录得1.45%收益,Qwen3Max显著跑赢市场。 从整体表现来看,DeepSeek V3.1Chat与Grok-4走势较为接近,初期出现亏损后迅速回升;GPT-5 ...
“今年最火的20家机器人,我只投中5家”
投中网· 2025-10-23 14:30
将投中网设为"星标⭐",第一时间收获最新推送 为什么非得赌冠军呢? 作者丨 刘燕秋 来源丨 投中网 本期 《 Blue hour 》 请 来一位 AI 投 资 人,英 诺 天使基金合伙人王晟。今年世界机器人大会 发 布 " 中国最具投 资 价 值 机器人公司 TOP20" ,榜 单 上,有 5 家是他在第一 轮 投 资 的 项 目:加速 进 化、松延 动 力、自 变 量机器人、千 诀 科技、 动 易科技。按目前估 值 来看,两个 项 目有小几十倍的收益,两个 项 目有 10 倍的收益。 细 究一番,投中那几家公司的 逻辑 不太一 样 。如果 说 投偏本体的公司是基于 战术 —— 人形机器人原本不在他的 规 划 里,是 马 斯克和黄仁 勋 制造了 风 口,此 时 需要的是快速反 应 ,跟上形 势 的能力。那么在早期抓住自 变 量和千 诀 科 技 则 更多靠的是 战 略 —— 这 两家,一个做具身大 脑 ,一个走类 脑 路径,敢出手得从通 盘 的 产业 布局出 发 , 对 智 能 发 展的大方向做出 预 判。 也不是没有 遗 憾,比如投得 还 不够多。王晟的反思是,如果几家公司未来都有很大潜力, 为 什么非得 选 ...
阿里国际Marco获WMT机器翻译大赛六项冠军,英中赛道超GPT-4.1与Gemini 2.5 Pro等巨头
财经网· 2025-10-23 13:56
阿里国际的Marco-MT模型参加的是WMT竞赛中难度更高的受限赛道。相比于非受限赛道,受限赛道不 仅要求模型能够处理文学、新闻、社交媒体等多样化内容,还需严格遵守仅使用开源数据和开源模型, 且模型规模不超过20B的限制条件。 图:Marco-MT-Algharb和Claude-4, GPT-4, DeepSeekV3等其他知名模型的重点语向人工评测分数对比 近日,2025年国际机器翻译大赛WMT (Conference on Machine Translation) 宣布最终排名,阿里国际AI Business的翻译大模型Marco-MT-Algharb斩获6项冠军,4项亚军和2项季军。 其中,在最受关注的英中语向上,Marco-MT超越了Gemini 2.5 Pro、GPT-4.1、Claude 4和Mistral- Medium等所有顶尖闭源AI系统,登顶榜首。WMT的人工评测被视为机器翻译领域的"黄金标准",这也 标志着Marco-MT从电商行业翻译迈向通用翻译的领先行列。 图:Marco-MT-Algharb在WMT2025拿下6项冠军,在英译中等语向表现超过人工翻译 作为全球机器翻译领域的顶级赛事 ...
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
量子位· 2025-10-23 13:18
ExGRPO团队 投稿 量子位 | 公众号 QbitAI 大模型在强化学习过程中,终于知道什么经验更宝贵了! 来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了 一套经验管理和学习框架ExGRPO —— 通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。 实验结果显示,与传统的在线策略RLVR (基于可验证奖励的强化学习) 方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。 尤其在一些极具挑战性的任务 (如AIME数学竞赛题) 上,提升效果更为明显,证明了ExGRPO在攻克复杂推理难题上的有效性。 而且该研究也揭示了一些有趣的现象,比如滚雪球效应。 不过在展开之前,我们先来回答一个核心问题—— 大模型推理的下一步,为什么我们需要"经验驱动"的训练方法? 2025年初以来,赋能大模型推理能力的技术路线以基于可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards) 为 主导。 简单来说,就是让模型像个学生一样,不断地"刷题" (生成推理步骤) ,然后由"判卷老师" ...