智能体强化学习 - 财报，业绩电话会，研报，新闻

智能体强化学习

搜索文档

机器之心· 2026-03-03 10:55

研究背景与核心突破 - 字节跳动与清华大学的研究团队开发了名为CUDA Agent的AI模型，该模型能够编写并优化CUDA内核，其核心突破在于将优化目标从代码正确性转向硬件性能，通过强化学习直接基于GPU的实际运行速度进行训练[1][6][7] - 此前，GPT、Claude等大模型生成的CUDA代码仅能保证“正确”，但无法实现深度优化，CUDA Agent解决了这一痛点，其性能在简单/中等内核上比torch.compile高出2倍，在复杂内核上高出约92%，即使在最难的设置下也比Claude Opus 4.5和Gemini 3 Pro高出约40%[2][5] 技术方法与系统设计 - 该研究构建了一个大规模的智能体强化学习系统，包含三个核心部分：可扩展的数据合成机制、一个集成技能增强且具备可靠验证与性能分析能力的CUDA开发环境，以及用于稳定长上下文训练的强化学习算法技术[12] - 数据合成通过三阶段管线完成：从torch和transformers中挖掘种子算子，基于LLM进行组合式合成（最多采样5个算子），并通过执行结果筛选，最终构建了包含6000条训练样本的CUDA-Agent-Ops-6K数据集[14][16] - 智能体环境采用ReAct风格的工作流，支持迭代式的编码-编译-调试循环以及基于性能分析器的优化过程，训练流程采用分阶段设计，包括单轮PPO预热、actor/critic初始化和完整的多轮强化学习，以稳定长时序任务[17][19][22] 性能评估结果 - 在KernelBench基准测试中，CUDA Agent取得了SOTA成绩：在Level-1、Level-2和Level-3三个划分上，相比torch.compile的加速比例（faster rate）分别达到100%、100%和92%[10] - 整体来看，CUDA Agent的通过率为98.8%，相对于torch.compile的加速达成率为96.8%，几何平均加速比为2.11倍；相对于原生Eager模式的几何平均加速比为2.60倍[25] - 在最高难度的Level-3任务上，CUDA Agent相对于torch.compile的加速达成率达到90%，相比最强的专有基线（Claude Opus 4.5的50%）高出约40个百分点；在Level-2的算子序列任务上，其加速达成率达到100%，几何平均加速比达到2.80倍[26] 行业影响与未来展望 - 该技术证明了大型语言模型可以通过基于硬件反馈的强化学习，掌握极高门槛的“硬件直觉”，有望打破传统编译器（如torch.compile或Triton）的优化瓶颈[29] - 研究团队认为，一条通向全自动、高度性能优化计算基础设施的道路正在出现[30]

智能体强化学习

CUDA内核优化

Artificial Intelligence

Artificial Intelligence

CUDA Agent

torch.compile

CUDA-Agent-Ops-6K

MiniMax新模型比肩海外头部，国产大模型开启“月更”

南方都市报· 2026-02-14 17:28

公司产品发布与性能 - MiniMax于2月13日发布最新M2.5大模型，该模型提升了智能体任务处理速度，且调用价格远低于同等级产品 [1] - M2.5完成任务的平均耗时从上一版本M2.1的31.3分钟缩短至22.8分钟，速度提升37% [1] - M2.5的任务处理耗时（22.8分钟）与Anthropic同期发布的Claude Opus 4.6模型（22.9分钟）基本持平 [1] - 在编程任务上，M2.5在BridgeBench测试中的得分仅比Opus 4.6低0.4分，但调用价格仅为后者的1/8 [1] - M2.5上线后在AI模型API聚合平台OpenRouter上的日调用量超过1000亿token，跻身平台榜单前十 [2] 产品定价与市场反馈 - M2.5定价极具竞争力，在每秒输出100个token的情况下，连续工作一小时仅需1美元；每秒输出50个token则需0.3美元 [1] - 1万美元的预算可支持4个智能体连续工作一年，公司称M2.5提供了“经济上几乎无限制地构建和运营Agent的可能性” [1] - 硅谷风投Menlo Ventures合伙人评价M2.5“超便宜，非常适合编程” [2] - 云端编程智能体平台OpenHands评价当前API模型市场是“两强争霸”，Opus代表最高能力上限，M2.5则以更低成本提供较高能力 [2] 产品应用场景与能力 - M2.5在需要长时间运行的任务上表现突出，例如从零开始构建应用程序 [2] - 除编程外，M2.5在Word、PPT、Excel金融建模等办公高阶场景的能力也取得显著提升 [2] - 公司前期与金融、法律、社会科学等领域的资深从业者深度合作，将行业隐性知识带入模型训练流程 [2] 技术进展与迭代节奏 - 在过去100多天内，MiniMax保持近乎“每月一更”的节奏，陆续推出了M2、M2.1和M2.5版本 [3] - 从编程基准测试SWE-Bench Verified的成绩看，M2系列模型的性能提升速度比Claude、GPT和Gemini等模型系列更为显著 [3] - 公司将模型能力的持续跃升归因于大规模强化学习，特别是围绕Agent RL（智能体强化学习）框架和算法搭建的完整技术体系 [3] 行业竞争态势 - M2.5的发布是国产大模型公司在春节前夕集中“交卷”的最新案例 [3] - 近期行业动态包括：字节跳动视频生成模型Seedance2.0接入豆包和即梦产品；智谱上线旗舰新模型GLM-5，同样主打编程能力；DeepSeek开始测试最高100万Token的上下文长度 [3] - 国产大模型集体“上新”引爆“AI春节档”，令全球AI竞赛更加白热化 [3]

大模型

智能体强化学习

Artificial Intelligence

Artificial Intelligence

MiniMax M2.5

GLM - 5

Claude Opus 4.6

NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT：仅30个样本教会大模型高效推理，token消耗降低50%

机器之心· 2025-11-12 21:23

文章核心观点 - 联合研究团队提出名为CoRT的后训练框架，旨在教会大型语言模型高效利用代码工具进行推理，以解决其在精确数学计算中效率低下和易出错的问题[2][3] - CoRT框架通过创新的数据合成策略和多阶段训练流程，显著提升了模型的数学推理能力和效率，实现了性能与效率的双重飞跃[3][8][20] 方法核心 - CoRT框架核心思想是通过高质量数据和精细化训练，重塑模型与工具的交互模式，使其从低效的“验证”思维转向高效的“计算”思维[8] - 框架采用从“数据冷启动”到“智能体调优”的三步走策略，包括提示工程、多阶段训练流程和强化学习[8][9][13] 数据合成策略 - 研究团队提出名为“提示工程”的全新数据合成策略，在推理路径关键决策点策略性注入引导性提示以纠正模型低效行为[9] - 当模型试图手动进行复杂计算时，提示“用python代码来简化推理”引导其立即计算[10] - 当模型得到代码结果后试图手动验证时，提示“不需要怀疑python计算的准确性”打消其结果不信任[11] - 该方法遵循数据质量重于数量原则，仅手动标注30个高质量样本就为后续训练奠定坚实基础[11] 多阶段训练流程 - 监督微调阶段使用30个“提示工程”样本进行初步微调，让模型快速学习高效交互的基本模式[13] - 拒绝采样微调阶段自动过滤存在不良行为的轨迹，只保留优质轨迹用于进一步训练[13] - 强化学习阶段将模型视为智能体，通过奖励函数让模型在与代码解释器环境的交互中自主学习最优工具使用策略[13] 性能与效率成果 - CoRT为DeepSeek-R1-32B带来4%的绝对精度提升，为1.5B模型带来高达8%的绝对提升[20] - 与纯自然语言推理基线模型相比，CoRT将32B模型的token消耗降低约30%，1.5B模型降低50%[20] - 传统方法中模型将代码用于“验证”占比68.2%，CoRT成功将模型行为转变为以“计算”为核心占比51.1%[20] - 在未见过化学问题测试中，CoRT训练模型能自发使用未在训练中出现过的专业工具库RDKit，使用率高达81.3%[20] 行业意义与展望 - CoRT框架为解决大型语言模型在精确推理领域的短板提供了高样本效率、高计算效率的全新路径[16] - 该工作展示了构建更强大、更可靠、更经济的AI智能体系统的巨大潜力[17] - 为AI在科学发现、教育辅助、工程设计等需要精确推理领域的落地应用扫清了障碍[17]

AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！

机器之心· 2025-11-01 12:22

算法核心创新 - 提出AEPO算法，旨在解决多轮智能体强化学习中探索与稳定性的平衡问题[11] - 系统性揭示了现有熵驱动方法存在的两大问题：高熵Rollout采样坍缩和高熵梯度裁剪[8][11] - 设计两大核心机制：动态熵平衡Rollout采样与熵平衡策略优化[11][16] 技术机制细节 - 动态熵平衡Rollout采样通过熵预监测和连续分支惩罚实现探索预算的自适应分配[16][21][27] - 熵预监测基于信息增益理论，根据问题与工具的不确定性动态调整全局采样与分支采样的预算比例[16][17][27] - 连续高熵分支惩罚机制通过动态分支概率避免单一轨迹过度分支，实验显示AEPO可覆盖全部8条预算轨迹，而ARPO仅覆盖2-3条[21][26] - 熵平衡策略优化引入梯度停止操作和熵感知优势估计，保护高熵token的梯度不被裁剪[22][25][28] - 熵感知优势估计融合准确率优势和熵优势，引导模型优先学习高价值探索行为，其中熵优势权重α设为0.3[28][31] 性能表现与实验结果 - 在14个跨领域基准上显著优于七种主流强化学习算法[4][12][29] - 在深度搜索任务中表现突出：GAIA的Pass@5达65.0%，Humanity's Last Exam达26.0%，WebWalkerQA达70.0%[4][30] - 在Qwen3-14B模型上，AEPO在深度搜索任务Pass@1达47.6%，Pass@5达65.0%[30][36] - 在计算推理任务中，AEPO在Llama3.1-8B基座上平均准确率达56.3%，在Owen2.5-7B基座上达60.1%，均优于对比算法[33] - AEPO在Pass@1上较ARPO平均提升3.9%，在Pass@5上平均提升5.8%[36] - 训练稳定性显著提升，熵损失全程维持高位且稳定，解决了ARPO在训练后期的熵波动问题[35][37] 行业影响与认可度 - 该研究由中国人民大学高瓴人工智能学院与快手Klear语言大模型团队联合提出[2][40] - 在X平台获得极高关注度，Github仓库已获星标700余枚，并荣登Huggingface Paper日榜第二名[6] - 算法代码、开源数据及模型已在Github和Huggingface平台公开[10]

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

机器之心· 2025-10-14 07:56

文章核心观点 - 阿里高德提出Tree-GRPO方法，通过将链式采样改造为智能体步骤级树搜索，解决Agentic RL中Rollout预算高和奖励信号稀疏两大痛点 [2] - 该方法在相同预算下通过共享前缀、一次扩展多个分支获得更丰富的有效轨迹，并能仅凭最终奖励回溯出过程级偏好信号 [2] - 在11个知识密集型任务中，Tree-GRPO显著优于链式RL方法，在Qwen2.5-1.5b模型上多跳问答性能提升69%，且能在1/4预算下超越基线 [2][15] Agentic RL的技术瓶颈 - 现有方法面临高昂的Rollout预算，多回合交互轨迹包含成千上万Token和多次工具调用，链式采样冗余高且外部工具费用不菲 [12] - 多轮长轨迹的监督信号稀疏，仅能依赖最终奖励评估整条轨迹，难以定位具体步骤的贡献，导致训练信号未同比增加 [12] Tree-GRPO方法原理 - 以智能体步骤为树节点单位进行搜索，每个节点对应完整的思考、行动、观察步骤，采用先初始化M条轨迹后扩张N个节点的策略 [8] - 通过重复扩张步骤L次，在既定预算下获得分散在多棵树中的反应轨迹，提升采样效率 [8] - 基于树结构能够从叶节点奖励差值回溯出步骤级偏好目标，形式与离线DPO优化目标一致 [10][11] 实验性能表现 - 在Qwen2.5-1.5b模型上，Tree-GRPO多跳问答平均得分19.1，较GRPO基线的11.3提升69%；单跳问答平均得分47.5，较基线43.4提升9.5% [15] - 在Qwen2.5-3b模型上，多跳问答平均得分36.8，较基线31.8提升16%；单跳问答平均得分50.0，较基线48.1提升4.0% [15] - 在Llama3.2-3b模型上，多跳问答平均得分36.8，较基线26.7提升38%；单跳问答平均得分50.0，较基线48.7提升2.7% [15] 预算效率优势 - 在预算受限情况下（每提示2条轨迹），Tree-based方法多跳问答平均得分31.6，较Chain-based的14.9提升112% [19] - 仅用1/4预算时，Tree-GRPO取得36.8分，优于Chain-based方法33.9分，证明其高效性 [19] - 在不同预算设定下（2/4/8/16条轨迹），Tree-based方法均稳定优于Chain-based方法 [19] 技术应用前景 - 树搜索方法能激发模型学习更多轮交互次数，对复杂Agent任务具有重要意义 [19] - 该方法为Agentic RL提供了探索与利用权衡的新思路，动态调整权重可进一步优化学习效果 [24]