可验证强化学习(RLVR)
搜索文档
港股异动丨迈富时大涨超18%,9个交易日累计涨幅超40%,股价创近3个月新高
格隆汇· 2026-01-12 12:53
港股AI应用板块市场表现 - 迈富时(2556.HK)股价单日大幅上涨超18% [1] - 迈富时股价在9个交易日内累计涨幅超40%,报45.88港元,创近3个月新高 [1] - 迈富时总市值达到117.5亿港元 [1] 行业趋势与会议观点 - 清华大学基础模型北京市重点实验室发起AGI-Next前沿峰会,引发业界关注 [1] - 行业观点认为大模型竞争已从“Chat”转向“Agent”阶段,重心从榜单分数位移至真实环境的复杂任务执行 [1] - 行业预判2026年为商业价值落地元年 [1] - 技术路径正向可验证强化学习(RLVR)演进 [1] 迈富时公司业务与产品 - 迈富时是GEO(生成式引擎优化)全链路AI解决方案标杆 [1] - 公司是全球领先的AI应用平台,累计服务超20万家企业 [1] - 公司前瞻性布局GEO领域并形成技术闭环 [1] - 公司依托自研AI-Agentforce 2.0智能体中台与Tforce营销大模型,推出GEO智能助手及工作台 [1] - 公司构建“内容投喂-模型交互-效果追踪”全流程服务链路,可精准识别品牌在AI生态中的可见度并提供优化建议 [1]
中国“AI四巨头”罕见同台,阿里、腾讯、Kimi与智谱“论剑”:大模型的下一步与中国反超的可能性
硬AI· 2026-01-11 19:12
行业竞争阶段与范式演进 - 大模型竞争已从“Chat”阶段转向“Agent”阶段,重心从榜单分数位移至真实环境的复杂任务执行[2] - 行业预判2026年为商业价值落地元年,技术路径正向可验证强化学习演进[2] - AI的核心价值正从“提供信息”转向“交付生产力”[4] - Agent的瓶颈在于环境反馈,未来训练范式将从人工标注转向可验证强化学习[5] - 高质量数据即将枯竭,未来竞争是“能源转化效率”的竞赛,需通过二阶优化器和线性架构实现更高的Token效率[5] 中美竞争格局与反超概率 - 行业领军者对中国在引领新范式上反超的胜率评估为不超过20%[2][5][6] - 中国在旧范式上的反超胜率很高,但在引领新范式上的胜率较低[5] - 中美在算力投入结构上存在本质差距:美国算力可能比中国大1-2个数量级,且大量投向“下一代研究”,而中国算力更多被交付与产品化占据[11] - 反超机会窗口在于:当Scaling Law遭遇边际效应递减,全球进入“智能效率”竞赛时,中国的节俭式创新可能突围;以及2026年前后可能出现由学术驱动的范式转向[5] 中国AI发展的关键约束与挑战 - 面临三道关键门槛:算力瓶颈、toB市场与国际商业环境、文化与组织的冒险程度[10] - 中国最缺的是对不确定性的容忍度,真正的反超取决于是否敢于将资源投向可能失败但能定义未来的新范式,而非仅在旧赛道刷榜[5][9] - toB市场面临挑战,国内付费文化与企业侧采用速度会影响“把技术变成现金流”的能力[10] - 在toC应用形态上可能做到极致,但toB需要发展自己的“协作与落地体系”来弥合AI与企业流程之间的gap[22][24] 技术路径与架构创新 - 可验证强化学习的难点在于可验证场景正在逐渐耗尽,需扩展到半自动甚至不可验证的任务空间[40] - 线性注意力架构是重要方向,例如kimi Linear架构能在长程任务上比全注意力机制效果更好,且端到端速度有6到10倍优势[116] - 使用二阶优化器可实现约2倍的Token效率提升,相当于用50%的数据达到一样的Test Loss,或用一样的数据获得更低的Loss[110][112] - 未来模型需解决在强化Agent能力的同时避免损害通用能力的问题[62] - 原生多模态、记忆与持续学习、反思与自我认知能力是未来的关键突破方向[68][70][73] 公司实践与进展 - 智谱AI通过构建真实编程环境作为强化学习反馈源,结合SFT数据进行双向优化,提升了模型在真实交互中的稳定性[49] - 智谱AI开发了全异步强化学习训练框架,使不同任务能够并行运行、动态收敛,并已完成开源[51] - Kimi的K2模型是中国第一个Agent模型,可完成两三百步的工具调用,在HLE基准上达到45%的准确率,比OpenAI更高[114] - 通义千问在2025年致力于打造通用智能体,其Qwen3-Max模型在SWE-bench上达到70分,总体能力排在前五[149][152] - 通义千问的多模态模型在语言智力上已能与235B的语言模型持平,解决了多模态模型通常“变笨”的问题[153][160] 市场分化与未来方向 - 市场出现明显分化:toC和toB路径不同,垂直整合与模型应用分层路径也不同[179] - 对于toC,大部分用户不需要用到极强的智能,体验类似搜索引擎加强版;对于toB,智能越高代表生产力越高,价值越大[182][184] - 在toB市场,用户愿意为最强模型支付高溢价,导致强的模型和稍弱的模型分化越来越明显[185][186] - 未来AI将走向数字智能体和具身智能体,操作GUI与API,并可能进入物理世界[171] - 2026年的重点方向包括:继续Scaling已知与未知路径、推进全新模型架构解决超长上下文与高效知识压缩、发展多模态感统能力、以及AI for Science的突破[98][99][100][101]
SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能
机器之心· 2025-11-08 12:02
文章核心观点 - 研究团队提出一种名为SimKO的新算法,旨在解决现有可验证强化学习方法在提升大型语言模型pass@1性能时导致pass@K性能下降的问题 [4] - 该算法通过非对称梯度调节策略,有效平衡模型对单一正确答案的“利用”能力与对多样化正确答案的“探索”能力,从而同时优化pass@1和pass@K性能 [17][21] 问题识别与分析 - 现有RLVR算法导致模型输出概率分布“过度集中”,即概率质量过度汇聚于单一的推理路径,牺牲了对多样化正确解的探索能力 [3][12][13] - 传统指标“熵”无法精确描述模型对不同推理路径的真实探索程度,因为相同熵值的分布可能具有截然不同的形态 [8][9] - 研究团队引入新分析指标,发现RLVR训练存在系统性偏差:持续强化排名第一候选词的概率,同时显著抑制其他排名较低的正确路径 [11][12] SimKO算法机制 - 算法核心是对探索token施加非对称更新策略,在正确路径上实现概率平滑,在错误路径上施加精准惩罚 [17] - 首先识别推理路径中具有高熵的关键节点token,更新策略仅应用于这些节点 [18] - 对于正确路径,实施top-K标签平滑策略,将奖励均匀分配给关键节点处概率最高的top-K个候选token [20][23] - 对于错误路径,进行非对称惩罚:对排名第一的错误候选施加显著更强惩罚,对其他排名错误候选降低惩罚强度 [20][23] 实验性能评估 - 在MATH500、AIME 2024/25等多个数学推理基准上,SimKO在Qwen2.5-Math-7B模型上相比GRPO方法,pass@1提升1.7个百分点至43.4%,pass@256提升4.4个百分点至80.5% [22] - 在Qwen2.5-7B模型上,SimKO相比GRPO在pass@1和pass@256分别提升0.5和2.0个百分点 [22] - 在Llama3.2-3B-Instruct模型上,SimKO相比GRPO在pass@1和pass@256分别提升0.7和1.3个百分点 [22] - 在逻辑推理任务中,SimKO在分布内任务上相比GRPO的pass@1提升31.6%,pass@128提升26.3%;在分布外任务上pass@1提升16%,pass@128性能达92% [24][27] 算法有效性验证 - 学习动态追踪显示,传统GRPO方法导致排名第一候选词概率迅速收敛至接近1,而其他排名候选概率降至极低水平(10⁻⁸至10⁻¹⁰) [26] - SimKO有效缓解概率集中问题,其排名第一候选词概率显著低于GRPO,同时为其他排名候选保留了更高概率质量 [26] - 概率过度集中问题与pass@K性能下降之间存在强相关性,SimKO通过缓解此问题提升了模型的探索能力 [13][26]
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab
量子位· 2025-08-14 12:08
AI大模型多领域推理能力研究 核心观点 - AI大模型在数学、编程和逻辑推理等多领域协同训练中展现出显著性能提升,跨领域知识迁移和协同效应成为关键突破点 [1][3] - 三领域联合训练(Math+Code+Puzzle)实现整体平均性能56.57,优于任何双领域组合 [3][26][31] - 强化学习技术(RLVR)结合定制化奖励策略和课程学习等方法,可显著提升模型鲁棒性和泛化能力 [6][9][33][36] 多领域评估框架 - 构建涵盖数学(Math)、编程(Code)和逻辑谜题(Puzzle)三大类数据的评估体系,采用Qwen2.5-7B系列模型进行实验 [3][14] - 数据规模:数学领域含DeepScaleR(10k)和CountDown(10k),代码领域含CodeR1-12k(12k),谜题领域含KK(5.4k)和LPB(2.4k) [18] - 奖励机制设计采用二元0-1、比例0-1等差异化方案 [18][35] 单领域训练表现 - 数学领域:Base模型在CountDown任务准确率提升75个百分点,但过度优化可能削弱代码能力 [20] - 代码领域:Instruct模型展现更强跨域泛化能力,Base模型在域外任务普遍下降 [21] - 谜题领域:Instruct模型在KK数据集准确率达99.14,Zebra任务得分提升至36.20,且训练效果可迁移至数学任务 [22] 跨领域协同效应 - Math+Puzzle组合使数学任务表现提升至49.72(单领域47.48),Code任务在添加Puzzle或Math数据后均获提升 [25] - Puzzle+Code组合实现平均最大19.39提升,但Math+Puzzle会显著降低Code表现 [25] - 三领域联合训练避免性能塌陷,确保各任务均衡发展 [26][31] 关键技术发现 - Template一致性:Base模型使用匹配模板时平均性能达47.84,不匹配时CountDown准确率从19.36暴跌至0 [29][31] - 课程学习:Policy Refresh策略使模型在6PPL阶段达97.43准确率,最终达99.71 [33][36] - 奖励设计:二元奖励在简单任务(KK)最优,复杂任务(LPB)需格式奖励或重缩放奖励 [35][37] - 语言敏感性:中文训练模型性能低于英文训练模型 [13] 未来研究方向 - 建议拓展Science、General Reasoning等新领域数据分类,探索Llama、DeepSeek等模型适配性 [39] - 强调数据多样性对模型能力的根本性影响,需深入研究数据与RLVR的关联机制 [39]