测试时扩展
搜索文档
首个测试时共进化合成框架TTCS:在「左右互搏」中突破推理瓶颈
机器之心· 2026-02-10 16:52
行业技术范式演进 - 当前大模型行业共识正从单纯扩大预训练参数,转向挖掘“测试时扩展”的潜力,利用测试时的算力进行有效训练成为焦点[1][5] - DeepSeek-R1等模型的成功证明了强化学习在推理任务上的威力,但现有强化学习范式通常依赖大量高质量标注,限制了扩展性[7] - 为摆脱对标签的依赖,“测试时训练”应运而生,其核心是在测试阶段利用模型生成的伪标签进行即时更新[7] 现有技术瓶颈与创新动机 - 面对高难度推理任务时,现有测试时训练方法因伪标签噪声过大而陷入“瞎猜”困境,存在“能力错配”悖论[2][8] - 两大核心挑战:1) 伪标签不可靠,基于错误共识训练会导致模型“越学越偏”;2) 缺乏中间难度阶梯,模型无法跨越巨大的难度鸿沟[13] - 创新动机源于思考:模型能否像人类自学者一样,通过自己给自己出题,将难题拆解为一组可解决的练习题,实现螺旋上升[8] TTCS框架核心方法论 - TTCS是一个基于共进化的测试时课程合成框架,不依赖任何外部人工标注[2][10] - 框架构建了一个包含两个共享初始权重Agent的闭环生态系统:Synthesizer(合成器/出题老师)和Solver(求解器/学生)[11][12][14] - 核心机制是通过精密的能力自适应奖励机制寻找模型的“能力边界”,奖励函数设计为迫使Synthesizer生成模型“似懂非懂”的题目[16][19] - 形成闭环效应:Solver能力提升后,其能力边界移动,Synthesizer随之生成更难题目,二者相互追赶,实现动态课程学习[16] 实验性能表现 - 在Qwen2.5-Math-1.5B模型上,TTCS将数学推理平均分从17.30提升至41.49,暴涨24.19分[3][20] - 在Qwen2.5-Math-7B模型上,TTCS平均分达到52.54,相比广泛使用的Self-Consistency方法的32.15分提升20.39分[20] - 在极具挑战的AIME竞赛题上表现突出:在1.5B模型上,AIME 2024得分从TTRL的13.23分跃升至19.79分,提升6.56分;在7B模型上,AIME 2025得分达到19.90分,显著优于TTRL的14.06分[21][23] 框架有效性深度分析 - 具备泛化性:在AIME上进行测试时训练的TTCS模型,在MMLU-Pro和SuperGPQA等通用领域推理任务上也实现了性能跃升,表明学到的是通用推理逻辑而非简单过拟合[22] - “动态老师”优于“静态名师”:共进化的1.5B Synthesizer带来的提升是静态14B Synthesizer的两倍,揭示了适应学生当前水平的老师比单纯水平高的老师更重要[25] - 数据效率惊人:即使只使用10%的测试数据,TTCS在AIME24上的准确率就能达到13.33,远超同等数据量下TTRL的表现[27] 行业意义与展望 - TTCS框架是对“测试时计算”范式的一次重构,证明了模型在测试时应是主动的课程设计者而非被动的解题者[30] - 该框架完美解决了测试时训练中“数据稀缺”和“难度断层”两大痛点[31] - 为提升大模型在复杂数学、代码推理任务上的表现提供了新思路,为未来自进化智能体奠定了坚实基础[31]
“人类最后的考试”,中国模型赢了GPT-5
21世纪经济报道· 2025-11-15 16:01
模型性能表现 - 月之暗面推出Kimi K2 Thinking模型,在多项基准测试中表现超越GPT-5,在HLE测试中获得44.9%的成绩,超过GPT-5的41.7% [2] - 在BrowseComp基准测试中以60.2%的得分领先GPT-5的54.9%,在SEAL-0测试中以56.3%的得分超过GPT-5的51.4% [2] - 模型能够自主实现高达300步的工具调用,无需人类干预,保证任务连续性 [2][3] - 模型采用端到端的智能体强化学习训练,使其在数百个步骤的工具调用过程中每个中间环节都保持良好性能 [4] 技术架构与优化 - 模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力 [2] - 支持"思考-工具-思考-工具"的交错执行模式,在大语言模型中属较新行为 [4] - 采用原生INT4量化技术,对MoE组件应用INT4纯权重量化,使生成速度提升约2倍 [7] - 团队使用配备Infiniband的H800 GPU集群,在算力资源相对有限的条件下通过工程优化极致压榨显卡性能 [5][6] 开源策略与国际影响 - 公司坚持开源策略,让中国AI大模型得到更广泛的国际认可 [7] - 开源模式有助于消除海外用户对"中国LLM"的风险疑虑 [9] - 在OpenRouter近一周模型调用榜单前二十名中,中国模型已占据七席,Kimi K2与Grok4登上增长榜前两名 [9] - Kimi K2的API价格仅为Claude Sonnet的五分之一,展现出显著的性价比竞争力 [7] 市场表现与采用情况 - 当Cursor禁止中国IP调用Claude等模型后,Kimi K2的调用量大幅攀升 [7] - Kimi K2日处理量突破100亿Token,显示出强劲的市场需求 [9] - 从欧洲到北美,从亚洲到非洲,越来越多的开发者正在调试基于Kimi K2 Thinking的应用 [9] 未来发展计划 - 公司已勾勒出下一代K3模型的发展蓝图,计划在K3中引入重大的架构变革 [10] - 实验性架构KDA在所有评估维度上都展现出性能提升,相关想法很可能会在K3中使用 [10] - 公司表示将在OpenAI建成千亿级美元数据中心之前推出K3模型 [10]