Workflow
Kimi1.5
icon
搜索文档
SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能
机器之心· 2025-11-08 12:02
文章核心观点 - 研究团队提出一种名为SimKO的新算法,旨在解决现有可验证强化学习方法在提升大型语言模型pass@1性能时导致pass@K性能下降的问题 [4] - 该算法通过非对称梯度调节策略,有效平衡模型对单一正确答案的“利用”能力与对多样化正确答案的“探索”能力,从而同时优化pass@1和pass@K性能 [17][21] 问题识别与分析 - 现有RLVR算法导致模型输出概率分布“过度集中”,即概率质量过度汇聚于单一的推理路径,牺牲了对多样化正确解的探索能力 [3][12][13] - 传统指标“熵”无法精确描述模型对不同推理路径的真实探索程度,因为相同熵值的分布可能具有截然不同的形态 [8][9] - 研究团队引入新分析指标,发现RLVR训练存在系统性偏差:持续强化排名第一候选词的概率,同时显著抑制其他排名较低的正确路径 [11][12] SimKO算法机制 - 算法核心是对探索token施加非对称更新策略,在正确路径上实现概率平滑,在错误路径上施加精准惩罚 [17] - 首先识别推理路径中具有高熵的关键节点token,更新策略仅应用于这些节点 [18] - 对于正确路径,实施top-K标签平滑策略,将奖励均匀分配给关键节点处概率最高的top-K个候选token [20][23] - 对于错误路径,进行非对称惩罚:对排名第一的错误候选施加显著更强惩罚,对其他排名错误候选降低惩罚强度 [20][23] 实验性能评估 - 在MATH500、AIME 2024/25等多个数学推理基准上,SimKO在Qwen2.5-Math-7B模型上相比GRPO方法,pass@1提升1.7个百分点至43.4%,pass@256提升4.4个百分点至80.5% [22] - 在Qwen2.5-7B模型上,SimKO相比GRPO在pass@1和pass@256分别提升0.5和2.0个百分点 [22] - 在Llama3.2-3B-Instruct模型上,SimKO相比GRPO在pass@1和pass@256分别提升0.7和1.3个百分点 [22] - 在逻辑推理任务中,SimKO在分布内任务上相比GRPO的pass@1提升31.6%,pass@128提升26.3%;在分布外任务上pass@1提升16%,pass@128性能达92% [24][27] 算法有效性验证 - 学习动态追踪显示,传统GRPO方法导致排名第一候选词概率迅速收敛至接近1,而其他排名候选概率降至极低水平(10⁻⁸至10⁻¹⁰) [26] - SimKO有效缓解概率集中问题,其排名第一候选词概率显著低于GRPO,同时为其他排名候选保留了更高概率质量 [26] - 概率过度集中问题与pass@K性能下降之间存在强相关性,SimKO通过缓解此问题提升了模型的探索能力 [13][26]
我让10个大模型又参加了完整版数学高考,第一名居然是它。。。
数字生命卡兹克· 2025-06-10 05:20
大模型数学能力测试 核心观点 - 对多个大模型进行完整版数学高考测试(满分150分),结果显示讯飞星火和豆包以145分并列第一,Qwen3以143.3分位列第三,Gemini 2.5 pro、混元T1和文心x1分别以139.7分和137分位居第四、第五 [15][16][17][18] - 测试发现大模型在解答题表现优异(大部分正确),但单选题第6题成为所有模型的共同难点 [9] - 多模态大模型在涉及图片理解的题目中表现不佳,仅OpenAI o3在三次测试中答对两次 [10] 测试规则 - 补充测试智谱Z1、Kimi1.5、文心X1等模型,排除Claude 4 [3] - 大题按小问赋分,由高中教师估分并取严格标准(仅按结果正确性评分) [3][5] - 每道题运行模型3次,按正确比例给分 [5] - 文本题转换为LaTeX格式输入,图片题直接截图测试(无多模态能力的模型取其他多模态模型平均分) [6][7] 模型表现细节 - **讯飞星火/豆包**:除第6题外全对,展现超高稳定性 [15] - **Qwen3**:解答题全对但填空题因1次失误丢1.7分 [16] - **Gemini 2.5 pro**:解答题表现较弱,总分139.7分 [17] - **DeepSeek-R1-0528**:因推理链过长导致答案偏离,适合复杂度更高的题目 [11] 行业趋势观察 - 相比2023年测试时大模型"不识一二三四五"的窘境,当前模型已能达到优秀学生水平,体现AI技术快速迭代能力 [19][20][21] - 测试结果超出预期,反映头部模型在结构化问题解决上的显著进步 [9][15][21]
无人再谈AI六小龙
凤凰网财经· 2025-06-02 21:49
核心观点 - AI六小龙(智谱AI、MiniMax、月之暗面、阶跃星辰、百川智能、零一万物)已缩减为"AI四小强",部分玩家因技术迭代停滞、团队动荡和商业化困境掉队 [1][2][6] - 大厂(阿里、字节、腾讯)凭借资金和资源优势加速布局,创业公司先发优势丧失,商业化进展远落后于OpenAI(2025年收入预计127亿美元,同比+200%)[10][11][16] - DeepSeek开源模型冲击闭源生态,六小龙技术壁垒被削弱,OpenAI却逆势实现3000亿美元估值(较2023年10月增长249%)[14][16][17] - 高管大规模流失(智谱AI视频模型负责人加入字节、零一万物核心成员创业),反映创业公司人才吸引力下降 [18][19][22] 从六小龙到四小强 - **掉队玩家**:零一万物转向阿里合作放弃AGI研发,百川智能基础模型进入静默期,两者均出现核心高管离职 [1][5][6] - **剩余四强**:智谱AI、MiniMax、月之暗面、阶跃星辰模型更新频率显著放缓,最新迭代多为垂类场景(如MiniMax文本转语音模型)[7][24] - **融资停滞**:2024年下半年起除智谱AI外几乎无新融资,对比OpenAI 2025年完成400亿美元融资 [8][16] 商业化困境 - **收入对比**:OpenAI付费用户达100万,六小龙未披露具体营收数据,商业化进程明显滞后 [10] - **大厂挤压**:字节、阿里、腾讯投入百亿资金扶持AI应用,美团/小红书自建模型团队,创业公司市场份额被蚕食 [11][12] - **成本压力**:月之暗面2024年单月投流过亿,2025年2月停止投流后月活跌至百万级 [6] 技术竞争力削弱 - **开源冲击**:DeepSeek免费开源模型性能超越闭源产品,颠覆六小龙"闭源优势"逻辑 [14][15] - **迭代乏力**:月之暗面Kimi1.5热度被DeepSeek R1压制,智谱AI基础模型停更超5个月 [7][17] - **赛道转移**:行业热点转向具身智能和Agent领域,四小强多数未及时跟进(除智谱AI布局通用Agent)[23][24] 人才流失危机 - **高管去向**: - 零一万物:模型预训练负责人谷雪梅离职创业,算法负责人黄文灏加入字节 [5][22] - 百川智能:联创陈炜鹏、焦可离职转向AI创业 [6][22] - 智谱AI:视频模型负责人丁铭加入字节,3名副总裁级高管离职 [20][22] - **影响评估**:技术骨干流失直接影响模型研发进度,削弱投资人信心 [19] 历史参照 - **AI四小龙教训**:商汤、旷视等因高研发投入和商业化失败陷入困境,六小龙面临类似风险 [8][25] - **市场预判**:李开复认为中国最终仅DeepSeek、阿里、字节能存活,创业公司生存空间受挤压 [25]