Kimi k1.5

搜索文档
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
每日经济新闻· 2025-06-10 21:53
测评结果 - 国产大模型DeepSeek-R1与腾讯混元T1在117分标准化试卷测试中以零错误并列榜首,均获得117分满分 [1][4] - 讯飞星火X1以112分紧随其后,因填空题自我怀疑导致答案不完整 [5] - Gemini 2.5 Pro、OpenAI o3、阿里千问Qwen3和豆包深度思考模式得分均超100分,分别为109分、107分、106分和104分 [7] - Grok 3表现意外,仅得91分排名倒数第三,主要因多选题理解失误 [8] - 智谱清言推理模式得78分排名倒数第二,因逻辑崩溃导致失分 [8] - Kimi k1.5因压轴大题失误得分最低 [10] 测评标准与方法 - 以2025年全国新课标数学I卷(总分150分)为考题,移除图形/图表题后形成117分标准化试卷 [3] - 部分模型因"重要考试期间"限制未参与图形题测试,如讯飞星火X1、豆包深度思考和智谱清言推理模式 [2][3] - 对无限制模型(如Gemini 2.5 Pro)仍测试完整150分试卷以评估最高水平 [3] - 扣分标准遵循高考规则,但解答题仅按结果计分 [3] 模型表现细节 - DeepSeek-R1与腾讯混元T1在代数计算和函数题中展现极高稳定性 [4] - 讯飞星火X1在填空题中因自我怀疑仅输出部分正确答案("2"而非"±2") [5] - Grok 3在多选题中固执输出单一答案,导致部分失分 [8] - 智谱清言推理模式多次在最终推理步骤崩溃,陷入逻辑循环 [8] - Kimi k1.5在压轴大题上表现最弱 [10] 行业技术现状 - AI推理大模型在固定步骤和严密逻辑的数学问题上能力较强 [10] - 涉及抽象和创新思维的题目仍是当前模型的局限性所在 [10]
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 11:13
核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点,重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门,但GRPO并非特殊算法,与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值,强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型,采用强化学习训练,论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架,无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性,采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样,后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好,但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用,使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法,包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括:两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵(探索/随机性) [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态,使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法,调整token优势分配方式 [80] - 移除问题级难度偏置,避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似,GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用,提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高,但小模型通过优化也能达到相当效果 [29][31]
中国AI最大门派
投资界· 2025-02-27 15:06
以下文章来源于数字力场 ,作者佘宗明 数字力场 . 从Kimi到DeepSeek,从清华到浙大。 作者 | 佘宗明 运营 | 李玩 来源 | 数字力场 (ID: shuzilichang) 这两天,TMT圈有两则消息备受关注: 一是马斯克打响了「对DeepSeek反击战」——他掌舵的xAI,推出了Grok 3大模型。 20万卡集群训练、超DeepSeek-R1和GPT4o登顶竞技场(lmarena.ai)榜单、马斯克称其为「地表最聪明AI」、因回答「9.11比 9.9大」而翻车……在马斯克热搜圣体加持下,Grok 3成功制造出了一堆话题,包括#全球华人决战AI之巅#。 从Grok 3发布会图片可以看到,坐镇C位的正是两位华人科学家,其中之一就是xAI联合创始人、95后吴宇怀。 ▲Grok 3发布会上,两位华人坐镇C位,左三为吴宇怀。 由此深扒可知,xAI的12名创始成员中,华人占了4席,除了吴宇怀以外,还有本科毕业于清华大学的前谷歌科学家戴子航、本科毕业 于浙江大学的前DeepMind科学家张国栋和哈佛数学天才杨格。 二是「杭州六小龙」之一群核科技启动IPO,冲击「全球空间智能第一股」。 抵抗熵增,打捞有趣。 ...