Workflow
Kimi k1.5
icon
搜索文档
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
每日经济新闻· 2025-06-10 21:53
测评结果 - 国产大模型DeepSeek-R1与腾讯混元T1在117分标准化试卷测试中以零错误并列榜首,均获得117分满分 [1][4] - 讯飞星火X1以112分紧随其后,因填空题自我怀疑导致答案不完整 [5] - Gemini 2.5 Pro、OpenAI o3、阿里千问Qwen3和豆包深度思考模式得分均超100分,分别为109分、107分、106分和104分 [7] - Grok 3表现意外,仅得91分排名倒数第三,主要因多选题理解失误 [8] - 智谱清言推理模式得78分排名倒数第二,因逻辑崩溃导致失分 [8] - Kimi k1.5因压轴大题失误得分最低 [10] 测评标准与方法 - 以2025年全国新课标数学I卷(总分150分)为考题,移除图形/图表题后形成117分标准化试卷 [3] - 部分模型因"重要考试期间"限制未参与图形题测试,如讯飞星火X1、豆包深度思考和智谱清言推理模式 [2][3] - 对无限制模型(如Gemini 2.5 Pro)仍测试完整150分试卷以评估最高水平 [3] - 扣分标准遵循高考规则,但解答题仅按结果计分 [3] 模型表现细节 - DeepSeek-R1与腾讯混元T1在代数计算和函数题中展现极高稳定性 [4] - 讯飞星火X1在填空题中因自我怀疑仅输出部分正确答案("2"而非"±2") [5] - Grok 3在多选题中固执输出单一答案,导致部分失分 [8] - 智谱清言推理模式多次在最终推理步骤崩溃,陷入逻辑循环 [8] - Kimi k1.5在压轴大题上表现最弱 [10] 行业技术现状 - AI推理大模型在固定步骤和严密逻辑的数学问题上能力较强 [10] - 涉及抽象和创新思维的题目仍是当前模型的局限性所在 [10]
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 11:13
核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点,重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门,但GRPO并非特殊算法,与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值,强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型,采用强化学习训练,论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架,无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性,采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样,后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好,但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用,使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法,包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括:两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵(探索/随机性) [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态,使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法,调整token优势分配方式 [80] - 移除问题级难度偏置,避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似,GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用,提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高,但小模型通过优化也能达到相当效果 [29][31]
中国AI最大门派
投资界· 2025-02-27 15:06
AI行业人才分布格局 - 中国AI头部企业创始人呈现"北清华,南浙大"集中分布格局,清华系占据半壁江山,浙大系在"杭州六小龙"中表现突出 [8][9][11] - 2024年国内AI头部格局为"6+2",其中月之暗面、智谱AI、百川智能等6家清华系企业占据主导,DeepSeek和面壁智能为浙大系代表 [8] - 全球生成式AI专利数据显示,浙江大学和清华大学分别以492件和紧随其后的数量位列高校前列,中国科学院排名第一 [9][13] 高校AI学科实力对比 - Nature 2024全球高校AI学科100强中,中国19所上榜,清华(264.24分)、北大(235.15分)、国科大(181.37分)、浙大(181.06分)包揽前四 [14] - 软科2024年AI专业排名显示,清华与上海交大并列A+级第一(61.7分),浙大排名第五(58.2分) [15][16] - US News 2024-2025全球AI专业排名中,清华全球第一,电子科大第三,浙大位列中国第四(全球第七) [17][18] 人才培养模式差异 - 清华采用"学院派精英主义",依托姚班/智班聚焦AGI底层技术,计算机系、自动化系、交叉信息研究院形成三足鼎立 [21][22] - 浙大推行"商业敏捷主义",以竺可桢实验班为核心,强调学科交叉与场景驱动,重点发展医疗影像、金融科技等垂直领域 [21][22] - 姚班学生选拔标准严苛,国际奥赛金牌为标配,毕业生多进入MIT、斯坦福等顶尖学府或成为行业领军人物 [26] 地域产业生态影响 - 北京中关村互联网巨头为清华系提供技术-产品闭环场景,如美团"悟道"大模型直接应用外卖业务数据 [23] - 杭州数字经济生态催生"技术即业务"思维,浙大与阿里/蚂蚁深度绑定,云从科技人脸识别系统早期应用于支付宝刷脸支付 [23] - 北京超高人才密度与杭州宜商环境形成差异化产教融合生态,清华系获美团/字节资本加持,浙大系擅长对接地方政府资源 [32] 行业竞争动态 - DeepSeek与月之暗面几乎同步发布对标OpenAI的新模型,分别采用原生稀疏注意力(NSA)和块注意力混合(MoBA)算法 [33] - 中国已超越美国成为AI人才最大产出国(占比45.63%),但美国仍吸引全球60%顶级AI研究机构,中国需增强人才留存能力 [33][35] - GPT-4核心团队中20%研究人员来自中国,显示中国人才培养体系已具备国际竞争力 [33]