Kimi1.5 - 财报，业绩电话会，研报，新闻

Kimi1.5

搜索文档

机器之心· 2025-11-08 12:02

文章核心观点 - 研究团队提出一种名为SimKO的新算法，旨在解决现有可验证强化学习方法在提升大型语言模型pass@1性能时导致pass@K性能下降的问题 [4] - 该算法通过非对称梯度调节策略，有效平衡模型对单一正确答案的“利用”能力与对多样化正确答案的“探索”能力，从而同时优化pass@1和pass@K性能 [17][21] 问题识别与分析 - 现有RLVR算法导致模型输出概率分布“过度集中”，即概率质量过度汇聚于单一的推理路径，牺牲了对多样化正确解的探索能力 [3][12][13] - 传统指标“熵”无法精确描述模型对不同推理路径的真实探索程度，因为相同熵值的分布可能具有截然不同的形态 [8][9] - 研究团队引入新分析指标，发现RLVR训练存在系统性偏差：持续强化排名第一候选词的概率，同时显著抑制其他排名较低的正确路径 [11][12] SimKO算法机制 - 算法核心是对探索token施加非对称更新策略，在正确路径上实现概率平滑，在错误路径上施加精准惩罚 [17] - 首先识别推理路径中具有高熵的关键节点token，更新策略仅应用于这些节点 [18] - 对于正确路径，实施top-K标签平滑策略，将奖励均匀分配给关键节点处概率最高的top-K个候选token [20][23] - 对于错误路径，进行非对称惩罚：对排名第一的错误候选施加显著更强惩罚，对其他排名错误候选降低惩罚强度 [20][23] 实验性能评估 - 在MATH500、AIME 2024/25等多个数学推理基准上，SimKO在Qwen2.5-Math-7B模型上相比GRPO方法，pass@1提升1.7个百分点至43.4%，pass@256提升4.4个百分点至80.5% [22] - 在Qwen2.5-7B模型上，SimKO相比GRPO在pass@1和pass@256分别提升0.5和2.0个百分点 [22] - 在Llama3.2-3B-Instruct模型上，SimKO相比GRPO在pass@1和pass@256分别提升0.7和1.3个百分点 [22] - 在逻辑推理任务中，SimKO在分布内任务上相比GRPO的pass@1提升31.6%，pass@128提升26.3%；在分布外任务上pass@1提升16%，pass@128性能达92% [24][27] 算法有效性验证 - 学习动态追踪显示，传统GRPO方法导致排名第一候选词概率迅速收敛至接近1，而其他排名候选概率降至极低水平（10⁻⁸至10⁻¹⁰） [26] - SimKO有效缓解概率集中问题，其排名第一候选词概率显著低于GRPO，同时为其他排名候选保留了更高概率质量 [26] - 概率过度集中问题与pass@K性能下降之间存在强相关性，SimKO通过缓解此问题提升了模型的探索能力 [13][26]

我让10个大模型又参加了完整版数学高考，第一名居然是它。。。

数字生命卡兹克· 2025-06-10 05:20

大模型数学能力测试核心观点 - 对多个大模型进行完整版数学高考测试（满分150分），结果显示讯飞星火和豆包以145分并列第一，Qwen3以143.3分位列第三，Gemini 2.5 pro、混元T1和文心x1分别以139.7分和137分位居第四、第五 [15][16][17][18] - 测试发现大模型在解答题表现优异（大部分正确），但单选题第6题成为所有模型的共同难点 [9] - 多模态大模型在涉及图片理解的题目中表现不佳，仅OpenAI o3在三次测试中答对两次 [10] 测试规则 - 补充测试智谱Z1、Kimi1.5、文心X1等模型，排除Claude 4 [3] - 大题按小问赋分，由高中教师估分并取严格标准（仅按结果正确性评分） [3][5] - 每道题运行模型3次，按正确比例给分 [5] - 文本题转换为LaTeX格式输入，图片题直接截图测试（无多模态能力的模型取其他多模态模型平均分） [6][7] 模型表现细节 - **讯飞星火/豆包**：除第6题外全对，展现超高稳定性 [15] - **Qwen3**：解答题全对但填空题因1次失误丢1.7分 [16] - **Gemini 2.5 pro**：解答题表现较弱，总分139.7分 [17] - **DeepSeek-R1-0528**：因推理链过长导致答案偏离，适合复杂度更高的题目 [11] 行业趋势观察 - 相比2023年测试时大模型"不识一二三四五"的窘境，当前模型已能达到优秀学生水平，体现AI技术快速迭代能力 [19][20][21] - 测试结果超出预期，反映头部模型在结构化问题解决上的显著进步 [9][15][21]

凤凰网财经· 2025-06-02 21:49

核心观点 - AI六小龙（智谱AI、MiniMax、月之暗面、阶跃星辰、百川智能、零一万物）已缩减为"AI四小强"，部分玩家因技术迭代停滞、团队动荡和商业化困境掉队 [1][2][6] - 大厂（阿里、字节、腾讯）凭借资金和资源优势加速布局，创业公司先发优势丧失，商业化进展远落后于OpenAI（2025年收入预计127亿美元，同比+200%）[10][11][16] - DeepSeek开源模型冲击闭源生态，六小龙技术壁垒被削弱，OpenAI却逆势实现3000亿美元估值（较2023年10月增长249%）[14][16][17] - 高管大规模流失（智谱AI视频模型负责人加入字节、零一万物核心成员创业），反映创业公司人才吸引力下降 [18][19][22] 从六小龙到四小强 - **掉队玩家**：零一万物转向阿里合作放弃AGI研发，百川智能基础模型进入静默期，两者均出现核心高管离职 [1][5][6] - **剩余四强**：智谱AI、MiniMax、月之暗面、阶跃星辰模型更新频率显著放缓，最新迭代多为垂类场景（如MiniMax文本转语音模型）[7][24] - **融资停滞**：2024年下半年起除智谱AI外几乎无新融资，对比OpenAI 2025年完成400亿美元融资 [8][16] 商业化困境 - **收入对比**：OpenAI付费用户达100万，六小龙未披露具体营收数据，商业化进程明显滞后 [10] - **大厂挤压**：字节、阿里、腾讯投入百亿资金扶持AI应用，美团/小红书自建模型团队，创业公司市场份额被蚕食 [11][12] - **成本压力**：月之暗面2024年单月投流过亿，2025年2月停止投流后月活跌至百万级 [6] 技术竞争力削弱 - **开源冲击**：DeepSeek免费开源模型性能超越闭源产品，颠覆六小龙"闭源优势"逻辑 [14][15] - **迭代乏力**：月之暗面Kimi1.5热度被DeepSeek R1压制，智谱AI基础模型停更超5个月 [7][17] - **赛道转移**：行业热点转向具身智能和Agent领域，四小强多数未及时跟进（除智谱AI布局通用Agent）[23][24] 人才流失危机 - **高管去向**： - 零一万物：模型预训练负责人谷雪梅离职创业，算法负责人黄文灏加入字节 [5][22] - 百川智能：联创陈炜鹏、焦可离职转向AI创业 [6][22] - 智谱AI：视频模型负责人丁铭加入字节，3名副总裁级高管离职 [20][22] - **影响评估**：技术骨干流失直接影响模型研发进度，削弱投资人信心 [19] 历史参照 - **AI四小龙教训**：商汤、旷视等因高研发投入和商业化失败陷入困境，六小龙面临类似风险 [8][25] - **市场预判**：李开复认为中国最终仅DeepSeek、阿里、字节能存活，创业公司生存空间受挤压 [25]

Artificial Intelligence

Artificial Intelligence