K2 Thinking再炸场,杨植麟凌晨回答了21个问题
36氪·2025-11-12 21:35

文章核心观点 - 月之暗面发布万亿参数开源模型K2 Thinking,在推理和任务执行等前沿能力基准测试中表现优异,甚至在某些榜单上超过GPT-5 [15] - 公司采取专注Agentic能力的策略,通过长思维链和高效工具调用设计,旨在让AI真正完成复杂任务而非仅用于聊天 [21][22] - 在芯片等基础设施受限的背景下,国产大模型通过算法创新加速发展,各厂商根据自身商业目标选择不同的技术路线,形成差异化竞争格局 [29][31][32] K2 Thinking模型技术特点 - 模型为1万亿参数的稀疏混合专家架构,实际运行时激活参数控制在300亿,平衡了性能与速度 [14][21] - 采用INT4量化手段,百万token输出价格仅为2.5美元,是GPT-5价格的四分之一,具备显著成本优势 [16] - 核心长板为长程执行能力,可连续执行200-300次工具调用来解决复杂问题,保证任务连续性 [22][56] - 通过端到端智能体强化学习训练,实现了交错“思考-工具”模式的稳定运行,这是大语言模型中相对较新的挑战 [56][57] 模型性能与市场定位 - 在高难度测试集HLE和BrowseComp等Agent榜单上,分数超过了GPT-5 [15] - 市场定位为GPT-5和Claude Sonnet 4.5的“平替”,专注于将文本模型能力做到极致,探索智能上限 [16][32] - 团队选择性能优先的策略,暂时不太考虑Token消耗效率,以确保Agent更可用 [21][32] 训练成本与硬件配置 - 团队澄清460万美元训练成本“不是官方数字”,强调主要成本在于研究和实验,难以量化 [8][34] - 训练在配备Infiniband的H800 GPU上进行,虽在GPU数量上处于劣势,但将每张显卡性能压榨到极致 [29][37] 技术路线与行业趋势 - 国产大模型在算法创新上加快进程,月之暗面、智谱、MiniMax等厂商接力开源,在全球榜单上表现亮眼 [17][29] - 面对长上下文处理问题,各厂商选择不同路径:MiniMax M2回退到全注意力机制求稳定;月之暗面则采用更激进的KDA+MLA混合架构 [31] - 中国开源模型的应用生态正在形成优势,吸引海外开发者构建应用并提供反馈,预计将带来更多应用爆发 [33] 未来发展规划 - 下一代K3模型计划引入重大架构更改,KDA实验架构的相关想法很可能被采用 [62] - 公司重心仍在模型训练,暂无计划推出AI浏览器类产品,认为做好模型无需再做浏览器“壳” [63][64] - 公司拥抱开源策略,相信AGI应是导致团结的追求,并考虑开源安全对齐技术栈以惠及社区 [65][66] - 未来会重新审视更长的上下文窗口,并可能发布更多如Kimi Linear的小模型作为研究演示 [44][45][46]