Workflow
Kimi K2 Thinking模型
icon
搜索文档
国产大模型在多项基准测试中超越GPT-5
21世纪经济报道· 2025-11-15 18:00
记者丨雷晨 编辑丨张伟贤 近期,月之暗面三位创始人杨植麟、周昕宇和吴育昕同时现身Reddit论坛,进行了一场长达数小时的线上问答活动。 这场技术极客风格的互动,举办在Kimi K2 Thinking模型发布第五天。 该模型在"人类最后的考试"等多项基准测试中表现超越GPT-5,引发全 球AI社区关注。 在问答过程中,创始人团队不仅回应了训练成本、算力优化、开源策略等核心问题,更直面海外用户对"中国LLM"的使用疑虑。 多项测评成绩领先 11月6日晚,月之暗面推出Kimi K2 Thinking模型,并称其为"Kimi迄今能力最强的开源思考模型"。 这一模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力。在多项权威基准测试中,K2 Thinking达到SOTA水平。 譬如, 在被称为"人类最后的考试"的HLE(Humanity's Last Exam)测试中,K2 Thinking获得了44.9%的成绩,超过GPT-5的41.7%。在 自主网络浏览能力BrowseComp基准测试中,Kimi K2 Thinking同样以60.2%的得分,领先GPT-5的54.9%。同时在复杂信息收集推理 ...
国产大模型在多项基准测试中超越GPT-5
21世纪经济报道· 2025-11-15 17:49
模型性能表现 - Kimi K2 Thinking模型在HLE测试中获得44.9%的成绩,超过GPT-5的41.7% [3] - 在BrowseComp基准测试中以60.2%的得分领先GPT-5的54.9% [3] - 在SEAL-0测试中以56.3%的得分超过GPT-5的51.4% [3] - 模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性 [4] - 通过端到端的智能体强化学习训练,使模型在数百个步骤的工具调用过程中保持良好性能 [5] 技术架构与优化 - 模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力 [3] - 采用原生INT4量化技术,对MoE组件应用INT4纯权重量化,使得生成速度提升约2倍 [8] - 选择INT4是为了更好地兼容"非Blackwell GPU",同时利用现有的INT4推理marlin内核 [8] - 团队使用配备Infiniband的H800 GPU集群,在算力规模不占优势条件下将每张显卡性能压榨到极致 [7][8] - 下一代K3模型计划引入KDA实验性架构,该线性注意力模块在所有评估维度都展现出性能提升 [12] 市场影响与竞争格局 - Kimi K2的API价格仅为Claude Sonnet的五分之一,展现出显著性价比竞争力 [10] - 在OpenRouter近一周模型调用榜单前二十名中,中国模型已占据七席 [10][11] - Kimi K2与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token [10] - 公司坚持开源策略,认为开源是促进团结而非分裂的事情 [10] - 从欧洲到北美,从亚洲到非洲,越来越多开发者正在调试基于Kimi K2 Thinking的应用 [10]
“人类最后的考试”,中国模型赢了GPT-5
21世纪经济报道· 2025-11-15 16:01
模型性能表现 - 月之暗面推出Kimi K2 Thinking模型,在多项基准测试中表现超越GPT-5,在HLE测试中获得44.9%的成绩,超过GPT-5的41.7% [2] - 在BrowseComp基准测试中以60.2%的得分领先GPT-5的54.9%,在SEAL-0测试中以56.3%的得分超过GPT-5的51.4% [2] - 模型能够自主实现高达300步的工具调用,无需人类干预,保证任务连续性 [2][3] - 模型采用端到端的智能体强化学习训练,使其在数百个步骤的工具调用过程中每个中间环节都保持良好性能 [4] 技术架构与优化 - 模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力 [2] - 支持"思考-工具-思考-工具"的交错执行模式,在大语言模型中属较新行为 [4] - 采用原生INT4量化技术,对MoE组件应用INT4纯权重量化,使生成速度提升约2倍 [7] - 团队使用配备Infiniband的H800 GPU集群,在算力资源相对有限的条件下通过工程优化极致压榨显卡性能 [5][6] 开源策略与国际影响 - 公司坚持开源策略,让中国AI大模型得到更广泛的国际认可 [7] - 开源模式有助于消除海外用户对"中国LLM"的风险疑虑 [9] - 在OpenRouter近一周模型调用榜单前二十名中,中国模型已占据七席,Kimi K2与Grok4登上增长榜前两名 [9] - Kimi K2的API价格仅为Claude Sonnet的五分之一,展现出显著的性价比竞争力 [7] 市场表现与采用情况 - 当Cursor禁止中国IP调用Claude等模型后,Kimi K2的调用量大幅攀升 [7] - Kimi K2日处理量突破100亿Token,显示出强劲的市场需求 [9] - 从欧洲到北美,从亚洲到非洲,越来越多的开发者正在调试基于Kimi K2 Thinking的应用 [9] 未来发展计划 - 公司已勾勒出下一代K3模型的发展蓝图,计划在K3中引入重大的架构变革 [10] - 实验性架构KDA在所有评估维度上都展现出性能提升,相关想法很可能会在K3中使用 [10] - 公司表示将在OpenAI建成千亿级美元数据中心之前推出K3模型 [10]
计算机行业双周报(2025/10/31-2025/11/13):国内科技巨头积极布局超节点技术,关注国产AI算力投资机遇-20251114
东莞证券· 2025-11-14 20:19
报告行业投资评级 - 行业投资评级:超配(维持)[1] 报告核心观点 - 国内科技巨头正积极布局超节点技术,建议关注国产AI算力产业链的投资机遇[1][3][28] - 以中科曙光、华为为代表的企业通过技术架构创新和生态系统整合,有望突破单芯片制程限制,构建自主可控的国产算力底座[3][28] 计算机行业行情回顾 - 申万计算机板块近两周(2025/10/31-2025/11/13)累计下跌2.64%,跑输沪深300指数2.48个百分点,在31个申万一级行业中排名第28名[10] - 申万计算机板块11月累计下跌3.73%,跑输沪深300指数5.06个百分点[10] - 申万计算机板块今年累计上涨20.45%,跑赢沪深300指数0.95个百分点[10] - 近两周板块涨幅前三公司为英方软件(67.99%)、海峡创新(55.85%)和安博通(39.07%);跌幅前三公司为思维列控(-20.81%)、航天宏图(-19.89%)和信安世纪(-16.42%)[15][16][17] 板块估值情况 - 截至2025年11月13日,SW计算机板块PE TTM(剔除负值)为55.36倍,处于近5年88.40%分位、近10年77.89%分位[10][20] 产业新闻总结 - 月之暗面发布开源思考模型Kimi K2 Thinking,在HLE测试中取得44.9%的成绩,超过GPT5等模型,其智能体工具调用测试得分达93%[21] - 中科曙光发布全球首个单机柜级640卡超节点scaleX640,单机柜算力密度提升20倍,MoE万亿参数大模型训练推理性能提升30%-40%[21][28] - 腾讯2025年第三季度资本开支129.83亿元,低于去年同期的170.94亿元,但表示GPU资源充足[23] - Anthropic计划在美国投资500亿美元建设数据中心,预计2028年营收达700亿美元[23] - 百度发布新一代昆仑芯M100和M300,分别针对AI推理和多模态大模型训练[23] - 阿里云通义千问3-Max模型降价,batch调用半价,缓存计费优惠[23] 公司公告总结 - 金橙子拟以7500万元转让卡门哈斯15%股权,不再持有其股权[24] - 金溢科技拟出资765万元(持股51%)设立合资公司,推进交能融合业务[24] - 太极股份控股股东中电太极及一致行动人电科投资向中电金投转让合计4.6423%股份,每股价格8.41元[25] - 鼎捷数智大股东工业富联计划减持不超过809.47万股(占总股本2.98%)[26] - 达梦数据拟出资1亿元参与设立产业基金,总规模2.02亿元,投资数据库产业链[27] - 远光软件参股公司多禧投资因连续亏损决定解散清算[27] 本周观点总结 - 中科曙光scaleX640超节点采用“一拖二”高密架构,支持千卡级计算单元,并通过30天+长稳运行测试,保障10万卡级集群扩展[28] - 中科曙光联合20余家企业发布“AI计算开放架构”,推动产业生态共进,scaleX640在硬件层面支持多品牌加速卡,软件兼容主流生态[28] 建议关注标的 - 广电运通(002152.SZ):金融科技主业稳健,布局数据要素和算力领域[29] - 神州数码(000034.SZ):作为“鲲鹏+昇腾”产业链核心伙伴,受益国产算力需求[29] - 浪潮信息(000977.SZ):AI服务器全球领先,行业地位稳固[29] - 税友股份(603171.SH):财税信息化服务商,受益财税改革[29] - 软通动力(301236.SZ):华为核心合作伙伴,鸿蒙生态领先[29] - 赛意信息(300687.SZ):布局AI Agent,推出智能体解决方案[30]
计算机行业双周报:国内科技巨头积极布局超节点技术,关注国产AI算力投资机遇-20251114
东莞证券· 2025-11-14 17:43
行业投资评级 - 超配(维持)[1] 报告核心观点 - 国内科技巨头(如中科曙光、华为)正积极布局超节点技术,通过架构创新和生态整合,有望突破单芯片制程限制,构建自主可控的国产算力底座[28] - 中科曙光发布的全球首个单机柜级640卡超节点scaleX640,相比业界同类产品综合算力性能倍增,单机柜算力密度提升20倍,相比传统方案可实现MoE万亿参数大模型训练推理场景30%-40%的性能提升[28] - 建议关注国产AI算力产业链投资机遇[1][28] 计算机行业行情回顾 - 申万计算机板块近2周(2025/10/31-2025/11/13)累计下跌2.64%,跑输沪深300指数2.48个百分点,在31个申万一级行业中排名第28名[10] - 申万计算机板块11月累计下跌3.73%,跑输沪深300指数5.06个百分点[10] - 申万计算机板块今年累计上涨20.45%,跑赢沪深300指数0.95个百分点[10] - 近两周板块涨幅前三个股为英方软件(67.99%)、海峡创新(55.85%)和安博通(39.07%);跌幅前三个股为思维列控(-20.81%)、航天宏图(-19.89%)和信安世纪(-16.42%)[15] 板块估值情况 - 截至2025年11月13日,SW计算机板块PE TTM(剔除负值)为55.36倍,处于近5年88.40%分位、近10年77.89%分位[20] 重点产业新闻 - 月之暗面发布并开源思考模型Kimi K2 Thinking,在HLE测试中取得44.9%的成绩,超过GPT5、Claude4.5、Grok4等美国顶尖闭源模型;在智能体工具调用测试中得分达93%,为第三方机构测量到的最高分[21] - 中科曙光发布全球首个单机柜级640卡超节点scaleX640,采用"一拖二"高密架构设计,可通过双超节点组成千卡级计算单元,并经过30天+长稳运行测试验证可保障10万卡级超大规模集群扩展部署[21] - 腾讯2025年第三季度资本开支129.83亿元,低于去年同期的170.94亿元,预计2025年以AI为重点的资本支出占收入比例达十几个百分点,但可能低于此前指引,目前GPU资源充足[23] - Anthropic计划在美国投资500亿美元建设数据中心,预计2028年营收达700亿美元[23] - 百度发布新一代昆仑芯M100(针对大规模AI推理,预计2026年初上市)和M300(面向超大规模多模态大模型训练和推理,预计2027年初上市)[23] - 阿里云百炼对通义千问3-Max模型实行降价,batch调用半价,隐式缓存命中部分按输入Token标准单价20%计费[23] 公司公告摘要 - 金橙子拟以7500万元转让卡门哈斯15%股权,交易完成后不再持有其股权[24] - 金溢科技拟出资765万元(持股51%)与昱盛智慧设立合资公司,推进交能融合业务[24] - 太极股份控股股东中电太极及一致行动人电科投资拟以每股8.41元向中电金投转让合计4.6423%股份,旨在深化央企战略合作[25] - 鼎捷数智大股东工业富联计划减持不超过809.47万股(占总股本不超过2.98%)[26] - 达梦数据拟认缴出资1亿元(占比49.505%)设立产业基金,投资数据库产业链相关项目[27] - 远光软件参股公司多禧投资因连续亏损决定解散清算,不会对公司日常经营产生重大影响[27] 本周观点与建议关注标的 - 中科曙光scaleX640超节点采用AI计算开放架构,硬件支持多品牌加速卡,软件兼容主流计算生态,推动国产智算"软硬协同、生态兼容"新范式[28] - 建议关注标的包括广电运通(金融科技主业稳健,数据要素、算力布局深化)、神州数码(鲲鹏+昇腾产业链核心伙伴)、浪潮信息(AI服务器全球领先)、税友股份(财税信息化领先)、软通动力(华为核心合作伙伴)、赛意信息(AI Agent领域布局)[29][30]
再给老外亿点点震撼?Kimi杨植麟:啥时发K3? 奥特曼的万亿数据中心建成前
华尔街见闻· 2025-11-12 21:05
模型性能与市场定位 - 月之暗面Kimi K2 Thinking模型在多项核心基准测试中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5 [1] - 模型API调用价格为每百万token输入1-4元,输出16元,仅为GPT-5价格的四分之一 [9] - 发布后不到48小时内,模型在Hugging Face的下载量已超过5万次,成为该平台最热门的开源模型 [21] 技术架构与成本控制 - 模型采用1万亿参数的混合专家架构,但每次推理仅激活320亿参数,并使用原生INT4量化技术,将推理速度提升约2倍 [9] - 团队使用配备Infiniband的H800 GPU进行训练,强调对每张显卡性能的极致利用 [9] - 针对460万美元训练成本的传闻,公司回应称并非官方数据,且由于研究和实验成本占比较大,真实训练成本难以量化 [7][9] 产品特性与设计理念 - 当前版本更看重绝对性能而非token效率,模型能够连续执行200-300次工具调用来解决复杂问题 [11][13] - 采用端到端智能体强化学习训练方式,支持交错的“思考-工具”模式,这是开发过程中的主要挑战之一 [14] - 模型采用Modified MIT许可证,当被用于超过一亿月活用户或2000万美元月收入的商业产品时,需注明使用了Kimi K2模型 [18] 未来发展规划 - 对于K3的发布时间,公司给出了一个幽默且非具体的回应 [14] - 在多模态能力方面,公司决定先发布文本模型,因为训练视觉语言模型需要更多时间获取数据和调整训练 [15] - 公司透露KDA是其最新的实验性架构,相关理念可能应用于K3,该架构采用3:1的比例混合KDA和MLA路线,以优化性能、速度和显存占用 [22] 行业观点与竞争策略 - 公司拥抱开源,其理念是相信AGI应该是一种导致团结而不是分裂的追求 [17] - 对于是否会发布更大规模闭源模型,公司暗示会考虑模型安全性因素 [19] - 对于DeepSeek的OCR技术路线,公司联合创始人表达了不同看法,倾向于寻找更通用且与具体模态无关的方法来提升模型效率 [22]
比0.99元羊毛更重要的,是跟AI砍价的快乐
量子位· 2025-11-12 20:07
营销活动与用户参与 - 公司推出限时营销活动,用户可通过特定话术与AI互动将Kimi Agent会员价格从49元/月砍至0.99元/月 [1] - 活动时间为双十一当天至当月25日24:00,仅限新用户享受0.99元首月优惠,老用户通过分享链接给新用户并完成支付可额外获得一个月会员权限 [18] - 用户参与砍价活动的积极性高,通过多种创意Prompt(如夸赞、古风对话、卖惨、威胁、角色扮演等)与AI互动,成功获得优惠后成就感显著 [2][4][6][8][11][12][21] 产品技术特性 - 此次砍价活动背后的AI模型为Kimi K2 Thinking,该模型在推理和Agent任务方面能力突出 [22] - 模型交互体验被用户评价为具有强烈的“活人感”,互动过程生动拟人,部分用户反馈产生对面是真实存在的错觉 [23][24] 市场反应与用户行为 - 该营销策略在社交媒体(如小红书)引发广泛分享,用户积极交流砍价成功经验与话术技巧 [1][15] - 活动有效吸引了用户深度体验产品,部分用户表示此方式避免了去其他平台购买额外服务次数,提升了产品黏性 [20] - 活动存在时效性,早期有效的Prompt注入方法后期已失效,表明公司可能对互动规则进行了动态调整 [25]
国元证券:Kimi K2 Thinking模型发布 看好AI应用等主题方向
智通财经网· 2025-11-11 19:51
AI应用市场格局 - 10月全球AI应用MAU排名前五为ChatGPT、豆包、夸克、百度网盘、Gemini [1] - 豆包月度MAU达1.59亿,环比增长6.28%,超越夸克成为国产应用MAU首位 [1] - 原生AI应用中,腾讯元宝月活0.73亿,Deepseek月活0.72亿,字节即梦AI月活4511万,环比增长5.16% [1] - 行业重要事件包括OpenAI与亚马逊达成380亿美元算力合作、Kimi K2Thinking模型发布开源、科大讯飞发布讯飞星火X1.5及系列产品、OpenAI推出GPT-5-Codex-Mini [2] 游戏行业动态 - 11月6日IOS游戏畅销榜前三名为《崩坏:星穹铁道》、《王者荣耀》和《三角洲行动》 [3] - 《超自然行动组》推出新内容后周内排名15-25名,吉比特《杖剑传说》排名约40名 [3] - 盛趣游戏与芒果TV合作开启小游戏生态,三七互娱收到行政处罚,哔哩哔哩出品单机游戏《逃离鸭科夫》销量突破300万 [3] 影视行业表现与展望 - 周度总票房2.07亿元,冠军《即兴谋杀》票房4211.38万元,占比20.3% [3] - 后续8部影片待映,《鬼灭之刃:无限城篇第一章猗窝座再袭》猫眼想看57.9万人,《惊天魔盗团3》想看28.4万人 [3] - 《疯狂动物城2》定档11月26日上映,《阿凡达:火与烬》定档12月19日,进口片供给丰富 [3] 重点关注标的 - 公司建议关注巨人网络、恺英网络、姚记科技、神州泰岳、吉比特、浙数文化、完美世界、快手、美图公司、心动公司、上海电影、芒果超媒、南方传媒、皖新传媒 [1]
AI产业跟踪:月之暗面发布并开源KimiK2Thinking,关注国内大模型推理能力迭代进展
长江证券· 2025-11-11 19:18
行业投资评级 - 投资评级:看好,维持 [8] 核心观点 - 月之暗面发布并开源Kimi K2 Thinking模型,其为具有通用Agentic能力和推理能力的思考模型,是Kimi迄今能力最强的开源思考模型 [2] - 模型基于"模型即Agent"理念训练,原生掌握"边思考,边使用工具"的能力,无需人类干预即可自主实现高达300轮的工具调用和持续稳定的多轮思考能力 [2] - 考虑到成本是制约token消耗量的核心因素,Kimi K2 Thinking的出现有望开辟降本新范式 [2] - 继续看好国产AI产业链,持续重点推荐铲子股和卡位优势显著的巨头本身 [2] 模型能力与技术特点 - 推理性能全面提升:在HLE测试中以44.9%准确率超过GPT-5(41.7%)取得SOTA成绩 [10] - 自主搜索与浏览能力:BrowseComp测试得分60.2%(人类平均得分29.2%),超越GPT-5(54.9%)拿下SOTA,在BrowseComp-ZH、SEAL-0、FinSearchComp-T3等基准测试中均拿下SOTA成绩 [10] - Agentic编程能力增强:在Tau2 Bench Telecom基准测试中以93%分位列第一,在SWE-Multilingual、SWE-bench Verified、LiveCodeBench V6测试得分分别为61%、71%、83% [10] - 受益于长程规划和自主搜索能力提升,推理表现更稳定:可借助多达上百轮的"思考→搜索→浏览网页→思考→编程"动态循环,持续提出并完善假设、验证证据、进行推理 [10] - 通用基础能力升级:是少数具有多工具调用能力的开源模型,在无人干预情况下可连续调用200-300次工具 [10] - 工程落地层面提升推理效率与硬件兼容性:采用原生INT4量化,在后训练阶段采用量化感知训练(QAT),并对MoE组件应用INT4纯权重量化,使得模型支持原生INT4推理,生成速度提升约2倍 [10] 模型规格与定价 - 模型规格:MoE架构,总参数量1T,激活参数量32B,上下文长度256K,更好支持国产GPU [5] - 定价策略:价格与KimiK2-0905相同,输入4元/百万tokens,输出16元/百万tokens,命中缓存的输入为1元 [10] - 速度优化:提供速度高达100 Token/s的Turbo API,输入8元/百万tokens,输出58元/百万tokens,命中缓存的输入为1元 [10] - 模型定价略高于同期上新的Minimax-M2 [10]
罕见,月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI
36氪· 2025-11-11 12:25
公司技术进展与产品规划 - Kimi K2 Thinking模型当前版本优先考虑绝对性能而非token效率,推理时间较长的问题将在后续优化 [3] - 公司正在研究K2的视觉-语言版本,因获得正确的视觉-语言数据和训练需要时间,故先发布纯文本模型 [1][4] - 公司开源了混合线性注意力架构Kimi Linear,其KDA模块在预训练和强化学习阶段均优于采用RoPE的完整MLA,且更快、更经济,很可能以某种形式出现在K3中 [1][5] - 公司在模型中采用了未经其他厂商测试的优化器Muon,并已通过所有扩展测试,对研究成果充满信心 [7] - 公司未来将增加模型上下文长度,此前已尝试过100万个token的上下文窗口,但因服务成本过高未推广,未来会重新考虑 [11] - 公司已发布小型模型Kimi-Linear-48B-A3B-Instruct,未来可能训练更多模型并添加功能 [11] 产品性能与市场反馈 - Kimi K2 Thinking在HLE基准测试中得分较高,但在实际应用中的通用能力仍需提升,公司正努力改善以充分发挥智能作用 [4] - 模型采用INT4原生设计提升推理速度,其Turbo API会更快,推理token数量取决于模型训练方式 [4] - 模型独特的直接文风是后训练数据和评估的重要组成部分,获得用户认可 [5] - 有用户反馈Kimi已成为主要测试模型,但生产环境会切换到美国本土模型,部分企业因地缘风险担忧限制使用 [8][9] - 公司提供基于API请求次数的编程订阅方案,用户反映资源消耗偏高,公司承诺尽快找到更好方案 [12] 公司战略与行业互动 - 公司强调拥抱开源,认为对AGI的追求应带来团结而非分裂,开放安全对齐技术栈有助于微调开源模型时保持安全性 [2] - 公司暂无开发AI浏览器计划,认为做出更好模型无需套用新的Chromium壳,将专注于模型训练并更新kimi.com集成最新功能 [2][11] - 公司以开源作为消除企业部署顾虑的途径,希望建立更加信任的环境 [9] - 公司联合创始人调侃OpenAI,提及“Sam价值万亿美元的数据中心”及OpenAI烧钱问题,强调自有方式和节奏 [2] - 公司通过RedditAMA活动直面全球开发者尖锐提问,显示中国AI创新能力获得国际认可 [13]