Kimi K2 - 财报，业绩电话会，研报，新闻

Kimi K2

搜索文档

搜狐财经· 2025-11-24 17:49

消息指出，月之暗面希望在今年年底前完成本轮融资。有知情人士透露，公司已向部分潜在出资方表示，目标是在明年下半年启动IPO。来源：独角兽早知道据《华尔街日报》援引知情人士消息称，AI初创企业月之暗面最新一轮融资已进入收尾阶段，估值有望提升至约40亿美元（约合284.7亿元人民币）。多名知情人士表示，月之暗面正与IDG资本等多家全球机构洽谈资金，整体融资规模可能达到数亿美元，潜在投资方包括现有股东腾讯。凭借万亿参数基础模型Kimi K2，月之暗面为全球开源技术社区带来先进的代码和Agentic能力。月之暗面还打造了广受欢迎的AI助手产品Kimi，每月有数千万专业用户与Kimi一起拓展认知边界。月之暗面和IDG未立即回应置评请求。腾讯表示不予置评。综合 | 华尔街日报公司官网 DoNews 编辑 | Arti 月之暗面(Moonshot AI)创立于2023年初，核心技术团队聚集了Transformer-XL、RoPE、Group Normalization、ShuffleNet、MuonClip、Mooncake等多项关键AI技术的发明者，致力于寻求将能源转化为智能的最优解。日前，月之暗面发 ...

Artificial Intelligence

Kimi K2

Kimi

Kimi K2 Thinking

Artificial Intelligence

Kimi K2

Kimi

Kimi K2 Thinking

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

量子位· 2025-11-18 08:59

大模型竞技场排名表现 - Grok 4.1思考模式以1483的Elo分数位居大模型竞技场榜首，领先非xAI模型最高分31分[2] - Grok 4.1非思考模式以1465分排名第二，超越公开排行榜上所有其他模型的完整推理模式[3] - 相比之前Grok 4仅排第33位，xAI在不到半年时间实现巨大飞跃[4] - 在大模型竞技场新推出的专家榜上，Grok 4.1思考模式以1510分排名第一[5][6] - 在职业榜八个细分领域中，Grok 4.1在文学榜输给Gemini 2.5，数学榜输给Claude 4.5和o3，其他六个榜单均拿下第一[6] 技术性能提升 - 在EQ-Bench情商测试中，Grok 4.1表现超过刚发布不久的Kimi K2（非Thinking版本）[9] - 从11月1日起新版模型逐步推送用户，盲测对比评估显示64.78%的用户更喜欢新版[13] - 关闭推理功能后，输出标记数从约2300个减少到850个，实现快速回复模式特别加强[23] - 在后训练阶段专注于减少信息检索提示中的事实性幻觉，幻觉发生率显著降低[25] - 在包含500个个人传记问题的FActScore测试中，非推理模式成绩比前一代有明显改善[26] 功能特性改进 - 在创造性、情感性和协作性互动方面带来显著改进，模型更善于捕捉细微意图，对话更有吸引力[18] - 响应情感问题时表现出更强同理心，回答更加细腻和人性化[18] - 创意写作能力明显提升，回答更具文学性和思想深度[18] - 可以输出图文并茂的回答，展示多模态能力[26] - 团队使用大规模强化学习基础设施，将RLHF推向前所未有的高度，RL规模扩大一个数量级[19][20][22] 市场推广情况 - Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放[27] - 模型默认以自动模式推出，用户也可在模型选择器中明确选择Grok 4.1[27] - 由于模型刚发布，投票数还很少，等"Preliminary"标记消失后的成绩更有参考价值[8]

Artificial Intelligence

Reinforcement Learning from Human Feedback (RLHF)

Artificial Intelligence

Grok 4.1

Gemini 2.5

Claude 4.5

Artificial Intelligence

Reinforcement Learning from Human Feedback (RLHF)

Artificial Intelligence

Grok 4.1

Gemini 2.5

Claude 4.5

月之暗面：登顶全球“K2”背后的北京AI攀登者

新京报· 2025-11-14 21:12

公司战略调整与产品发布 - 2025年7月，公司将新一代开源大模型命名为“K2”，该模型发布后登顶全球开源模型榜单并获得国际关注[1] - 面对2025年初用户增长失速（月活从高峰期的数千万跌至5月的1408万）和市场竞争加剧的困境，公司做出关键决策：停止大规模投流，回归基础技术研发[3] - 2025年9月，公司更新K2的0905版本以提升编程能力，并于11月6日推出并开源K2 Thinking[1] - 2025年9月，公司在海内外上线全栈智能体助手OK Computer，专注于完成复杂的调度工作[6] 技术突破与行业认可 - K2模型是全球首个万亿参数、320亿激活的MoE架构模型，其发布在硅谷圈引起轰动[4] - 著名投资人查马斯·帕里哈皮蒂亚在播客中表示将大量工作负载转到Kimi K2，原因是其性能强且比OpenAI和Anthropic便宜太多[5] - 公司坚持自主研发通用基座模型的战略，认为每一次技术突破带来的新挑战会驱动知识和技术的无限进步[5] 商业化探索 - 公司首次开启订阅付费计划，设置49元/月、99元/月、199元/月三档套餐，打包“深度研究”与“OK Computer”等功能并附赠API兑换券[7] - 2025年10月24日，公司上线Kimi For Coding包月套餐，基于K2旗舰模型帮助个人开发者无需顾虑token消耗[7] - 公司通过开源K2的策略积累开发者生态势能，以较低营销成本对抗竞争对手并推广“生产力工作流”叙事[8] 行业背景与定位 - 公司的发展历程折射出北京在全球AI产业浪潮中正扮演着越来越重要的角色，其所在地北京市海淀区正在成为比肩硅谷的全球AI创新中心[1][9] - 公司的开源策略与北京“建设开源之都”的理念相契合，K2继承了DeepSeek-V3的架构并在此基础上创新，体现了北京AI产业生态的技术传承与创新结合[9] - 当其他AI创业公司转向垂直领域或To B市场时，公司依然坚守通用人工智能的道路，这种坚持让北京在全球AI产业竞争中保持独特优势[9][10]

OpenAI深夜悄悄甩出GPT-5.1，称更热情，更智能！网友狂吐槽：我不想和它聊天，我想用它工作

AI前线· 2025-11-13 11:15

GPT-5.1模型升级核心要点 - OpenAI发布GPT-5.1作为GPT-5的升级版，旨在使ChatGPT更智能且对话更愉快[2] - 新发布两款模型：GPT-5.1 Instant和GPT-5.1 Thinking，前者更热情智能且善于遵循指令，后者更易理解且处理任务速度更快[3] - 系统通过GPT-5.1 Auto自动将用户查询匹配到最合适模型，旧版GPT-5模型将在三个月后下架[3][11] 模型性能具体改进 - GPT-5.1 Instant运用自适应推理技术，能自主决定思考时机，在AIME 2025和Codeforces等测试中表现显著提升[5][6] - GPT-5.1 Thinking能更精准调整思考时间，对复杂问题给出更详尽答案，对简单问题响应更快[8] - 新版模型在大多数情况下能提供更智能、语气更自然的回答[11] 拟人化与用户体验优化 - 用户界面增加更多个性/语气选项，包括友好、坦率、古怪等，所有模型均适用这些设置[2][13][15] - 公司允许用户在个性化设置中精细控制回复的简洁程度、亲切程度等特性[15] - 行业分析认为模型拟人化能提升用户体验与黏性，扩展应用场景，并降低技术使用门槛[18] 市场推广与部署计划 - GPT-5.1将首先向付费用户推出，随后覆盖免费用户，企业版和教育版用户有七天提前体验期[11] - OpenAI计划在未来几天内逐步推送更新，以确保所有用户获得稳定性能体验[11] - 公司表示很快会将GPT-5 Pro更新至GPT-5.1 Pro[11] 行业竞争与用户反馈 - Anthropic公司同样训练Claude模型的性格，使其具备好奇、开明等特质，并研究“人格向量”技术机制[17] - 部分用户对强化个性方向表示质疑，认为AI应作为高效生产力工具而非情感支持[20][21][22] - 有用户指出Kimi K2模型在反驳用户方面表现突出，适合用于辩论或打磨文章思路[23]

模型拟人化

人格向量

Artificial Intelligence

Artificial Intelligence

GPT-5.1

ChatGPT

Kimi K2

K2 Thinking再炸场，杨植麟凌晨回答了21个问题

36氪· 2025-11-12 21:35

文章核心观点 - 月之暗面发布万亿参数开源模型K2 Thinking，在推理和任务执行等前沿能力基准测试中表现优异，甚至在某些榜单上超过GPT-5 [15] - 公司采取专注Agentic能力的策略，通过长思维链和高效工具调用设计，旨在让AI真正完成复杂任务而非仅用于聊天 [21][22] - 在芯片等基础设施受限的背景下，国产大模型通过算法创新加速发展，各厂商根据自身商业目标选择不同的技术路线，形成差异化竞争格局 [29][31][32] K2 Thinking模型技术特点 - 模型为1万亿参数的稀疏混合专家架构，实际运行时激活参数控制在300亿，平衡了性能与速度 [14][21] - 采用INT4量化手段，百万token输出价格仅为2.5美元，是GPT-5价格的四分之一，具备显著成本优势 [16] - 核心长板为长程执行能力，可连续执行200-300次工具调用来解决复杂问题，保证任务连续性 [22][56] - 通过端到端智能体强化学习训练，实现了交错“思考-工具”模式的稳定运行，这是大语言模型中相对较新的挑战 [56][57] 模型性能与市场定位 - 在高难度测试集HLE和BrowseComp等Agent榜单上，分数超过了GPT-5 [15] - 市场定位为GPT-5和Claude Sonnet 4.5的“平替”，专注于将文本模型能力做到极致，探索智能上限 [16][32] - 团队选择性能优先的策略，暂时不太考虑Token消耗效率，以确保Agent更可用 [21][32] 训练成本与硬件配置 - 团队澄清460万美元训练成本“不是官方数字”，强调主要成本在于研究和实验，难以量化 [8][34] - 训练在配备Infiniband的H800 GPU上进行，虽在GPU数量上处于劣势，但将每张显卡性能压榨到极致 [29][37] 技术路线与行业趋势 - 国产大模型在算法创新上加快进程，月之暗面、智谱、MiniMax等厂商接力开源，在全球榜单上表现亮眼 [17][29] - 面对长上下文处理问题，各厂商选择不同路径：MiniMax M2回退到全注意力机制求稳定；月之暗面则采用更激进的KDA+MLA混合架构 [31] - 中国开源模型的应用生态正在形成优势，吸引海外开发者构建应用并提供反馈，预计将带来更多应用爆发 [33] 未来发展规划 - 下一代K3模型计划引入重大架构更改，KDA实验架构的相关想法很可能被采用 [62] - 公司重心仍在模型训练，暂无计划推出AI浏览器类产品，认为做好模型无需再做浏览器“壳” [63][64] - 公司拥抱开源策略，相信AGI应是导致团结的追求，并考虑开源安全对齐技术栈以惠及社区 [65][66] - 未来会重新审视更长的上下文窗口，并可能发布更多如Kimi Linear的小模型作为研究演示 [44][45][46]

Artificial Intelligence

AGI（通用人工智能）

Artificial Intelligence

K2 Thinking

Kimi K2

Minimax M2

Artificial Intelligence

AGI（通用人工智能）

Artificial Intelligence

K2 Thinking

Kimi K2

Minimax M2

杨植麟回复：Kimi K2训练用的H800！但“只花了460万美元”嘛…

量子位· 2025-11-11 19:11

文章核心观点 - Kimi K2 Thinking模型以显著低于行业水平的训练成本（传闻约460万美元）实现了卓越性能，其开源策略和工程创新正在引发硅谷开发者和企业从闭源模型向该模型的迁移潮 [1][5][13][14] 训练成本与行业影响 - 传闻Kimi K2 Thinking训练成本约为460万美元，低于DeepSeek V3的约560万美元，但公司澄清此非官方数据，并指出训练成本因包含大量研究和实验而难以精确计算 [1][13] - 低成本高性能的开源模型引发市场对闭源巨头高估值的反思，并可能推动对月之暗面公司的价值重估 [14][15] 技术架构与工程创新 - 模型架构继承并优化了DeepSeek等开源成果，将MoE层专家数量从256个增至384个以扩大知识容量，同时将每次推理激活参数量从约370亿降至320亿以降低推理成本 [16] - 词汇表从129K扩大至160K，并减少了MoE前的密集前馈网络块，进一步优化计算效率 [16] - 采用自研MuonClip优化器，在15.5万亿token的训练过程中实现了零训练崩溃，无需人为干预重启 [18] - 采用量化感知训练方案，实现原生INT4精度推理，在提升推理速度约2倍的同时将性能损失降至最低 [21] 市场反响与性能表现 - 硅谷投资人Chamath Palihapitiya将其新公司AI负载迁移至Kimi K2，原因是其性能更强且价格便宜得多 [6] - 云端开发平台Vercel CEO内部测试显示，Kimi K2比闭源模型快5倍，准确率高50% [8] - Claude Code用户相互传授将模型切换为Kimi K2的设置方法 [9] 公司未来规划与产品路线 - 下一代K3模型可能采用实验性混合注意力机制KDA，在同等条件下性能优于采用RoPE的模型，且速度更快、效率更高 [24] - 将很快推出类似Claude Code的Kimi Code产品，视觉语言模型正在开发中 [27] - 承认K2 Thinking思考过程过长、效率较低，下一版会将简化思考过程写入奖励函数 [27] - 曾尝试1M上下文窗口但因服务成本过高而搁置，未来会重新考虑更长的上下文窗口 [27]

杨植麟带 Kimi 团队深夜回应：关于 K2 Thinking 爆火后的一切争议

AI前线· 2025-11-11 14:42

文章核心观点 - 月之暗面公司发布并开源了Kimi K2 Thinking模型，该模型被定位为“模型即Agent”，在多项关键基准测试中表现优异，甚至超越了GPT-5、Claude 4.5等顶级闭源模型[2][10] - 该模型的核心创新在于其“原生智能体”设计，通过KDA注意力机制、原生INT4量化等系统性工程优化，实现了在推理、编码、搜索和写作等任务上的能力跃迁，标志着开源模型首次具备正面对抗闭源巨头的实力[27][28][30][41] 模型性能与基准测试 - 在HLE基准测试中，Kimi K2 Thinking得分44.9，高于GPT-5的41.7和Claude 4.5的32[12] - 在BrowseComp测试中，Kimi K2 Thinking得分60.2，显著高于GPT-5的54.9和Claude 4.5的24.1[12] - 在AIME25数学推理测试中，Kimi K2 Thinking达到99.1%，与GPT-5的99.6%和Claude 4.5的100%几乎持平[12] - 模型支持256k上下文窗口，输入定价为每百万tokens 0.60美元，输出定价为每百万tokens 2.50美元，具备成本优势[12] - 模型可稳定完成200-300次连续工具调用，远超竞争对手的数十次水平[12][29] 技术创新与架构 - 模型引入了关键的KDA注意力机制，采用“增量更新+门控”方式，解决了MoE模型长上下文一致性差和KV缓存大的问题，相关设计思想将延续到下一代K3模型[15][38] - 通过采用原生INT4量化感知训练，模型在几乎不损失精度的前提下，推理速度提升约两倍，显存占用显著下降[35][36] - KDA机制通过增量式计算将KV缓存与显存开销减少约75%，结合MoE架构，共同保障了模型在长推理任务中的稳定表现[38][39] 团队回应与未来规划 - 公司联合创始人杨植麟确认团队正在开发视觉语言模型[18] - 对于网传的460万美元训练成本，公司澄清并非官方数据，强调训练成本难以量化[20] - 团队承认模型在响应速度上相比GPT-5有5-10倍差距，但解释这是为追求思维深度所做的权衡，并正在积极提升token效率[20][21] - 团队认可用户关于模型输出存在“slop问题”的反馈，表示已在减少语言啰嗦重复方面取得进展，并计划在未来版本中提升情绪表达的真实性和开放性[23][25] 应用能力与市场定位 - 模型在SWE-bench Verified编码基准测试中达到71.3%，展现出“智能体级”开发能力，能够完成从需求理解到调试验证的完整闭环[32] - 在智能搜索任务中，模型具备“边搜索边推理”的能力，能够通过多轮“思考-工具调用”循环处理复杂问题[34] - 模型在创意写作和学术研究场景中表现出色，能将零散灵感组织成结构清晰的长篇文本，并保证逻辑一致性[35] - 此次发布被视为公司在行业空窗期的一次“翻身仗”，为开源阵营提供了对抗闭源巨头的底气[27]

硅谷有多少是建立在中国人工智能之上的？——彭博社 --- How Much of Silicon Valley is Built on Chinese AI - Bloomberg

彭博· 2025-11-11 09:01

行业投资评级 - 报告未明确给出行业投资评级 [1][4][5][6][7][8][9][10][11][12][13][14][15][17][18][19][20][21][28] 核心观点 - 低成本、开源的中国AI模型正吸引全球用户并悄然赢得硅谷公司的青睐 [6][7] - 中国AI模型在开发者累计下载量方面已超越美国模型，市场格局发生显著变化 [17][18] - 尽管美国在尖端芯片和计算能力上仍具优势，但中国通过开源策略正吸引AI创新的核心开发者群体 [20] 市场动态与趋势 - 风险投资家Chamath Palihapitiya透露其合作公司已将主要工作量转移至月之暗面科技的Kimi K2模型，因其成本远低于OpenAI和Anthropic [8] - Airbnb公司CEO Brian Chesky承认其新服务代理系统非常依赖阿里巴巴的通义千问系列，认为其性能出色、速度快且价格低廉 [9][10] - 由OpenAI前首席技术官创立的Thinking Machines Lab公开表示其最新研究灵感源自并构建于阿里巴巴Qwen3团队的工作成果之上 [10][11] 具体案例与数据支撑 - 估值约100亿美元的AI编程先锋Cursor发布的新版智能助手被怀疑底层采用深度求索等中国AI工具 [12][13] - 另一家估值约100亿美元的美国公司Cognition AI Inc的新编码代理产品似乎构建在智谱AI的基础模型之上 [14][15] - 截至上月，阿里巴巴Qwen模型累计下载量达3.853亿次，超越Meta公司Llama模型的3.462亿次 [17][18] - 基于Qwen构建的衍生系统占Hugging Face平台新发布语言模型的40%以上，而Meta的份额降至15% [17][18] 竞争格局分析 - 英伟达公司CEO黄仁勋最初断言中国将赢得AI竞赛，后修正为美国仅落后几纳秒，但强调争夺开发者的重要性 [4] - 中国AI模型的开源许可特性使得企业可以自由基于其开发产品，这对开发者具有强大吸引力 [15] - 对于争分夺秒发布产品的开发者而言，在权衡价格和性能时，地缘政治风险显得无足轻重 [19]

Artificial Intelligence

Qwen

Llama

Kimi K2

Artificial Intelligence

小熊跑的快· 2025-11-10 07:23

文章核心观点 - Kimi K2模型在多项测试中表现优于GPT-5和Claude 4.5 Grok4，属于开源前沿模型[5] - 中国在AI模型追赶和工程压榨算力方面能力突出，差距正在缩小，未来可能实现AI软硬件反向出口[5] 模型技术特点 - Kimi K2是一个围绕一万亿个参数构建的混合专家模型，每次推理激活320亿个参数[2] - 模型将长远推理与结构化工具使用相结合，无需人工干预即可执行多达200-300次连续工具调用[2] - 模型采用修改后的MIT许可证，授予完整的商业和衍生权利，但对月活超1亿或月收入超2000万美元的部署者有显示要求[2] - 开发了MuonClip工具，在15.5T tokens上进行预训练，实现了零训练尖峰，是LLM训练的稳健解决方案[5] - 通过大规模Agentic数据合成技术教模型使用工具[5] 成本与价格优势 - Kimi K2训练成本为460万美元，较DeepSeek的550万美元进一步压缩了算力成本[2] - DeepSeek定价为输入每百万tokens 0.2元，输出每百万tokens 3元[4] - GPT-5定价为输入每百万tokens 1.25美元，输出每百万tokens 10美元[3] 市场表现与影响 - Kimi K2模型目前在社区下载量排名第一[5] - 模型开源并托管在Hugging Face上，有利于迅速打入市场并被广泛接受[2] - 主要媒体对Kimi K2均给予了篇幅报道[1]

国产AI杀疯美股赛场！豆包领跑，包揽交易大赛前三

搜狐财经· 2025-11-07 15:01

赛事结果与排名 - 在美股AI交易大赛RockAlpha中，国产模型豆包以7.09%的收益率获得冠军，MiniMax M2与Kimi K2分列第二、三位，实现国产模型包揽前三[1] - 赛事汇集了包括GPT-5、Claude、Gemini在内的12款国内外主流AI模型，最终结果凸显国产模型的强势崛起[1][3] - 此前稳居榜首的DeepSeek排名滑落但仍保持在第一梯队，而谷歌Gemini与阿里Qwen暂时垫底，GPT-5、Claude Sonnet等国际模型表现平平，未能突破收益瓶颈[5] 赛事设计与评估维度 - 大赛在美股三大特色赛场展开实时博弈：Meme股票赛场考验对情绪驱动型资产的判断，AI科技股赛场检验行业趋势研判，经典高流动性资产赛场衡量风险控制能力[3] - 多维度场景设置旨在规避单一市场环境下的运气成分，全面考核AI的交易策略、风险管控与实时决策能力[3] 领先国产模型的差异化策略 - 冠军豆包采用“重仓押注+精准择时”策略，其在IREN股票上的持仓占比超过53%，单日盈利突破7000美元，对中小盘成长股的估值判断与市场情绪捕捉精准[3] - 亚军MiniMax M2与季军Kimi K2走“稳健价值”路线，分别聚焦美光科技、英伟达等AI科技龙头股，凭借对行业基本面的深度研判获得稳定收益[3] 核心技术优势与竞争差异 - 表现突出的国产模型具备三大共性技术：支持10万级以上金融文本上下文处理，能快速整合财报、研报与新闻；采用动态策略调整机制，可根据市场波动率实时优化持仓；内置多因子风险模型以规避黑天鹅风险[5] - 国际模型在通用能力上具优势，但在美股细分场景的适配性上存在短板，尤其在需要快速解读市场热点、散户行为等非结构化信息的Meme股票领域[5] - 国产模型近期强化了金融文本语义理解与实时数据处理能力，形成了在特定垂直场景的竞争优势[5] 行业意义与发展趋势 - 赛事结果印证国产大模型正从“通用能力追赶”转向“场景化超越”，在金融交易等高价值垂直领域，通过针对性技术优化与数据训练，已实现对国际顶尖模型的弯道超车[8] - 国产模型在赛事中展现的场景适配能力，或将成为其抢占金融AI赛道的核心竞争力[8]