Kimi Linear架构 - 财报，业绩电话会，研报，新闻

Kimi Linear架构

搜索文档

独家｜上轮才过几周，Kimi开启新一轮融资！估值直冲48亿美元，机构正疯狂“抢配”月之暗面

搜狐财经· 2026-01-20 05:25

融资与估值动态 - 公司正在进行新一轮融资距离上一轮融资公布仅数周时间融资进程迅速 [2] - 本轮融资的投前估值已接近48亿美元较数周前的投后估值43亿美元单溢价高达5亿美元估值在短期内大幅提升 [2] - 由于市场需求极度旺盛此轮融资可能很快就会完成 [2] - 针对48亿美元估值的具体细节公司官方目前尚未发表评论 [4] 资本环境与市场地位 - 在智谱与MiniMax近期于香港成功上市并引发破竹之势后投资人正以前所未有的热情涌向公司 [2] - 在智谱和MiniMax上市并交出惊人的市值表现后原本犹豫的一线机构正蜂拥而至争抢公司融资额度 [2] - 公司被视为最后一家具备顶级竞争力的非上市独角兽 [2] - 随着OpenAI等美国AI服务在华限制持续中国本土AI龙头正迎来空前的“主场红利” [4] - 公司是阵营中唯一保持独立节奏、未被二级市场波动的顶尖标的 [4] 公司战略与财务状况 - 创始人明确表示公司目前并不急于推进IPO进程 [3] - 公司目前持有超过100亿人民币的充足现金储备有资本在长跑中保持自己的节奏而非受限于短期财报压力 [3] - 创始人认为大模型竞赛远未进入下半场目前的重点应放在下一代推理模型的研发与底层算力集群的扩容上目标是实现智能上限的阶跃 [3] 核心技术优势 - 公司吸引巨量资金加码不仅因为其在“长文本”和“复杂推理”领域的技术壁垒更因为它是投资人眼中布局中国AI未来、对抗外部不确定性的核心资产 [2] - 在技术路径上公司主张将「Token效率」作为核心主线认为Scaling Law的本质是“将能源转化为智能” 在存量数据有限的现实下必须力求用更少的数据换取更高的智能 [3] - 公司为此推出了两项关键技术：一是「Muon二阶优化器」实现了两倍的Token效率提升意味着达到同样的智能水平只需一半的数据量 [3] - 二是「Kimi Linear架构」首次让线性注意力机制在长上下文任务中超越了全注意力模型端到端速度提升了6到10倍 [3] - 对于Agent的推理本质创始人认为是一个搜索过程高Token效率的基础模型提供了强大的先验知识而长上下文则构成了模型的工作记忆 [4] - 创始人认为开发模型是在创造一种世界观每个模型产生的Token都是独一无二的 [4]

罕见，月之暗面杨植麟、周昕宇、吴育昕回应一切：打假460万美元、调侃OpenAI

36氪· 2025-11-11 12:25

公司技术进展与产品规划 - Kimi K2 Thinking模型当前版本优先考虑绝对性能而非token效率，推理时间较长的问题将在后续优化 [3] - 公司正在研究K2的视觉-语言版本，因获得正确的视觉-语言数据和训练需要时间，故先发布纯文本模型 [1][4] - 公司开源了混合线性注意力架构Kimi Linear，其KDA模块在预训练和强化学习阶段均优于采用RoPE的完整MLA，且更快、更经济，很可能以某种形式出现在K3中 [1][5] - 公司在模型中采用了未经其他厂商测试的优化器Muon，并已通过所有扩展测试，对研究成果充满信心 [7] - 公司未来将增加模型上下文长度，此前已尝试过100万个token的上下文窗口，但因服务成本过高未推广，未来会重新考虑 [11] - 公司已发布小型模型Kimi-Linear-48B-A3B-Instruct，未来可能训练更多模型并添加功能 [11] 产品性能与市场反馈 - Kimi K2 Thinking在HLE基准测试中得分较高，但在实际应用中的通用能力仍需提升，公司正努力改善以充分发挥智能作用 [4] - 模型采用INT4原生设计提升推理速度，其Turbo API会更快，推理token数量取决于模型训练方式 [4] - 模型独特的直接文风是后训练数据和评估的重要组成部分，获得用户认可 [5] - 有用户反馈Kimi已成为主要测试模型，但生产环境会切换到美国本土模型，部分企业因地缘风险担忧限制使用 [8][9] - 公司提供基于API请求次数的编程订阅方案，用户反映资源消耗偏高，公司承诺尽快找到更好方案 [12] 公司战略与行业互动 - 公司强调拥抱开源，认为对AGI的追求应带来团结而非分裂，开放安全对齐技术栈有助于微调开源模型时保持安全性 [2] - 公司暂无开发AI浏览器计划，认为做出更好模型无需套用新的Chromium壳，将专注于模型训练并更新kimi.com集成最新功能 [2][11] - 公司以开源作为消除企业部署顾虑的途径，希望建立更加信任的环境 [9] - 公司联合创始人调侃OpenAI，提及“Sam价值万亿美元的数据中心”及OpenAI烧钱问题，强调自有方式和节奏 [2] - 公司通过RedditAMA活动直面全球开发者尖锐提问，显示中国AI创新能力获得国际认可 [13]

Kimi开源新线性注意力架构，首次超越全注意力模型，推理速度暴涨6倍

量子位· 2025-10-31 14:27

核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型，标志着AI架构可能正告别对传统Transformer的路径依赖，迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention，通过引入细粒度遗忘门控，使模型能在每个通道维度上独立控制记忆保留，保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule，在数学上保证了稳定性，即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计，每3层线性注意力后加1层全注意力，以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码，让KDA通过时间衰减核函数自行学习序列位置信息，结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中，Kimi Linear减少了75%的KV缓存需求，并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下，Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为：MMLU得分73.8超越基线的71.6，MMLU-Pro得分51.0超越基线的47.2，BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高，如GSM8K得分83.9，MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”，使GPU在并行计算时能一次性处理更多内容，吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化，极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架，无需改动模型结构或缓存管理，任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法，状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力，通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer，因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现，刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制，显示技术路线存在多样性 [33]

线性注意力

全注意力模型

Artificial Intelligence

Artificial Intelligence

Kimi Linear架构

Transformer

Mamba