Kimi Linear架构
搜索文档
Kimi创始人杨植麟:未来AI研发将进入AI主导时代
凤凰网财经· 2026-03-29 18:49
月之暗面创始人杨植麟演讲核心观点 - 大模型的本质是将能源转化为智能,规模化是行业发展的核心基础,但规模化并非暴力堆砌算力与能源,而是以升级效率为核心 [1] - 公司围绕三大方向构建规模化策略:Token效率、长上下文、Agent集群,旨在有限资源下实现智能最大化 [1] 公司规模化策略三大方向 - **提升Token效率**:通过更优的网络架构与优化器,从等量的有效数据(有限常量)中学习更多智能 [3] - **拓展长上下文能力**:通过自研Kimi Linear架构,让模型在更长输入下获得更低的损失函数,从而支撑更长输出与更复杂任务的执行 [3] - **突破Agent效率瓶颈**:在最新发布的旗舰模型K2.5中,首创了Agent集群技术,以彻底打破单一智能体的效率瓶颈 [3] 大模型训练三阶段演进 - **第一阶段(约三年前)**:行业主要使用互联网天然数据,搭配少量人工标注,通过标注判断内容是否符合价值观与偏好 [3] - **第二阶段(2025年)**:行业更加重视大规模强化学习系统,由人工筛选高质量任务并定义任务,再通过强化学习提升模型效果,编程、数学等领域的性能提升主要源于此路线 [3] - **第三阶段(未来几年)**:人工智能的研究与研发方式将发生重大变化,越来越多的研究工作将由AI主导,每个研究员将配备海量的Token,由AI自动合成新任务、构建新环境、定义最优奖励函数,甚至自主探索全新网络架构,从而进一步加快整个AI领域的研发速度 [3]
杨植麟讲如何scaled Kimi K2.5完整图文版/压缩版/视频版
理想TOP2· 2026-03-22 20:52
文章核心观点 - 公司致力于通过技术创新构建更优秀的开源模型,以实现智能的民主化,其核心策略是围绕“Scaling Law”从多个维度扩展模型能力,包括提升Token效率、扩展上下文长度以及引入智能体群范式 [8][9][13] - 公司最新发布的Kimi 2.5模型及下一代架构Attention Residue,通过Muon优化器、Kimi Linear架构、原生多模态融合等多项自研技术,在性能上实现了对现有主流架构和优化方法的全面超越,并展示了开源模型触及前沿的潜力 [4][70][72][87][111] 模型扩展的核心维度与技术 Token效率提升 - **核心原理**:Token效率不仅关乎基础设施成本,更决定了智能的上限,提高Token效率相当于在有限的高质量数据下获得更优的模型性能 [15][21] - **Muon优化器**:作为公司大力投资的二阶优化器,其梯度更新方式使每个条目彼此正交,相比传统Adam优化器能获得**两倍**的Token效率提升,例如将**50万亿**个高质量Token的效用提升至相当于**100万亿**个 [2][23][24] - **QK-Clip技术**:在向万亿参数规模扩展时,为解决训练中出现的logits爆炸问题,公司引入了QK-Clip技术,通过在前向传播中计算并限制每个注意力头的Query和Key投影最大值,确保了训练的稳定性 [2][30][34] - **实际效果**:在相同参数和训练Token数量下,使用Muon优化器替换AdamW,模型在MMLU、代码生成(HumanEval)、数学(GSM8K)等多个基准测试上性能显著提升,并成功扩展到万亿参数模型的训练 [27][28][35] 长上下文能力扩展 - **架构挑战**:原始线性注意力的全局单一衰减因子导致模型在长上下文处理中陷入“全盘保留或彻底遗忘”的困境,缺乏精准剔除冗余信息的能力 [3][44][45] - **Kimi Delta Attention**:通过将全局标量衰减因子升级为细粒度的对角矩阵,赋予每个通道独立的衰减控制权,允许特定通道长效留存关键信息而其他通道快速刷新,从而增强了模型的表达能力 [3][46][47] - **Kimi Linear架构**:以**1:3**的比例混合线性注意力层与全注意力层,并利用数学等价变换实现分块并行化计算,在不损失精度的前提下适配现代GPU算力,实现了对全注意力架构的全面超越,在短上下文和长上下文任务上均表现更优 [3][42][53][55][56] 智能体群(Agent Swarms)范式 - **范式原理**:为突破单智能体在复杂任务中串行执行时间和处理容量的瓶颈,智能体群范式借鉴人类社会分工,通过一个协调器将任务拆解并分配给多个并行工作的子智能体,在输入、输出和行动维度实现规模化扩展 [4][16][58] - **训练创新**:为克服训练中的串行崩溃与子任务作弊行为,引入了由实例化奖励、完成奖励和结果奖励构成的三位一体目标函数,有效引导系统学习并行、有意义的任务分解与执行 [4][67] - **性能优势**:与单智能体相比,智能体群能显著降低复杂任务的执行时间,并能扩展至由数百甚至数千个子智能体协同工作,以在可接受的时间内完成产生经济价值的复杂任务 [4][62][65] Kimi 2.5模型的关键创新 - **训练稳定性**:模型训练过程超过**15万亿**个Token(另有额外**15万亿**个Token的训练),全程非常稳定,没有损失尖峰,这得益于Muon等新技术的引入 [74] - **原生多模态融合**:Kimi 2.5是首个从预训练第一天起就将视觉与文本模态统一映射到共享嵌入空间和表示空间的开源模型,这种早期融合策略优于后期添加视觉能力的做法,催生了如“视觉到代码”等新兴能力 [4][77][78][79] - **模态相互增强**: - **视觉增强文本**:仅使用视觉任务进行强化学习后,模型在纯文本任务(如MMLU-Pro、GPQA-Diamond)上的性能也得到了提升,例如MMLU-Pro从**84.7**提升至**86.4** [80][81] - **文本增强视觉**:凭借强大的文本基础,模型在**不使用任何视觉SFT数据**,仅通过文本SFT与联合强化学习的情况下,在视觉问答等任务上实现了接近最先进的性能 [4][83][84] 下一代架构展望:Attention Residue - **设计灵感**:将时间维度(如LSTM)的成功经验平移至深度维度,将传统的固定加法形式的残差连接(被视为旋转了90度的LSTM)推广为旋转了90度的注意力机制 [4][93][94][95] - **核心机制**:通过聚合所有先前层的隐藏状态,并使用注意力机制来计算当前层的输出,而非仅依赖上一层输出 [4][98][99] - **效率优化**:采用块注意力残差方案,将网络层划分为多个块,在块内保留标准残差连接,仅在块间应用注意力残差,以平衡计算开销与性能 [4][100][101] - **预期收益**:该架构能将Token效率提升**24%**(例如,**50万亿**个高质量Token的效用提升至超过**60万亿**),并在验证损失和编码、数学等推理密集型任务上显示出改进 [4][103]
独家|上轮才过几周,Kimi开启新一轮融资!估值直冲48亿美元,机构正疯狂“抢配”月之暗面
搜狐财经· 2026-01-20 05:25
融资与估值动态 - 公司正在进行新一轮融资 距离上一轮融资公布仅数周时间 融资进程迅速 [2] - 本轮融资的投前估值已接近48亿美元 较数周前的投后估值43亿美元 单溢价高达5亿美元 估值在短期内大幅提升 [2] - 由于市场需求极度旺盛 此轮融资可能很快就会完成 [2] - 针对48亿美元估值的具体细节 公司官方目前尚未发表评论 [4] 资本环境与市场地位 - 在智谱与MiniMax近期于香港成功上市并引发破竹之势后 投资人正以前所未有的热情涌向公司 [2] - 在智谱和MiniMax上市并交出惊人的市值表现后 原本犹豫的一线机构正蜂拥而至 争抢公司融资额度 [2] - 公司被视为最后一家具备顶级竞争力的非上市独角兽 [2] - 随着OpenAI等美国AI服务在华限制持续 中国本土AI龙头正迎来空前的“主场红利” [4] - 公司是阵营中唯一保持独立节奏、未被二级市场波动的顶尖标的 [4] 公司战略与财务状况 - 创始人明确表示 公司目前并不急于推进IPO进程 [3] - 公司目前持有超过100亿人民币的充足现金储备 有资本在长跑中保持自己的节奏 而非受限于短期财报压力 [3] - 创始人认为 大模型竞赛远未进入下半场 目前的重点应放在下一代推理模型的研发与底层算力集群的扩容上 目标是实现智能上限的阶跃 [3] 核心技术优势 - 公司吸引巨量资金加码 不仅因为其在“长文本”和“复杂推理”领域的技术壁垒 更因为它是投资人眼中布局中国AI未来、对抗外部不确定性的核心资产 [2] - 在技术路径上 公司主张将「Token效率」作为核心主线 认为Scaling Law的本质是“将能源转化为智能” 在存量数据有限的现实下 必须力求用更少的数据换取更高的智能 [3] - 公司为此推出了两项关键技术:一是「Muon二阶优化器」 实现了两倍的Token效率提升 意味着达到同样的智能水平只需一半的数据量 [3] - 二是「Kimi Linear架构」 首次让线性注意力机制在长上下文任务中超越了全注意力模型 端到端速度提升了6到10倍 [3] - 对于Agent的推理本质 创始人认为是一个搜索过程 高Token效率的基础模型提供了强大的先验知识 而长上下文则构成了模型的工作记忆 [4] - 创始人认为开发模型是在创造一种世界观 每个模型产生的Token都是独一无二的 [4]
罕见,月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI
36氪· 2025-11-11 12:25
公司技术进展与产品规划 - Kimi K2 Thinking模型当前版本优先考虑绝对性能而非token效率,推理时间较长的问题将在后续优化 [3] - 公司正在研究K2的视觉-语言版本,因获得正确的视觉-语言数据和训练需要时间,故先发布纯文本模型 [1][4] - 公司开源了混合线性注意力架构Kimi Linear,其KDA模块在预训练和强化学习阶段均优于采用RoPE的完整MLA,且更快、更经济,很可能以某种形式出现在K3中 [1][5] - 公司在模型中采用了未经其他厂商测试的优化器Muon,并已通过所有扩展测试,对研究成果充满信心 [7] - 公司未来将增加模型上下文长度,此前已尝试过100万个token的上下文窗口,但因服务成本过高未推广,未来会重新考虑 [11] - 公司已发布小型模型Kimi-Linear-48B-A3B-Instruct,未来可能训练更多模型并添加功能 [11] 产品性能与市场反馈 - Kimi K2 Thinking在HLE基准测试中得分较高,但在实际应用中的通用能力仍需提升,公司正努力改善以充分发挥智能作用 [4] - 模型采用INT4原生设计提升推理速度,其Turbo API会更快,推理token数量取决于模型训练方式 [4] - 模型独特的直接文风是后训练数据和评估的重要组成部分,获得用户认可 [5] - 有用户反馈Kimi已成为主要测试模型,但生产环境会切换到美国本土模型,部分企业因地缘风险担忧限制使用 [8][9] - 公司提供基于API请求次数的编程订阅方案,用户反映资源消耗偏高,公司承诺尽快找到更好方案 [12] 公司战略与行业互动 - 公司强调拥抱开源,认为对AGI的追求应带来团结而非分裂,开放安全对齐技术栈有助于微调开源模型时保持安全性 [2] - 公司暂无开发AI浏览器计划,认为做出更好模型无需套用新的Chromium壳,将专注于模型训练并更新kimi.com集成最新功能 [2][11] - 公司以开源作为消除企业部署顾虑的途径,希望建立更加信任的环境 [9] - 公司联合创始人调侃OpenAI,提及“Sam价值万亿美元的数据中心”及OpenAI烧钱问题,强调自有方式和节奏 [2] - 公司通过RedditAMA活动直面全球开发者尖锐提问,显示中国AI创新能力获得国际认可 [13]
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 14:27
核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型,标志着AI架构可能正告别对传统Transformer的路径依赖,迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention,通过引入细粒度遗忘门控,使模型能在每个通道维度上独立控制记忆保留,保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule,在数学上保证了稳定性,即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计,每3层线性注意力后加1层全注意力,以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码,让KDA通过时间衰减核函数自行学习序列位置信息,结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中,Kimi Linear减少了75%的KV缓存需求,并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为:MMLU得分73.8超越基线的71.6,MMLU-Pro得分51.0超越基线的47.2,BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高,如GSM8K得分83.9,MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”,使GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化,极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架,无需改动模型结构或缓存管理,任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法,状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer,因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现,刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制,显示技术路线存在多样性 [33]