Workflow
Token Efficiency
icon
搜索文档
杨植麟揭秘Kimi预训练策略:提升Token efficiency,实现长文本
新浪财经· 2026-01-10 20:09
公司技术战略 - 月之暗面Kimi的预训练与模型设计核心围绕两大策略展开:提升Token Efficiency(令牌效率)和实现长上下文(Long context)[2][6] - 公司认为Transformer架构在长上下文场景中具有优势 实验表明当上下文长度增加到1000个token时 Transformer的性能表现会显著优于LSTM[2][6] - 在当前的Agentic(代理智能)时代 许多任务要求极长的上下文 因此一个拥有更低positional loss(位置损失)的架构 在执行Agent任务时具备更强的技术潜力[2][6] 技术原理与价值 - 关注Token efficiency的本质原因在于Agent的推理或训练是一个搜索过程 例如从零开发Linux就是一个搜索问题[3][7] - 更好的预训练和基础模型可以减少无意义或错误的Token组合搜索空间 从而为AI任务提供更好的先验[3][7] - 智能具有独特性 每个模型产生的Token并非可交换物 例如CEO与设计师产生的智能是不同的 因此在智能维度存在指数级增长的Taste(品位/审美)空间[4][8] 行业研发理念 - 除了架构与数据 AI模型研究非常重要的一点是具备Taste(品位和审美) 建模过程本质是在创造一种世界观 定义何为好的AI及其应追求的价值观[3][7] - 这一理念与乔布斯所强调的Taste相似 强调了在技术之外 对产品与智能本质的哲学思考与审美判断的重要性[3][7]