Workflow
Kimi K2里找到了DeepSeek V3架构
量子位·2025-07-14 15:01

Kimi K2模型表现 - Kimi K2模型在多个benchmark上取得SOTA成绩,被评价为自Claude 3.5 Sonnet以来首个能用于生产力级别任务的模型[1] - 模型总参数1T,激活参数32B,在代码、Agent、数学推理任务表现突出[35] - 实测显示K2生成的前端代码量是初始模型的2.6倍(10.7KB vs 4KB),游戏功能更丰富[49][51] - 工具调用能力强大,可生成包含实时购票链接的完整旅游攻略[66][67][68] - 创意写作测试中能生成富有哲理的"宇宙告别信"[74] 开源策略分析 - 选择开源路线主要基于三点:获取市场关注度、借助社区力量完善生态、倒逼模型技术进步[12][14][18] - 开源版本包括基础预训练模型Kimi-K2-Base和指令微调版Kimi-K2-Instruct[15][16] - 采用修改版MIT协议,仅对月活超1亿或月收入超2000万美元的产品要求标注来源[36] - 开源24小时内社区即出现MLX实现和4bit量化等衍生成果[14] 公司战略调整 - 年初停止所有营销投放,转向依靠模型硬实力获取市场认可[20][22] - 集中资源研发基础算法,放弃K1系列更新全力投入K2开发[23] - 坚持基础模型研发路线,未跟随行业转向Agent产品热潮[24][25] - 实施产品范式转型,从chat-first转向artifact-first交互模式[31] 行业竞争动态 - OpenAI开源模型因"安全考量"无限期推迟,引发是否受K2影响的猜测[2][3][76] - 传闻OpenAI模型参数远小于K2(<<1T)但性能强大,因技术问题需重新训练[79][81] - 模型架构被指借鉴DeepSeek V3,公司回应为合理技术参考[5][85]