DeepSeek V3.2 Exp
搜索文档
Kimi杨植麟称“训练成本很难量化”,仍将坚持开源策略
第一财经· 2025-11-11 20:04
公司战略与产品发布 - 月之暗面Kimi公司近半年持续投入开源模型研发与更新,并于11月6日发布最新开源思考模型Kimi K2 Thinking [3][6] - 公司未来很长一段时间内将坚持开源策略,重点推进Kimi K2 Thinking模型的应用与优化 [6][8] - 公司在优先发展文本模型的前提下兼顾多模态模型推进,避开与OpenAI等头部厂商在AI浏览器等具体赛道的直接竞争 [8] - 公司尝试通过架构创新、开源策略与成本控制建立差异化优势 [8] 模型训练成本与性能 - 有消息称Kimi K2 Thinking模型的训练成本为460万美元,低于DeepSeek V3模型的560万美元和OpenAI GPT-3的数十亿美元 [3][6] - 公司CEO杨植麟回应称460万美元并非官方数字,由于大部分投入花在研究与实验上,训练成本很难量化 [4][6] - 针对模型推理长度过长、榜单成绩与实际体验不符的质疑,公司表示现阶段优先考虑绝对性能,token效率将在后续改善 [4][7] - 榜单高分与实测的脱节问题预计在模型通用能力补齐后被逐渐消解 [4][7] 行业竞争与市场表现 - 最新一周OpenRouter模型调用榜单前二十名中,中国开源模型产品占据五席,包括MiniMax M2、DeepSeek V3、GLM4.6、DeepSeek V3.1、DeepSeek V3.2 Exp [4][7] - Kimi模型因OpenRouter平台接口问题,目前只能以API形式被使用 [4][7] 技术资源与基础设施 - 公司团队使用携带InfiniBand网络互连技术的H800 GPU芯片支持持续的模型更新与庞大训练量 [4][7] - 公司承认所使用的GPU性能比不上美国的高端卡,数量也处于劣势,但强调每张卡都被用到了极致 [4][7]
Kimi杨植麟称“训练成本很难量化”,仍将坚持开源策略
第一财经· 2025-11-11 18:35
公司战略与产品进展 - 公司近期发布最新版本开源思考模型Kimi K2 Thinking [1] - 公司CEO回应称模型训练成本460万美元并非官方数字 因大部分投入花在研究与实验上导致成本难以量化 [1] - 针对模型推理长度过长及榜单成绩与实际体验不符的质疑 公司表示现阶段优先考虑绝对性能 token效率与榜单脱节问题将在后续改善 [1] - 公司未来很长一段时间内仍将坚持开源策略 重点推进Kimi K2 Thinking模型的应用与优化 [4] - 公司在优先发展文本模型的前提下兼顾多模态模型推进 尝试通过架构创新 开源策略与成本控制建立差异化优势 [4] 行业竞争格局 - 中国开源大模型在国际市场调用量显著 OpenRouter榜单前二十名中中国开源模型占据五席 包括MiniMax M2 DeepSeek V3 GLM4.6等 [2] - 公司产品因OpenRouter平台接口问题 目前仅能以API形式被使用 [2] - 行业头部模型训练数据量庞大 榜单显示Grok Code Fast 1训练token达1.36T 而Claude Sonnet 4.5为649B tokens [4] 技术资源与基础设施 - 公司团队使用携带InfiniBand技术的H800 GPU进行模型训练 尽管其性能比不上美国高端卡且数量处于劣势 但每张卡均被极致利用 [2]