K2 Thinking
搜索文档
Kimi发布新模型,月之暗面完成C轮融资现金储备破100亿
21世纪经济报道· 2026-01-27 18:41
公司核心产品与技术发布 - 月之暗面于1月27日正式发布并开源新一代多模态大模型K2.5,该模型在原生多模态架构、Agent集群协作、代码生成等核心领域实现开源state-of-the-art表现,相关能力已全面登陆kimi.com、KimiApp及开放平台 [1] - K2.5是公司迄今最智能、最全能的模型,采用原生多模态架构,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务,在Agent、代码、图像、视频及一系列通用智能任务上表现领先 [1][3] - 模型显著降低AI交互门槛,用户可直接以拍照、截图或录屏形式提交需求,突破文字表达局限,在办公场景中已掌握Word、Excel、PPT、PDF等常用软件的中高阶技能 [5] - 全新“Agent集群”能力是核心亮点,K2.5可自主创建“分身”智能体,按需组成不同角色团队并行工作,最高能调度100个分身处理1500个步骤,在大规模搜索等场景下,相比单Agent执行,其关键步骤可减少3至4.5倍,实际运行时间最高缩短4.5倍 [5][6] - 代码生成能力突出,支持通过自然语言对话生成完整前端界面及动态效果,可拆解录屏中的交互逻辑并复现专业代码,同步推出的编程工具KimiCode可在终端运行并集成于VSCode等主流编辑器,支持图片、视频输入辅助编程,其配套AgentSDK也将开源 [6] - 目前Kimi K2.5已登陆kimi.com、最新版KimiApp、KimiAPI开放平台及KimiCode,提供快速、思考、Agent、Agent集群四种模式供用户选择,企业和开发者可通过开放平台调用API [6] 公司战略转型与行业定位 - 公司战略经历深刻反思与调整,此前曾是“买量换用户”策略的忠实执行者,2024年在营销上投入接近9亿元人民币,但2025年初DeepSeek的崛起成为行业分水岭,DeepSeek月活用户暴涨至6181万,而Kimi的月活峰值为3600万 [6][7] - 自2025年初开始,公司彻底停止所有市场营销和买量行为,集中资源搞基础算法和K2系列模型,转向技术深耕 [7] - 公司总裁表示,公司仅用美国顶尖实验室1%的资源,就研发出Kimi K2、Kimi K2 Thinking等全球领先的开源模型,部分性能甚至超越美国顶尖闭源模型,目前公司仅300人左右的规模,就支撑起底层模型研发与数千万用户的应用运营 [7] - 当前中国大模型领域发展路径呈现分化,字节跳动豆包大模型、百度文心一言及阿里云的通义千问等主要依托背后大厂生态优势布局,智谱AI与MiniMax等企业选择通过上市融资拓展能力,而月之暗面正尝试走出独特的第三条路径:短期内依靠VC/PE的资金支持,专注于技术前沿突破 [8] 融资与估值进展 - 此次K2.5发布距公司创始人去年12月31日宣布完成5亿美元C轮超募融资仅27天,资本与技术形成高效联动 [1] - 公司估值在C轮融资后攀升至43亿美元(约合人民币299亿元),较B轮融资后的33亿美元实现快速增长,另据1月19日报道,公司正在敲定新一轮融资,此轮融资投前估值达到48亿美元 [1][11] - 公司创始人宣布完成5亿美元C轮融资且实现大幅超募,公司当前现金持有量超过100亿元,B/C轮融资金额已超过绝大部分IPO募资及上市公司定向增发规模,因此短期无上市计划,未来将择机以上市为手段加速AGI发展 [10] - C轮融资资金将主要用于两大方向:一是更加激进地扩增显卡,加速K3模型的训练和研发;二是用于2026年的激励计划和期权回购计划 [10] 技术突破与商业化成果 - 2025年公司已实现技术与商业化的双重突破,当年发布的K2及K2 Thinking模型成为中国首个万亿参数基座模型、首个开源agentic model,在Humanity's Last Exam(Full)等核心基准测试中超越OpenAI取得sota表现,且首次成功使用二阶优化器进行大规模训练 [11] - 技术突破有效推动公司产品迭代与商业化进展,自2025年5月起,公司高频推出Researcher、OK Computer、PPT、Kimi Code等新品,C端商业化实现指数增长,9-11月海外和国内付费用户数平均月环比增长超过170% [11] - K2 Thinking的发布显著带动API收入增加,同期海外API收入增长4倍,技术与商业的双重成绩推动公司估值在C轮融资后快速从43亿美元攀升至48亿美元 [11] - 2025年公司基于技术突破与产品表现,已向员工发放调薪、期权奖励、现金奖励等各类激励措施,累计覆盖324人次,2026年春节前将确定K2 Thinking及后续模型和产品发布的奖励方案并发放,且2026年平均激励预计为2025年的200%,同时计划大幅上调期权回购额度 [10] 未来战略规划 - 按照公司2026年战略规划,核心目标是超越Anthropic等前沿公司,成为世界领先的AGI公司 [12] - 具体将从三方面推进:一是K3模型通过技术改进和进一步scaling,提升等效FLOPs至少一个数量级,在预训练水平上追平世界前沿模型;二是垂直整合模型训练和agent产品taste,让K3成为“更与众不同”的模型,为用户提供全新的、其他模型未定义过的能力;三是产品和商业化聚焦agent,不以绝对用户数量为目标,持续追求智能上限,创造更大生产力价值,实现营收规模数量级增长 [12]
有消息称月之暗面将“借壳上市”,知情人士予以否认
虎嗅APP· 2026-01-01 11:00
公司近期融资与财务状况 - 公司于2025年完成5亿美元C轮融资,由IDG领投,阿里、腾讯等老股东超额认购,投后估值达43亿美元(约合人民币310亿元)[2] - 公司当前现金持有量已超过100亿元人民币[2] - 以每年约20亿元研发投入为基准测算,公司现有现金流理论上可支撑五年运营[2] 公司商业化战略与进展 - 公司已明确两大商业化方向:由模型驱动海内外付费用户增长及API收入增长[2] - 公司战略重点已转向国内外的专业用户与Coding场景,以付费订阅及API调用作为主要收入增长方式[4] - 过去一年,公司海外及国内付费用户数的月环比增长超过170%[4] - 公司海外大模型API收入在2025年9月至11月期间实现了4倍增长[4] 公司产品与技术发展 - 公司核心产品为面向C端的Kimi,2024年通过激进投流策略曾跻身国内通用chatbot月活前三[3] - 2025年发布了K2和K2 Thinking模型,自称是中国首个万亿参数基座模型和第一个开源的agentic model,并在部分核心评测中超越OpenAI取得领先[8] - 自2025年5月起,Kimi高频推出新功能,包括Researcher、OK Computer、PPT、Kimi Code等[9] - 2026年战略目标包括:通过K3模型将等效FLOPs提升至少一个数量级,追平世界前沿模型;垂直整合模型训练与agent产品;聚焦agent以创造生产力价值,追求营收规模实现数量级增长[10][11] 市场竞争与行业环境 - 2025年DeepSeek R1的发布对整个大模型行业造成冲击,公司因坚定选择C端路线而受到尤为明显的影响[4] - DeepSeek以更低成本、更强性能切入市场,动摇了公司在C端构建的先发优势,导致用户迁移成本较低[6] - 竞争对手MiniMax与智谱已公布明确IPO时间表,均计划于2026年1月登陆港交所,公司因此无缘争夺“大模型第一股”[3][7] - 行业最稀缺的资源是窗口期,而非资金[7] 公司治理与上市传闻 - 2024年底的“张予彤事件”对公司外部舆论、内部治理和品牌信任造成持续影响[4] - 2025年12月,张予彤正式出任公司总裁,被视为公司完成阶段性“渡劫”的标志[5] - 有市场消息称公司将于2026年完成“借壳上市”,但该消息已被相关知情人士否认[3] - 公司表示短期不急于上市,计划择机而动,将上市作为加速AGI发展的手段[9] 公司未来资金用途与激励计划 - C轮融资资金将用于激进扩增显卡,加速K3模型的训练和研发[10] - 部分资金将用于2026年的激励计划和期权回购计划[10] - 2025年,公司基于技术成果产出,累计对324人次实施了调薪、期权奖励、现金奖励等激励[10] - 2026年公司的平均激励预计将是2025年的200%,并计划大幅上调期权回购额度[10]
中国明星AI公司,拿下5亿美元融资!90后创始人:当前持有现金超100亿元,“不着急上市”
每日经济新闻· 2025-12-31 22:52
公司融资与资金状况 - 近期完成5亿美元C轮融资且大幅超募 当前现金持有量超过100亿元人民币 [1] - C轮融资资金将用于更加激进地扩增显卡 加速K3模型的训练和研发 部分资金也将用于2026年的激励计划和期权回购计划 [4] - 相比于二级市场 公司判断还可以从一级市场募集更大量资金 B/C轮融资金额超过绝大部分IPO募资及上市公司的定向增发 因此短期不着急上市 也不以上市为目的 [3] 公司技术与产品进展 - 2025年技术持续演进 取得SOTA成绩 K2和K2 Thinking的发布标志着公司在AGI道路上走出重要一步 [3] - 公司拥有中国首个万亿参数基座模型 第一个开源的agentic model等技术标签 [3] - 自2024年5月起 Kimi高频推出包括Researcher OK Computer PPT Kimi Code在内的多项智能体功能 [5] - 2025年9月 随着Multi-Agent产品OK Computer推出 公司推出了分层会员付费制度 将深度研究 K2 Turbo及长思考能力整合为49元/月 99元/月 199元/月三档 [5] - 面向2026年 公司定下三项战略 第一 K3模型通过技术改进和进一步规模化 提升等效FLOPs至少一个数量级 在预训练水平上追平世界前沿模型 第二 垂直整合模型训练和智能体产品 让K3成为更与众不同的模型 第三 产品和商业化上聚焦智能体 不以绝对用户数量为目标 持续追求智能上限 创造更大的生产力价值 营收规模实现数量级增长 [5] 公司商业化与运营数据 - 2024年5月 Kimi推出了打赏功能 用户可通过支付不同额度的费用获取高峰期优先使用权 [5] - 2025年9月至11月 海内外付费用户数平均月环比增长超过170% [4] - K2 Thinking的发布显著带动了API收入 同期海外API收入增长达4倍 [4] 行业竞争与人才动态 - 2025年12月中旬 大模型独角兽智谱AI与MiniMax已相继通过港交所聆讯 两家企业近两日先后开始招股 预计分别于2026年1月8日 1月9日登陆香港交易所 [3] - AI人才的争夺战正在各家激烈上演 公司计划在2026年将员工平均激励提升至2025年的200% 同时大幅上调期权回购额度 [4] - 据脉脉2025年9月发布的报告 2025年前7个月 AI岗位需求同比上涨10倍 但算法相关人才持续紧缺 到12月 字节跳动等公司进一步提升了薪酬待遇以加强竞争力 [4]
Kimi完成35亿融资,海外收入大涨
第一财经· 2025-12-31 21:46
融资与估值 - 公司于2025年12月31日完成5亿美元C轮融资,约合35亿人民币,投资方包括阿里、腾讯、王慧文等且均超额认购,投后估值约43亿美元 [1] - 公司近期融资大幅超募,当前现金持有量超过100亿元人民币 [8] - 公司B轮和C轮融资金额已超过绝大部分IPO募资及上市公司的定向增发,因此短期不着急上市,未来将择机把上市作为加速AGI的手段 [8] 技术进展与目标 - 2025年是公司技术突破的一年,K2和K2 Thinking模型的发布标志着在AGI道路上迈出重要一步 [1] - K2系列是公司重要节点,其中K2 Thinking是开源长思考模型,核心创新为交错推理与工具调用,支持200-300步连续工具调用,在Humanitys Last Exam基准测试中达到44.9%,超过GPT-5和Claude Sonnet4等顶尖闭源模型 [3] - K2模型是中国首个万亿参数基座模型,也是第一个开源的Agentic Model,在最核心的benchmark上超越OpenAI取得sota成绩 [4] - K2系列模型让公司从中国走向世界,在硅谷及全球技术圈产生重大影响力,并获得多位知名技术领袖的高度评价 [4] - 公司最重要的目标是超越Anthropic等前沿公司,成为世界领先的AGI公司 [5] - 2026年,K3模型将通过技术改进和进一步扩展,提升等效FLOPs至少一个数量级,在预训练水平上追平世界前沿模型 [5] 商业化表现 - 在C端,2025年9月至11月,海外和国内付费用户数平均月度环比增长超过170% [1] - K2 Thinking的发布显著带动了API收入增长,2025年9月至11月海外API收入增长4倍 [1] - 公司商业模式主要由C端订阅付费与B端API调用两部分组成 [7] - 公司API的工具调用能力在金融研报等需要数百步完成的复杂任务上具备优势,已成为多家国内金融研报AI工具的默认内置模型 [7] - 公司计划在产品和商业化上聚焦agent,不以绝对用户数量为目标,追求智能上限,创造更大生产力价值,并实现营收规模的数量级增长 [5] 公司发展与资金用途 - 公司产品从2025年5月开始高频推出新的agent功能,发布了Researcher、OK Computer、PPT、KimiCode等新品 [7] - 融资资金将用于更加激进地扩增显卡,加速K3模型的训练和研发 [8] - 部分资金将用于2026年的激励计划和期权回购计划 [8] - 2025年,基于sota结果产出,公司通过调薪、期权奖励、现金奖励等措施累计激励324人次 [8] - 2026年春节前将确定K2 Thinking及后续模型和产品发布的奖励方案并发放,预计2026年公司的平均激励是2025年的200%,同时计划大幅上调期权回购额度 [8]
Kimi完成5亿美元C轮融资,现金储备超百亿
搜狐财经· 2025-12-31 19:05
融资与估值 - 月之暗面近期完成5亿美元C轮融资,由IDG领投1.5亿美元,阿里、腾讯、王慧文等老股东超额认购,投后估值达43亿美元 [2] - 公司当前现金储备超过100亿元人民币,规模已不逊于IPO后的智谱与MiniMax [2] - 智谱截至2025年6月现金为25.5亿元,预计IPO融资约38亿元;MiniMax截至2025年9月现金为73.5亿元,预计IPO融资34亿至38亿元 [3] 商业化进展与财务表现 - 公司商业化进程加速,于2025年9月正式发布Multi-Agent新品“OK Computer”并启动灰度测试,该产品能让AI自主完成复杂任务,如网站开发、数据分析、图片视频生成及PPT制作 [3] - Kimi全球付费用户数月增速达170%,受K2 Thinking大模型带动,海外大模型API收入增长4倍 [3] - 2025年9月至11月,海外和国内付费用户数平均月环比增长超过170%,同期海外API收入增长4倍 [7] 技术研发与产品战略 - C轮融资资金将用于更激进地扩增显卡,加速K3模型的训练和研发 [3][8] - 2026年核心目标包括:K3模型在预训练水平上追平世界前沿模型,并通过技术改进与Scaling使其等效FLOPs提升至少一个数量级 [3][8] - 公司将垂直整合训练技术与产品taste,使K3成为更“不同”的模型,提供其他模型不具备的全新用户体验能力 [4][8] - 产品与商业化将聚焦于Agent,不以绝对用户数量为目标,而是追求智能上限以创造更大的生产力价值,目标是实现营收规模的数量级增长 [5][8] - 公司自2025年5月起高频推出新Agent功能,包括Researcher、OK Computer、PPT、Kimi Code等新品 [7] 公司治理与未来规划 - 公司基于2025年的成果,实施了调薪、期权奖励、现金奖励等激励措施,累计324人次 [8] - 2026年春节前将确定K2 Thinking及后续模型和产品的奖励方案并发放,预计2026年平均激励是2025年的200%,并计划大幅上调期权回购额度 [8] - 公司最重要的长期目标是超越Anthropic等前沿公司,成为世界领先的AGI公司 [8] - 公司表示短期不急于上市,因B/C轮融资金额已超过绝大部分IPO募资及上市公司定向增发,未来将择机将上市作为加速AGI的手段 [7]
晚点独家丨Kimi 完成 5 亿美元新融资,杨植麟:账上有超百亿元人民币
晚点LatePost· 2025-12-31 16:04
融资与估值 - 近期完成5亿美元C轮融资,投后估值达43亿美元 [2] - 本轮融资由IDG领投1.5亿美元,阿里巴巴、腾讯及王慧文等老股东超额认购 [2] - 王慧文已累计向公司投资7000万美元 [2] - 公司当前现金储备超过100亿元人民币 [2][9] 财务与商业化 - 公司启动会员制收费,国内分三档:每月49元、99元、199元;海外对应为19美元、39美元和199美元 [4] - 全球付费用户数月增速达170% [4][9] - 自11月以来,受K2 Thinking大模型带动,海外大模型API收入增长4倍 [4][9] - 公司预期其Agent等功能上线一年内能在全球获得1亿美元收入 [4] - 公司现金储备规模已不输于已进行IPO的同行:智谱AI截至2025年6月有25.5亿元现金,MiniMax截至2025年9月有73.5亿元现金 [3][6] 产品与技术进展 - 2025年9月推出Agent功能“OK Computer”,可调用虚拟电脑工具进行网站开发、数据分析、生成图片音频或制作PPT等 [4] - 公司专注于大模型层、逻辑层、Agent层,以及深入研究、PPT、数据分析、网站开发等偏生产力、复杂任务的链路,刻意控制业务边界,不做生活娱乐方向及多模态生成业务 [5] - 2025年发布了K2和K2 Thinking模型,是中国首个万亿参数基座模型及第一个开源的agentic model,在核心基准测试上超越OpenAI取得领先成绩 [8] - K2系列模型在全球技术圈产生重大影响力,获得诸多知名技术领袖的高度评价 [8] 战略与未来规划 - C轮融资资金将用于更激进地扩增显卡,加速K3模型的训练和研发 [5][10] - 2026年战略目标包括:K3模型在预训练水平上追平世界前沿模型,并通过技术改进使等效FLOPs提升至少一个数量级 [7][10] - 目标让K3成为更“不同”的模型,垂直整合训练技术和产品品味,提供其他模型不具备的用户体验 [7][10] - 产品和商业化将聚焦Agent,不以绝对用户数量为目标,而是追求智能上限,创造更大的生产力价值,实现营收规模数量级增长 [7][10] - 公司短期不急于IPO,认为可以从一级市场募集更大量资金,其B/C轮融资金额已超过绝大部分IPO募资及上市公司定向增发 [9] 公司运营与团队 - 公司当前团队规模为300人 [5] - 2025年基于技术成果产出,累计有324人次获得调薪、期权奖励、现金奖励等激励 [10] - 计划将部分新资金用于提高2026年激励计划,预计平均激励是2025年的200%(即两倍),并大幅上调期权回购额度 [5][10] - 公司最重要的长期目标是超越Anthropic等前沿公司,成为世界领先的AGI公司 [10]
AI大模型,别只盯着手机端MAU
创业邦· 2025-12-25 11:08
文章核心观点 - AI应用市场正经历路线之争,字节、阿里、腾讯等巨头沿用移动互联网的流量思维,追求DAU/MAU等规模指标,而模型公司Kimi则选择放弃流量竞争,将资源全部转向模型和产品能力本身,专注于成为高价值的生产力工具[6] - 评价AI应用的标准需要从移动互联网时代的“使用次数”转向“使用深度”,核心在于“智能”、“价值”和“不可替代性”,而非单纯的“热度”与“流量”[7][12][16] - Kimi通过三次关键选择——执着于技术深度、深度绑定专业用户、聚焦生产力工具链的稀缺生态位——构建了难以被流量和资本复制的竞争闭环,为AI创业公司提供了一条回归技术、场景与商业本质的差异化路径[18][19][20][22][23][24] AI行业路线之争:流量可乐 vs 价值精酿 - 字节、阿里、腾讯等巨头正将移动互联网的“流量”玩法平移到AI领域,依托庞大生态,沿着“泛娱乐、高日活”方向推进,追求“人手一瓶”的规模[6][9] - 模型公司Kimi选择了相反路径,放弃“大而全”的浅层生成(如图片、视频),将所有资源集中于构建“高价值的Agent任务”,旨在帮助用户完成需要数小时甚至数天的复杂工作[8][9][11] - 一位投资人用“可乐”与“精酿啤酒”比喻两种路线:“可乐”追求渠道和市占率,是规模狂欢;“精酿”更在意品鉴深度和核心客群,本质是量与质的区别[9] 评价体系变革:从旧尺子到新尺子 - 移动互联网时代的MAU指标已不适用于评价走向真实生产力场景的AI应用,用“旧尺子”量不出“新大陆”[6][13] - 更合适的“新尺子”应包含三个维度:第一,“深度”比“规模”更重要,例如Kimi Web端用户平均访问时长达8.5分钟,在国内AI产品中排名第一,表明用户在进行真实工作[6][14];第二,“智能”比“热度”更重要,体现在其处理长文本、复杂Agent任务的不可替代性,因此获得Perplexity等海外顶尖公司的接入[16];第三,“价值”比“流量”更重要,健康的商业模式应从“流量→广告→变现”转向“价值→订阅→变现”[16] - 决定商业模式未来的关键指标不再是MAU,而是ARPU(单用户平均收入)和LTV(生命周期总价值)[17] Kimi的战略选择与护城河构建 - **选择一:执着于技术深度**。在行业共识认为“不需要那么多基座模型”的背景下,Kimi仍坚持投入基础模型研发,以确保上层Agent应用的定价权和工作流稳定性,其K2模型的开源策略旨在倒逼自身技术进步[19] - **选择二:深度绑定“专业用户”**。放弃流量竞争后,Kimi聚集起付费意愿强、需求明确的专业用户,并使其转变为“Agent原生用户”,深度融入工作流,例如某券商研究员已将整个研究流程“外包”给Kimi,迁移成本极高[20][22] - **选择三:聚焦“打得赢”的战场**。Kimi不在C端聊天场景血拼,而是将技术聚焦于代码开发、学术研究、金融分析等生产力工具链,占据壁垒较高的稀缺生态位,例如通过提供与Claude Code完全兼容的API及“上下文缓存”功能,精准承接了外溢的开发者群体[22] - 这三个选择环环相扣,形成了“用户用得越深越离不开,付费支撑技术升级,技术升级吸引更多懂行用户”的飞轮效应,构建了单靠流量和资本难以复制的闭环[22][23] 市场表现与数据验证 - 2025年11月,Kimi旗舰模型K2 Thinking发布后,网站访问量环比上涨了48.6%[6] - 同期,Kimi的Web端用户平均访问时长达8.5分钟,国内AI产品中排名第一,反映了极强的用户粘性与使用深度[6][14] - 用户结构对比鲜明:作为生产力工具的ChatGPT,其Web端与App端用户比例约为60%:40%;而主打轻娱乐的豆包,该比例约为5%:95%,凸显了二者服务场景与用户群体的根本不同[13] - Social Capital的CEO提到,其投资的公司已将大量工作转到K2上,因为性能强且成本比顶尖闭源模型低得多[16]
MiniMax 和月之暗面:中国 AI 创业公司的两种路径和共同难题
晚点LatePost· 2025-11-24 19:11
核心观点 - 一时的技术成果或用户增长难以成为AI公司的持久竞争优势 公司需要建立能持续产生技术和用户增长的组织能力[5] - 在资本密集、巨头林立的竞争环境中 创业公司需要证明其长期独立存在的价值 这需要技术突破和维持高密度研究团队的罕见能力[26] 公司发展历程与融资 - 月之暗面起步融资遇挫 后在红杉、真格等机构投资下于2023年上半年完成首笔融资[11] 2023年底再融资时获阿里投资近8亿美元 估值达23.4亿美元[13] - MiniMax首轮融资由高瓴领投2000万美元 投后估值2亿美元[8] 同期获阿里投资6亿美元资源 估值超过月之暗面[13] - 两家公司2024年初融资合计超14亿美元(约100亿元人民币) 超过中国大模型创投领域上一年公开融资总额[13] 产品与技术突破 - MiniMax早期产品Glow上线4个月注册用户超500万[12] 近期开源模型M2在部分测评中位列全球开源模型第一[4] 其视频生成模型宣称在一些场景超过Google的Veo3[4] - 月之暗面产品Kimi上线后连续数月月活用户环比增长超100%[12] 近期发布的开源MoE模型K2宣称部分基准测试得分超过GPT-5[4] 其K2 Thinking模型在自主编程等维度超过DeepSeek-V3和阿里Qwen3[20] 创始人风格与管理策略 - 闫俊杰崇尚系统理性 将公司视为可优化函数 管理核心是找到梯度下降最快方向[23] 敢于决断并接受冲突 创业初期即叫停与长期技术路线不符的3D数字人项目[21] - 杨植麟相信人才力量 公司核心产品Kimi以其英文名命名[5] 看重共识驱动 愿为招揽技术人才从北京飞深圳聊十小时[23] 倾向于先达成共识再迅速行动[24] 竞争环境与挑战 - 字节跳动发动饱和式进攻 产品线覆盖全面 并严格控制外部AI产品在抖音投放[19] 豆包等字节系产品享受投放折扣[19] - 两家公司估值约40亿美元 远低于OpenAI的5000亿美元、xAI和Anthropic的近2000亿美元估值[25] 面临巨头阿里、字节、腾讯等拥有主营业务供血的竞争[25] - 早期增长吸引大额投资后 MiniMax陷入多条产品线并进的纠结 月之暗面视频模型效果未达预期 出海产品Ohai和Noisee停止运营[15]
K2 Thinking再炸场,杨植麟凌晨回答了21个问题
36氪· 2025-11-12 21:35
文章核心观点 - 月之暗面发布万亿参数开源模型K2 Thinking,在推理和任务执行等前沿能力基准测试中表现优异,甚至在某些榜单上超过GPT-5 [15] - 公司采取专注Agentic能力的策略,通过长思维链和高效工具调用设计,旨在让AI真正完成复杂任务而非仅用于聊天 [21][22] - 在芯片等基础设施受限的背景下,国产大模型通过算法创新加速发展,各厂商根据自身商业目标选择不同的技术路线,形成差异化竞争格局 [29][31][32] K2 Thinking模型技术特点 - 模型为1万亿参数的稀疏混合专家架构,实际运行时激活参数控制在300亿,平衡了性能与速度 [14][21] - 采用INT4量化手段,百万token输出价格仅为2.5美元,是GPT-5价格的四分之一,具备显著成本优势 [16] - 核心长板为长程执行能力,可连续执行200-300次工具调用来解决复杂问题,保证任务连续性 [22][56] - 通过端到端智能体强化学习训练,实现了交错“思考-工具”模式的稳定运行,这是大语言模型中相对较新的挑战 [56][57] 模型性能与市场定位 - 在高难度测试集HLE和BrowseComp等Agent榜单上,分数超过了GPT-5 [15] - 市场定位为GPT-5和Claude Sonnet 4.5的“平替”,专注于将文本模型能力做到极致,探索智能上限 [16][32] - 团队选择性能优先的策略,暂时不太考虑Token消耗效率,以确保Agent更可用 [21][32] 训练成本与硬件配置 - 团队澄清460万美元训练成本“不是官方数字”,强调主要成本在于研究和实验,难以量化 [8][34] - 训练在配备Infiniband的H800 GPU上进行,虽在GPU数量上处于劣势,但将每张显卡性能压榨到极致 [29][37] 技术路线与行业趋势 - 国产大模型在算法创新上加快进程,月之暗面、智谱、MiniMax等厂商接力开源,在全球榜单上表现亮眼 [17][29] - 面对长上下文处理问题,各厂商选择不同路径:MiniMax M2回退到全注意力机制求稳定;月之暗面则采用更激进的KDA+MLA混合架构 [31] - 中国开源模型的应用生态正在形成优势,吸引海外开发者构建应用并提供反馈,预计将带来更多应用爆发 [33] 未来发展规划 - 下一代K3模型计划引入重大架构更改,KDA实验架构的相关想法很可能被采用 [62] - 公司重心仍在模型训练,暂无计划推出AI浏览器类产品,认为做好模型无需再做浏览器“壳” [63][64] - 公司拥抱开源策略,相信AGI应是导致团结的追求,并考虑开源安全对齐技术栈以惠及社区 [65][66] - 未来会重新审视更长的上下文窗口,并可能发布更多如Kimi Linear的小模型作为研究演示 [44][45][46]
K2 Thinking再炸场,杨植麟凌晨回答了21个问题
36氪· 2025-11-11 18:30
公司战略与沟通 - 公司采用低调的社区发布模式,不开设线下正式发布会,选择在Reddit、知乎等开发者社区进行线上AMA互动[1][2] - 公司明确开源策略,拥抱开源社区,并考虑未来发布安全对齐技术栈以惠及更多开发者[43][44] - 公司专注于将文本模型能力做到极致,探索智能上限,当前重心在模型训练而非开发浏览器等应用外壳[21][41][42] 产品K2 Thinking核心能力 - K2 Thinking是1万亿参数的稀疏混合专家架构开源模型,在实际运行时激活参数控制在300亿以保证速度[7][12] - 模型在HLE、BrowseComp等代表前沿能力的Agent基准测试中表现优异,分数甚至超过GPT-5[8] - 模型专为Agentic能力设计,擅长长思维链,能够连续执行200-300次工具调用来解决复杂问题[12][13][35] 产品定价与技术细节 - K2 Thinking具有显著成本优势,其百万token输出价格为2.5美元,仅为GPT-5(10美元)的四分之一[8] - 模型采用INT4量化手段以提升推理速度并更好地兼容非Blackwell架构的GPU[8][38][39] - 模型训练在配备Infiniband的H800 GPU上完成,团队在GPU数量不占优的情况下将单卡性能压榨到极致[18] 行业竞争格局 - 国产大模型进入丰收季,智谱GLM-4.6、MiniMax M2及K2 Thinking接力开源,在全球榜单上表现活跃[9] - 国内厂商技术路线出现分化,MiniMax侧重性价比与稳定性,智谱GLM定位全面以抢占Claude断供后的市场,而公司则选择性能优先的激进路径[19][20][22] - 国产模型创新速度加快,在芯片等基础设施受限的情况下,于算法层面找到了细分创新方向[18][19] 未来发展规划 - 下一代K3模型计划引入重大架构更改,公司最新的KDA实验架构相关想法很可能会在K3中使用[40] - 公司未来会重新审视更长的上下文窗口,并可能发布更多像Kimi Linear这样的小模型作为研究演示[29][30] - 公司对多模态(如视觉理解)模型持开放态度,但因数据获取和训练需要时间,发布时间线会靠后[17]