原生多模态
搜索文档
美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测
量子位· 2026-04-03 14:11
文章核心观点 - 美团LongCat团队提出了一种名为“离散原生自回归架构(DiNA)”的全新多模态大模型解决方案,其核心观点是:通过将文本、图像、语音等所有模态统一转化为离散Token,并使用同一套自回归模型进行预测,实现了真正统一、高效的原生多模态建模,挑战了业界关于离散建模存在性能天花板的传统认知 [6][15][17][74] 行业趋势与共识 - 过去一年,几乎所有头部大模型公司(如谷歌、OpenAI、字节、MiniMax)都在重写多模态底层架构,业界共识是“不走原生多模态,已经不够、不行了” [3][4] - 当前行业主流的多模态大模型采用“拼凑式架构”,以语言模型为底座,视觉、语音为外挂,导致理解与生成系统割裂、算力消耗高、信息易流失 [7][8] - 要突破纯语言模型的局限性,统一的多模态预训练是绕不开的路径,这与LeCun等学者的判断相呼应 [109][110] 美团LongCat的DiNA架构 - **核心设计**:DiNA架构将所有模态(文本、图像、语音)统一转化为离散Token,使用同一套不区分模态的学习器进行理解和生成,所有模态共用同一套参数、注意力机制和损失函数 [17][18][21][24] - **运作流程**:输入侧各模态通过专用Tokenizer转为离散Token;中间由统一模型处理Token序列;输出侧通过De-Tokenizer还原为原始模态 [21] - **核心优势**: - **训练与部署高效**:训练时多模态数据互补,梯度更稳;部署时一个模型顶多个,节省显存并提升速度 [25][26] - **理解与生成统一**:理解和生成在数学形式上统一为“预测下一个Token”,一个模型即可完成两项任务 [31][32] - **真原生**:模型内部不同模态的Token在表征空间中自然交融,而非简单对齐或拼凑,表明模型内部长出了统一的多模态世界 [35][37][38] 关键技术实现:视觉与语音的离散化 - **视觉离散化**: - **第一步**:使用语义对齐编码器(SAE)从图像中提取高信息密度、多属性的特征,确保离散前信息丰富准确 [47][48] - **第二步**:使用自研视觉分词器dNaViT,通过8层残差向量量化(RVQ)将特征“分层打包”为离散Token,实现高达28倍的像素空间压缩,并通过双轨解码器保证还原质量 [50][53][55][56] - **原生分辨率**:dNaViT支持任意分辨率的图像编码与解码,无需缩放、裁剪等额外操作 [62][63] - **语音离散化**: - 采用与视觉相似的思路:先用Whisper编码器提取特征,再用RVQ量化为离散Token,最后解码还原 [65][68] - **灵活生成策略**:模型同时支持并行生成(速度快)与串行生成(准确性高),并能通过随机延迟对齐训练自行决定采用何种策略 [69][70][71] 模型效果与关键发现 - **整体性能**:基于DiNA架构训练的LongCat-Next模型(基座为LongCat-Flash-Lite MoE,总参数685亿,激活仅30亿),在视觉理解、图像生成、音频、智能体等多个维度上,展现出与多模态专用模型相当甚至领先的性能 [28][80] - **发现一:离散建模无内在性能天花板**:实验表明,离散模型的性能瓶颈并非来自离散化本身,而是取决于数据规模与表征质量。随着数据规模扩大,离散模型与连续模型的性能差距持续缩小,甚至可以达到接近一致的水平 [91][92][93][96] - **发现二:理解与生成可以协同**:在LongCat-Next上,统一模型的理解损失仅比纯理解模型高0.006,而生成损失比纯生成模型低0.02。在长文本生成(LongText-Bench得分93.15)和数学推理(MathVista得分83.1)等任务上均表现出色,证明理解与生成相互促进 [33][97][98][99] - **发现三:多模态训练不折损文本能力**:在加入图像、音频能力后,模型在纯文本任务上(如MMLU-Pro得分77.02,C-Eval得分86.80)以及工具调用、代码能力上依然保持领先,未出现能力削弱 [104][105] - **细粒度识别能力**:在复杂文档理解基准OmniDocBench上,LongCat-Next的成绩超过了同类多模态模型及专门的视觉理解模型,挑战了离散模型不擅长细粒度文本识别的传统观点 [90] 工程化落地与行业意义 - **开源发布**:公司不仅公开了技术论文,还将LongCat-Next模型及其分词器在GitHub、HuggingFace等平台开源,标志着该方案已达到工业级可用 [114][115][121] - **硬件要求**:使用LongCat-Next至少需要3张80GB显存的专业显卡(如英伟达A100/H100) [115] - **路径验证**:该工作验证了在不推翻LLM和自回归成熟体系的前提下,将所有模态统一为Token序列进行建模是一条可行的新路径,为业界提供了新的框架选择 [113][116][118] - **最终愿景**:通过将所有模态转化为同一种可预测的Token序列,模型面对的不再是“多模态”,模态的边界正在消失 [119][121]
刚刚,全球视频模型新王诞生了!
量子位· 2026-03-19 11:48
文章核心观点 - 天工AI的SkyReels-V4模型在Artificial Analysis文生视频(含音频)全球榜上超越谷歌Veo 3.1和OpenAI Sora 2等强劲对手,登顶榜首,ELO评分为1,129 [1][2] - 此次登顶不仅是排名提升,更标志着视频生成技术从“生成片段”迈向可控、连续的“完整视频生产”阶段,是能力的一次整体跃升 [3][29][30] - 公司不追逐短期热点,而是围绕“原生多模态”持续构建底层技术体系,并通过产品商业化(如短剧平台DramaWave)形成从技术到商业的正向循环 [61][67] 技术能力与模型升级 - **排名跃升与性能**:SkyReels-V4在一个月内从全球第2升至第1,ELO评分达1,129,超越了Kling 3.0 Pro (1,097)、Veo 3.1 (1,081)和Sora 2 (1,079)等模型 [2][4] - **两大核心升级**: - **全模态强化学习体系全面升级**:通过搭建全模态语义Reward模型和采用阶梯式课程强化学习路径,使模型能理解视频整体逻辑,确保情节连贯合理 [6][10] - **新增关键帧参考与网格参考能力**:提供对视频生成过程更强的控制力,关键帧参考允许用户提供多张图片控制剧情节奏,网格参考则用于锁定角色一致性和视觉风格 [6][18][26][27] - **技术架构与统一性**:模型采用自研对称双流MMDiT架构,将音视频生成深度融合,并通过全模态参考将文本、图像、视频等所有输入形式统一处理,降低了工程复杂度 [41][42] 应用场景与商业化落地 - **短剧成为核心试验场**:AI视频生成“高频、标准化”的特点与短剧生产需求高度契合,天工AI已将SkyReels-V4应用于其海外付费短剧平台DramaWave [44][45][51] - **商业化闭环已跑通**:DramaWave平台于2024年10月上线,当前月活用户已突破8000万,验证了从技术到产品再到商业化的完整路径 [52][53] - **应用场景可扩展**:统一的视频生成底座可复用至游戏过场动画、音乐视频等更广泛的内容生态,短剧仅是起点 [56][57] 公司战略与发展路径 - **坚持原生多模态长期主义**:公司战略重心并非追逐“龙虾”等热点,而是持续构建图像、视频、音频协同的原生多模态底层能力 [59][61][69] - **技术产品化与生态构建**:公司从文生图起步,逐步延伸至文生视频(SkyReels系列)和音频(Mureka音乐模型),搭建起完整的多模态AI体系 [62][63][68] - **形成自我强化循环**:商业化收入反哺研发,用户行为数据回流驱动模型与生产流程迭代,构成了持续自我强化的正向商业与技术循环 [67]
林俊旸曾经历通义内部赛马,这种赛马还会继续
第一财经· 2026-03-06 11:24
核心人事变动与内部赛马机制 - 阿里巴巴通义千问(Qwen)团队技术负责人林俊旸于3月4日宣布离职,后训练负责人郁博文同日离职,Qwen Code负责人惠彬已于1月加入Meta [5] - 林俊旸辞职前曾在通义实验室内部与2025年2月加入、后于9月转岗至通义的许主洪进行“赛马”,但许主洪的产出不理想,而林俊旸团队在2026年春节期间交付了Qwen3.5系列模型 [6][7] - 2026年年初,阿里巴巴引入了Google DeepMind前高级资深研究科学家周浩,其与许主洪转岗逻辑一致,旨在通过增设平级负责人强化内部竞争,周浩入职后直接向通义实验室负责人周靖人汇报 [7][19] - 公司CEO吴泳铭在内部邮件中确认林俊旸离职,并表示将继续加大吸纳优秀人才的力度 [5][8] - 随着更多外部人才引入,类似林俊旸和许主洪之间的内部赛马预计将持续 [20] Qwen模型的成就与市场挑战 - Qwen系列模型是全球累积下载量和衍生模型数量最多的开源模型,自2023年4月首次开源以来,全球累积下载次数已突破10亿次,衍生模型数量突破20万个 [10][11] - 相比之下,DeepSeek的全球累积下载量约为5000多万次,衍生模型数量约2000多个 [11] - 但在以模型调用量统计的维度上,Qwen并未进入全球前列,根据OpenRouter平台2026年2月16日至22日的周榜单,调用量前五的模型中有四家来自中国(MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5、DeepSeek V3.2),Qwen相关模型不在其中 [10][13] - 在风靡全球的AI智能体OpenClaw的模型调用量排名中,月之暗面的Kimi K2.5保持榜首,并因此在该模型发布后不到一个月内累计收入超过其2025年全年收入总和,而Qwen最新发布的Qwen3.5也未进入OpenClaw带火的前十大模型之列 [14] 原生多模态竞争格局 - 原生多模态概念由Google在2023年提出,其Gemini模型为原生多模态架构,区别于GPT-4的“拼装多模态” [16] - 2025年11月,Google的Gemini3在多项基准测试上超越GPT-5,迫使OpenAI启动“红色警报”应对 [16] - 2026年春节期间,月之暗面、字节跳动和阿里巴巴先后发布原生多模态模型K2.5、Seed2.0和Qwen3.5,但截至目前只有K2.5被OpenClaw带火,Qwen3.5和字节跳动的Seed2.0几乎未从中受益 [17] - 字节跳动同期发布的视频生成模型Seedance2.0在影视创作领域引起巨大反响,而Qwen3.5未获得明确的市场标签 [18] 组织架构与战略调整 - 公司可能正在调整模型团队架构,传闻方向是将通义实验室旗下的三个模型团队(通义千问、通义万相、通义百聆)分拆,改为按照预训练、后训练、文本、多模态等职能划分部门,此举若推行,原三位模型技术负责人的职位将不再存在 [24] - 在产品和模型策略上,公司动作与Google相反:Google在2024-2025年将Gemini应用团队及Google Labs并入Google DeepMind,实现从模型到应用的垂直整合;而阿里巴巴则在2024年12月将通义应用团队从阿里云拆分,并入夸克所在的智能信息事业群,后于2025年12月与智能互联事业群合并为千问C端事业群 [21] - 林俊旸生前相信模型层的垂直整合,希望Qwen团队能自主承接更多基础设施工作,但为Qwen做基础设施工程的团队隶属于阿里云,与模型训练团队存在沟通挑战 [22] - 公司目前缺乏一位能像Google DeepMind CEO哈萨比斯那样统领技术与业务的资深领导者,通义实验室由技术领袖周靖人主管,而阿里云CEO职位由集团CEO吴泳铭兼任,千问应用团队也尚未出现能紧密衔接模型迭代与产品放大的关键角色 [25] 开源战略与云业务表现 - 公司自2023年8月起在模型层实行开源战略,覆盖Qwen、通义万相、通义百聆等系列模型,公司CEO吴泳铭在3月5日的内部信中重申将继续坚持开源模型策略 [27][28] - 公司对大模型的终极判断是模型本身不足以构成技术护城河,最终将变为基础设施,其商业价值更可能通过云服务变现,核心是卖算力,而开源有助于建立该商业模式所需的全球影响力 [27] - 然而,开源模型生态并未转化为阿里云在大模型云服务市场的主导权,根据IDC数据,2024年中国公有云大模型对外调用量达114.2万亿tokens,火山引擎以46.4%份额位居第一,阿里云与百度智能云并列第二(19.3%);2025年上半年,阿里云份额提升至27%,但火山引擎仍以49.2%的市场份额保持第一 [29]
千问 3.5 发布,四成参数超越万亿模型,大模型的竞赛逻辑变了
搜狐财经· 2026-02-17 00:07
行业竞争逻辑转变 - 大模型行业正经历从“参数竞赛”到“架构竞赛”的拐点,竞争维度从“谁更强”转向“如何更高效地变强”,核心竞争维度转变为效率和成本 [1][3] - 继续单纯堆叠参数面临边际收益递减,而部署和推理成本刚性增长,导致模型性能曲线与普及曲线背离 [1][3] - 行业竞争标准发生变化,从过去比拼参数量和基准跑分,转向比拼谁能以更少的资源、更统一的架构覆盖更多的能力维度 [4] Qwen 3.5 模型性能与效率突破 - 模型总参数397B,激活参数仅17B,以不到40%的参数量超越了上一代万亿参数级的Qwen3-Max [1] - 多项基准测试成绩媲美或超越顶级闭源模型:MMLU-Pro知识推理得分87.8超越GPT-5.2,博士级难题GPQA得分88.4超越Claude 4.5,指令遵循IFBench以76.5分刷新所有模型纪录 [1] - 效率提升显著:在32K常用上下文场景下推理吞吐量提升8.6倍,256K超长上下文场景下最大提升至19倍,部署显存占用降低60% [3] - API定价极具竞争力,每百万Token低至0.8元,仅为同等性能Gemini 3 pro价格的1/18 [1][8] 技术实现路径:架构与协同创新 - 通过稀疏MoE、线性注意力、原生多Token预测等架构创新,大幅压缩激活参数,实现极致参数效率 [4] - 实现了从纯文本模型到原生多模态模型的代际跃迁,在文本和视觉混合Token上联合预训练,同时大幅新增STEM和推理数据 [4] - 原生多模态训练采用前期投入更高的路线,让不同模态各自选择最优并行策略并在关键位置做跨模态对齐,使多模态训练吞吐量几乎追平纯文本训练 [7] - 采用FP8/FP32混合精度策略,使激活内存减少约50%,同时训练效率提升10% [7] 公司的核心能力与战略协同 - 具备“模型+芯片+云”的垂直整合能力,自研的真武芯片针对MoE架构做了专项优化,能从硬件层面适配极致稀疏结构的计算需求 [5] - 拥有强大的基础研究向产品转化能力,例如获得NeurIPS 2025最佳论文奖的门控技术已融入Qwen 3.5,成为产品核心组件 [5] - 在原生多模态方向上投入决心大,承担了更高的工程风险,旨在打造具备原生跨模态能力的基础设施级模型 [7][8] - 极致的性价比(如API价格)源于模型架构效率、自研芯片优化和云基础设施的三重协同,而非补贴定价,具备可持续性 [8] 市场影响与商业生态 - 对闭源厂商构成结构性挑战,当开源模型在性能上追平且价格极低时,闭源厂商的API溢价根基被动摇 [9] - 千问在中国企业级大模型调用市场排名第一,阿里云在2025上半年中国AI云市场份额达到35.8%,超过第二到第四名总和,且份额从上季度的33%继续攀升至36% [11][12] - 开源生态飞轮效应显著:开源模型数量超过400个,开发者构建的衍生模型突破20万个,全球下载量突破10亿次,单月下载量超过第2到第8名总和 [12] - 千问App的AI购物Agent在春节期间6天完成1.2亿笔订单,成为全球大模型在真实消费场景中规模最大的商业化验证之一 [12] 行业未来展望与竞争格局 - 行业竞争进入新阶段,对模型架构、硬件协同和工程效率的深度理解将定义下一轮竞争规则 [13] - 留下关键观察问题:闭源阵营的护城河还剩什么;行业中具备类似垂直整合能力的玩家还有多少;原生多模态路线对当前主流分步组装路线的冲击 [13] - 公司已连续三代在开源模型的关键能力维度上稳定输出天花板级产品,这种持续的稳定性本身构成一种竞争优势 [13]
最强开源大模型除夕登场!397B参数千问3.5超越Gemini 3,百万Tokens低至8毛
量子位· 2026-02-16 19:00
模型发布与定位 - 阿里于除夕发布全新一代开源大模型Qwen3.5-Plus,登顶最强开源模型宝座[1] - 该模型是阿里春节档发布的第一弹,后续几天将继续开源多款适用于不同场景的Qwen3.5模型,旗舰版Qwen3.5-Max将在年后压轴登场[11][12][13] 核心性能表现 - 模型总参数为3970亿,单次推理仅激活170亿参数,激活比例不到5%,性能却超越万亿参数的Qwen3-Max[4][55] - 在MMLU-Pro测试中得分87.8分,超过GPT-5.2[17] - 在GPQA博士级科学推理评测基准中斩获88.4分,超越Claude 4.5[18] - 在IFBench榜单中以76.5分刷新指令遵循最高纪录[20] - 在Agent能力评测(BFCL-V4、Browsecomp)中评分全面超越Gemini-3-Pro[20] 多模态能力 - 模型从预训练第一天起就基于视觉和文本的混合Token数据,拥有原生多模态理解能力[22][23] - 在多模态主流评测(MathVison、RealWorldQA、CC_OCR、RefCOCO-avg、MLVU)中几乎横扫所有指标,刷新开源模型天花板[23] - 在学科解题、任务规划与物理空间推理等高难度场景上,表现出超越专项模型Qwen3-VL的综合素养[24] - 支持长达2小时的超长视频直接输入,配合1M Tokens原生上下文,能进行精准分析与摘要[26] - 实现视觉理解与代码逻辑的原生融合,可将手绘界面草图重构为高质量前端代码,并通过单张截图定位修复UI缺陷[28] 技术架构创新 - 对Transformer架构进行深度重构,引入四项关键技术以平衡性能与效率[48] - 引入混合注意力机制,根据信息重要程度动态分配计算资源,提升长上下文处理效率[53] - 采用极致稀疏的MoE架构,总参数3970亿,单次推理激活仅170亿,激活比例不到5%[55] - 采用原生多Token预测机制,使推理速度接近翻倍[56] - 引入NeurIPS 2025最佳论文的注意力门控机制等优化,解决稀疏架构训练稳定性问题[57][59] 效率与成本优势 - 新架构使训练成本降幅高达90%[60] - 与Qwen3-Max相比,Qwen3.5-Plus部署显存占用降低60%,最大推理吞吐量可提升至19倍[5][60] - 阿里云百炼为Qwen3.5 API提供极具竞争力的定价:百万Tokens输入低至0.8元,相当于同级别模型Gemini-3-pro价格的1/18[9] - 原生多模态训练方案使整体训练吞吐量与纯文本基座模型几乎无差别,激活内存减少约一半,训练速度额外提升10%[65] - 大规模强化学习框架将智能体训练效率提升了3到5倍[66] 语言支持与可及性 - Qwen3.5首次实现201种语言全覆盖,词表规模从15万大幅扩充至25万,小语种编码效率最高提升60%[9] - 普通用户可登录千问APP或PC端免费体验Qwen3.5模型,开发者可前往魔搭社区或HuggingFace下载部署[9] 行业影响与开源生态 - 自2023年开源以来,阿里已累计开源400多个模型,覆盖全尺寸和全模态领域[71] - 千问模型全球下载量突破10亿次,单月下载量超过第2名到第8名的总和,开发者基于千问开发的衍生模型已超过20万个[72] - 千问已成为全球最大AI大模型族群,其开源开放、低成本和广泛语言支持的策略旨在让更多人用上顶尖模型[73]
从Gemini到豆包:全球两大AI巨头为何走上同一条路?
第一财经资讯· 2026-02-14 23:27
产品发布与定位 - 字节跳动于2月14日正式推出豆包大模型2.0系列,这是自2023年初始测试版上线、2024年正式发布后,近一年半时间内的代际版本更新 [1] - 豆包2.0版本具备全栈模型矩阵、多模态理解、企业级Agent和极致成本四大差异化优势,已跻身全球第一梯队,在多项公开测试集上表现突出,接近Google Gemini3,且具备更高性价比 [1] - 公司官方明确表示,旗舰版豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro [2] 模型能力与技术参数 - 豆包2.0系列提供Pro、Lite、Mini三款不同尺寸的通用Agent模型,其多模态理解能力全面升级,并强化了LLM与Agent能力,使模型在真实长链路任务中能够稳定推进 [3] - 在语言模型基础能力上,豆包2.0 Pro旗舰版取得IMO、CMO数学竞赛和ICPC编程竞赛金牌成绩,数学和推理能力达到世界顶尖水平 [3] - 在科学领域知识测试中,豆包2.0在SuperGPQA等多项公开测试集上表现突出,成绩与Gemini 3 Pro和GPT 5.2相当,跨学科知识应用排名前列 [3] - 豆包2.0全面升级多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中取得业界最佳表现 [3] - 豆包2.0 Pro在视觉推理、空间感知、运动理解、长视频理解等维度的大多数相关基准测试中取得最高分 [7] - 豆包2.0可以处理复杂视觉输入并完成实时交互和应用生成,无论是从图像中提取结构化信息,还是通过视觉输入生成交互式内容,都能高效稳定地完成任务 [7] Agent与任务执行能力 - 豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶尖水平,在HLE-Text(人类的最后考试)上获得54.2的最高分,大幅领先于其他模型 [4] - 此次豆包2.0全面升级的核心落点在“真实世界复杂任务的执行力”,旨在让模型从“答题者”进化为“执行者” [6] - 公司强化了模型对时间序列与运动感知的理解能力,例如在健身场景中,接入豆包2.0的智能健身App可实时分析用户动作视频并语音纠正姿势偏移,该能力已延伸至穿搭建议、老人看护等领域 [4] 成本与定价策略 - 豆包2.0 Pro按“输入长度”区间定价,32k以内的输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [4] - 豆包2.0 Lite极具性价比,综合性能超越上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元 [4] - 在提升能力的同时,豆包2.0进一步降低了推理成本,其模型效果与业界顶尖大模型相当,同时token定价降低了约一个数量级 [6] 行业趋势与战略共识 - 豆包2.0与Google Gemini的相似性从“对标”走向“一致”,这本质上是全球顶尖AI实验室在通往通用人工智能路径上达成的战略共识,即AI最终需要为人类完成任务执行,这需要对真实世界物理运行规律的理解 [2] - 豆包2.0与Gemini在基础模型层面均选择深耕多模态,是在进行一场“世界模型”的军备竞赛,目标是让AI成为能看懂、听懂、理解物理世界复杂性的“数字人类” [8]
Kimi K2.5登顶开源第一!15T数据训练秘籍公开,杨植麟剧透K3
量子位· 2026-02-03 08:37
开源模型市场表现 - Kimi K2.5在开源社区平台Hugging Face上成为趋势榜首,下载量超过5.3万次 [2] 模型核心能力与性能 - Kimi K2.5主打智能体(Agent)能力,在HLE-Full、BrowseComp等测试集中,其表现超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型 [3] - 在BrowseComp测试中达到比GPT-5.2更高的表现,而资金消耗仅有不到5%,显示出极高的性价比 [9] 技术架构与训练方法 - 模型采用原生多模态技术路线,使用同一套参数空间直接处理视觉信号与文本逻辑 [7] - 在K2架构基础上,投入了15万亿(15T)的视觉与文本混合Token进行持续预训练 [6] - 在15T的庞大数据量级下,模型的视觉理解与文本推理能力实现了同步增强 [8] 视觉编程与自动化调试 - 基于原生多模态底座,K2.5解锁了“视觉编程”能力,能够从视频流直接逆向推导代码 [11] - 模型能够从包含复杂特效的网页演示视频中,捕捉视觉元素随时间变化的规律,并直接映射为可执行的前端代码,实现从设计演示到代码实现的无损转化 [12] - 模型集成了自主视觉调试机制,在代码生成并渲染界面后,会调用视觉感知能力对实际运行页面进行验收,发现问题后自动触发文档查询工具进行定位和修正,形成“生成-观察-查阅-修复”的自动化闭环 [14][15][16] 智能体集群系统 - Kimi K2.5搭载了Agent Swarm架构,能够自主构建并编排多达100个子智能体,并支持调用1500个工具的并行工作流 [17] - 该系统将复杂任务拆解为同步进行的子任务,利用集群算力大幅压缩处理时间 [18] - 系统采用PARL(并行智能体强化学习)框架进行指挥,由调度器负责宏观任务拆解与分发,参数冻结的子智能体负责高效执行具体指令 [20][21][22] - 训练过程采用阶段性奖励塑造策略,初期优先激励调度器进行并行化探索,后期奖励重心平滑过渡至任务最终成功率 [25][26] - 效率评估引入临界步骤作为核心指标,聚焦调度开销与最慢子智能体的耗时,以缩短端到端实际等待时间为目标,在极致速度与计算资源消耗之间寻找平衡 [28] 团队沟通与未来展望 - 月之暗面三位创始人在Reddit进行了长达3小时的AMA问答,与全球开发者交流 [29][30] - 对于下一代Kimi K3,团队预告其很可能基于线性注意力机制,并预期相比K2.5将会有质的飞跃,甚至可能有10倍的提升 [31][32] - 团队解释K2.5偶尔会自称Claude的现象,是由于模型训练数据中包含了大量高质量的编程数据,而这些数据里充斥着Claude的名字 [34] - 团队认为堆砌算力不是通往AGI的唯一路径,在有限资源下追求更高效的算法和更聪明的架构是其核心目标 [38]
中国AI“三杰”同日轰炸,召唤百个Agent的门票终于发到每个人手里
观察者网· 2026-01-28 17:37
文章核心观点 - 月之暗面公司发布的Kimi K2.5模型,通过原生多模态和智能体集群等核心能力,将AI从“副驾驶”工具进化为可直接交付生产力的“同事”或“超级个体”,实现了从提供软件(SaaS)到提供服务(Service)的根本性商业范式转移 [8][22][24] 产品与技术能力 - **技术路线图清晰连贯**:K1时代构建超长上下文“记忆”,K2时代通过智能体解决“行动”,K2.5时代通过多模态和集群解决“感知与组织”,最终形成一个能看、能想、能干、能协作的“超级个体” [8] - **硬核基准测试表现卓越**:在SWE-Bench Verified和HLE等测试中,Kimi不仅超越DeepSeek V3位列开源第一,更在多项指标上击败闭源的GPT 5.2和Gemini 3 Pro,实现全球第一 [9] - **原生多模态能力颠覆开发流程**:K2.5的核心升级之一是原生多模态,视觉理解能力与语言、代码能力深度融合,用户仅需提供草图或涂鸦,Kimi即可生成包含完整HTML、CSS和JS的可运行代码,具备“动态理解”和“审美溢价”能力 [11][13][15] - **智能体集群重构组织形式**:K2.5引入的Agent Swarm架构,使主模型能作为“总指挥”自动创建并调度数十个AI分身并行协作,将复杂任务的处理链条大幅坍缩 [17][21] 效率与生产力提升 - **大幅缩短产品开发周期**:传统创意上线流程需数周乃至数月,K2.5将其坍缩为“决策者直连Kimi”的单节点,实现“所见即生成” [14][16] - **智能体集群显著提升效率**:在大规模搜索场景下,与单Agent相比,Agent集群将达成目标所需的最少关键步骤减少3到4.5倍,实际运行时间最高可缩短4.5倍 [19] - **深度集成办公场景提升人效**:K2.5可深度集成进Excel、Word等工作流,将处理万行数据表等需数天的工作量压缩至几分钟,提供强大的“人效杠杆” [20][21] 商业模式与市场影响 - **商业逻辑从“卖铲子”转向“帮你挖井”**:公司瞄准的不是销售软件工具,而是直接提供生产力服务,实现了从软件(Software)到服务(Service)的范式转移 [22] - **通过开源确立标准,通过云端服务盈利**:尽管K2.5开源,但企业自建“数字员工”的算力与运维成本高昂,公司通过极致优化的API服务实现利润,其价值主张极具吸引力 [23] - **市场增长与付费意愿强劲**:2025年下半年,公司全球付费用户数月增速达170%,自11月以来海外大模型API收入增长4倍,证明了开源模型可实现商业闭环且市场愿为“结果”付费 [23] - **切入广阔业务流程外包市场**:公司切入的不仅是软件市场,更是规模超3000亿美元的业务流程外包市场,使AI以“服务交付”形式直接进入劳动力市场 [23] - **估值快速攀升反映市场认可**:公司在12月31日完成5亿美元融资后,不到一个月估值即从43亿美元推升至48亿美元 [22] 行业趋势与未来展望 - **AI从“Copilot”进化为“Coworker”**:AI正在成为一个不可逆的时代洪流,从辅助工具全面进化为可直接协作的“同事” [24] - **重新定义企业核心资产与组织形态**:未来创业可能不再需要庞大团队,而只需足够算力配额;公司的核心资产可能从“人头数”转向“Agent调度能力” [24] - **技术的终极价值在于赋能于人**:技术的价值不在于其本身有多聪明,而在于能让多少人变得更强大,真正被重新定价的是人的想象力边界 [26]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
36氪· 2026-01-14 08:17
模型与行业发展趋势 - 模型分化已成为显性趋势,分化原因多元,包括To B与To C场景需求差异、对竞争格局的押注以及不同AI实验室的战略选择 [1] - 在To B领域,强模型与弱模型的分化会越来越明显,企业用户愿意为“最强模型”支付溢价,因为强模型(如Opus 4.5做10个任务能对8-9个)能减少错误监控成本,而弱模型(可能只对5-6个)即便更便宜也带来额外管理负担 [2][3] - 在To C场景,任务瓶颈往往不是模型不够大,而是上下文(Context)与环境(Environment)的缺失,例如回答“今天吃什么”需要个性化数据,因此利用好合规的上下文数据(如微信聊天记录)比盲目追求更强预训练模型能带来更大价值 [2] - To C场景适合模型与产品进行垂直整合的All-in-one路线,而To B(生产力应用)因涉及复杂生产环节,给了应用公司优化空间,出现了模型公司与应用公司之间的分层 [3] - 模型分化也是自然演化的结果,源于与客户的高频交流,例如Anthropic进入金融领域就是在交流中发现的机会 [3] - 模型分化的时机与竞争格局判断相关,例如智谱AI在DeepSeek出现后判断“Chatbot取代搜索”战局已定,从而选择押注编程(Coding)领域 [4] 技术新范式与自主学习 - Scaling(规模扩展)仍会继续,但需区分已知路径(通过增加数据和算力探索能力上限)与未知路径(寻找新范式,让AI系统自主定义奖励函数、交互方法和训练任务) [5][6] - Scaling Law的核心是将能源高效转化为智能,是技术、数据与品味(taste)共进的过程,探索前沿智能不会因潜在风险而停止 [8] - 自主学习是共识性极强的新范式,目标是让模型具备自反思与自学习能力,通过持续自我评估与批判来优化行为路径 [8] - 新范式的发生是一个“渐变”过程,已有信号显现,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT拟合用户聊天风格,Claude Code编写了自己项目95%的代码 [8] - 新范式发展的最大瓶颈是想象力,即需要构想出证明其实现的具体任务,例如变成一个赚钱的交易系统或解决未解科学问题 [8] - 从实际角度看,强化学习(RL)的潜力尚未被充分挖掘,下一代范式包括自主学习以及AI具备更强的主动性,未来模型可能不再需要人类提示(Prompt),而是由环境直接触发 [9] - 主动学习(Active Learning)会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向 [9] - 持续学习(Continual Learning)中,对于多智能体(Agent)串联的长程任务,若单个智能体能力未达100%,后续能力会呈指数级下降,可能需要探索类似人类睡眠的“清噪”与新计算模式 [9] - 提出了“智能效率”(Intelligence Efficiency)概念,未来范式应关注“投入多少资源能获得多少智能增量”,以解决成本瓶颈 [10] - 大模型发展借鉴人脑认知,在多模态、记忆与持续学习、以及反思与自我认知这几类人类显著领先的能力上,可能是新的突破方向 [10] - 智谱AI参考人类认知提出AI系统三模块结构:系统1(模式匹配与知识提取,对应数据与模型规模的Scaling-up)、系统2(知识融合与推理,对应Reasoning的Scaling)、自主学习(对应Environment Scaling,让模型从与外界交互中获得反馈) [10] 多模态与感知能力 - 原生多模态模型与人类的“感统”相似,能汇集视觉、声音、触觉等信息进行综合感知,但当前模型的感统能力并不充分 [11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务,如在手机、电脑等设备上持续协作 [11] - 多模态同样是Qwen的持续发展方向,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论 [11] - 从第一性原理出发,为模型提供更多生产力、更好地帮助人类,发展视觉、语音等多模态能力是自然而然的选择 [11] - 视频是更广义的表达,理解长视频是一个有意义的探索方向 [12] 智能体(Agent)的发展与产品化 - 编程(Coding)是通往智能体(Agent)的必经之路,例如智谱AI的GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题 [13] - 模型即智能体,智能体即产品,实现复杂任务对模型要求极高,因此做基础模型本身就是在做产品 [13] - 模型在To B和To C的分化同样体现在智能体上:To C产品的指标有时与模型智能不相关甚至相反;To B的智能体则更依赖模型智能提升来解决真实世界任务、创造价值 [14] - 生产力场景的智能体才刚开始,除了模型进步,环境与部署(deployment)同样重要,是创造价值的关键,即使模型不再变好,将现有模型部署到各公司也能带来10倍甚至100倍的收益,但目前AI对GDP的影响还远不到1% [14] - 未来的智能体将变成“托管式”,用户设定通用目标后,智能体在后台长时间独立运行直至完成任务,这需要自我进化(Self-evolution)与主动学习(Active Learning)能力支撑 [15] - 在通用智能体开发中,解决长尾任务更值得关注,用户感知AI的价值常因某个长尾任务被解决,今天的AGI本质上也在解决长尾问题 [15] - 通用智能体的开发见仁见智,若应用公司没有比模型公司做得更好的信息优势,那么“模型即产品”对模型公司是机会,因为许多工程问题可能只需“烧卡”即可解决 [15] - 智能体的发展可从两个维度划分四象限:目标定义(人为/自动)和任务规划(人为/自动),目前处于初级阶段(目标与规划皆由人定义),未来将发展为由大模型内生定义 [16] - 决定智能体未来走势的重要问题包括:能否真正解决人类任务并创造价值、成本有多大、以及应用公司的迭代速度是否能拉开时间窗口 [17][18] 全球AI竞赛与中美对比 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国在制造业、电动车等领域已证明,一旦某事可行,就能以极高效率复现甚至做到局部更好 [19] - 长期挑战在于文化差异,即“敢突破新范式、敢冒险的人不够多”,并面临两个现实瓶颈:光刻机突破决定的算力瓶颈,以及是否能诞生更成熟的To B市场并在国际竞争,应避免过分刷榜,更关注做“正确的事”和用户体验 [20] - 相对冷静的观点认为,中国AI超过美国的概率最乐观情况为20%,中美算力差异不仅是绝对量级(美国算力比中国大1-2个数量级),更是结构性的:美国将相当一部分算力投入下一代研究,而中国仍在解决任务交付爆发带来的算力瓶颈 [21] - 但“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施(Infra)的联合优化,这可能倒逼创新发生 [21] - 面对光刻机瓶颈,有可能从软硬结合的角度,通过下一代模型结构和芯片实现端到端(End-to-End)的突破 [21]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
海外独角兽· 2026-01-13 20:33
文章核心观点 - 华人已成为AGI领域的重要力量,中国开源模型是全球Tier 1,预计到2026年地位将更加牢固[1] - 大模型行业正经历显著分化,主要体现在To B与To C场景、以及垂直整合与分层路线上[3] - 自主学习是行业共识性极强的新范式,预计2026年将成为主要投入方向[1] - Scaling(规模扩展)将继续,是技术、数据与品味共进的结果,探索前沿智能不会停止[1] - 模型即Agent,Agent即产品,两者趋于一体化[1] - 中美AI竞赛存在结构性差异,美国算力比中国多1-2个数量级,且更多投入下一代技术探索[1] 模型分化趋势 - 分化趋势显性,原因多元,包括To B和To C场景需求差异、对竞争格局的思考以及不同AI实验室的战略选择[1] - To B领域会出现强模型与弱模型的分化,且会越来越大[1] - To C场景的任务瓶颈往往不是模型不够大,而是上下文(Context)和环境(Environment)的缺失[1] - 在To C逻辑下,大多数用户大多数时候不需要很强的智能,模型智能提升的体验不强烈[3] - To C问题的解法在于真正的个性化数据,例如在合规前提下利用微信聊天记录等上下文,比追求更强预训练模型带来更大价值[3] - 在To B市场,用户(企业)愿意为“最强模型”付出溢价,因此强模型与弱模型的分化会越来越明显[3] - 例如,Opus 4.5这类强模型做10个任务能对8-9个,而弱模型只能对5-6个,即使后者更便宜,但企业因监控错误成本高而更倾向于选择强模型[4] - To C场景中,模型做All-in-one的垂直整合成立,模型与产品可强耦合迭代;而To B(生产力应用)因涉及多生产环节,给了应用公司优化空间,出现了模型公司与应用之间的分层[4] - 模型分化并非预设路线图,更多是自然演化的结果,通常源于与客户的高频交流[4] - 分化与模型竞争的时机相关,例如智谱AI押注Coding是基于对当时模型竞争格局(如DeepSeek出现后Chatbot取代搜索之战基本结束)的判断[5] 新范式:自主学习 - Scaling会继续,但需区分两种方向:Scaling已知路径(增加数据和算力)和Scaling未知路径(寻找新范式,让AI系统自己定义奖励函数、交互方法等)[5] - 当下AI社区对新范式尚无统一定义,自主学习、主动学习、持续学习等概念本质都预期模型能在人类不介入下提升智能[6] - Scaling Law被总结为一种将能源转化为智能的视角,核心在于高效逼近智能上限,是技术、数据与审美的共进[6] - 自主学习的目标是让模型具备自反思与自学习能力,通过持续的自我评估与批判来优化行为路径[6] - 新范式的发生是一个正在发生的“渐变”过程,2025年已出现信号,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT利用用户数据拟合聊天风格,Claude Code写了自身项目95%的代码[6] - 新范式的最大瓶颈是想象力,即需要构想出证明范式实现的具体任务(如赚钱的交易系统或解决未解科学问题)[7] - 从更实际角度看,强化学习(RL)的潜力尚未被充分挖掘;下一代范式存在两个维度:自主学习和AI具备更强的主动性(未来模型可能不再需要人类提示,而是环境本身就能提示它)[7] - 主动学习会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向[7] - 自主学习能体现到个性化上,但衡量其是否“变好”会变得困难,因为当AI覆盖生活方方面面后,评估指标变得极其模糊[7] - 对于多Agent串联的长程任务,一旦Agent能力未达100%,后续能力往往呈指数级下降;人类通过睡眠“清理噪音”,AI可能需要探索类似的清噪与新计算模式[8] - 提出了“智能效率”(Intelligence Efficiency)概念,即关注投入多少资源能获得多少智能增量,这是解决成本瓶颈的关键[8] - 大模型发展路径借鉴人脑认知学习过程,而在多模态、记忆与持续学习、反思与自我认知这几类能力上,人类显著领先于当前模型,这些可能是新的突破方向[8] - 智谱AI在2020年参考人类认知规划了AI系统结构图,包含三个模块:系统一(模式匹配与知识提取)、系统二(知识融合与推理机制)、自主学习,分别对应数据与模型规模的Scaling-up、推理的Scaling、以及环境Scaling(让模型从与外界交互中获得反馈)[9][10] 原生多模态 - 原生多模态模型和人的“感统”相似,能汇集视觉、声音、触觉等信息,但当前模型的感统能力并不充分[11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务[11] - 多模态同样是Qwen持续要做的事情,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论[11] - 从第一性原理出发,为模型提供更多生产力、更好帮助人类,做视觉、语音等多模态能力是自然而然的选择[11] - 视频是更广义的表达,图片可理解为单帧视频,理解很长视频是很有意思的事情[11] Agent发展 - Coding是通往Agent的必经之路,例如智谱AI的实践中,GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题[11] - 模型即产品,Agent要实现复杂任务对模型要求相当高,模型就是Agent本身,Agent就是产品本身,做基础模型也就是在做产品[12] - 模型To B和To C的分化同样体现在Agent上:To C产品的指标有时与模型智能不相关甚至相反;To B的Agent甚至不需要做太多创新,模型智能提升、解决真实世界任务能力提高就能创造更多价值[12] - 生产力场景的Agent才刚开始,除了模型进步,环境和部署同样重要,是Agent创造价值的关键:即使模型不再变好,只要把现有模型部署到各公司,也能带来10倍甚至100倍的收益,但今天AI对GDP的影响还远不到1%[13] - 教育非常重要,会使用AI工具的人正在替代那些不会使用工具的人[13] - 未来的Agent将变成“托管式”,用户设定通用目标后,Agent在后台长时间独立运行直至完成任务[13] - Agent要做到这一点离不开前面提到的自我进化以及主动学习,在此逻辑下,“模型即Agent,Agent即产品”[13] - 做通用Agent过程中,长尾任务更值得关注,用户感受到AI的价值与魅力往往因为某个长尾任务被解决,今天的所谓AGI本质上也在解决长尾问题[13] - 做通用Agent是见仁见智的问题,如果作为“套壳”方没有比模型公司做得更好的信息,那么通用Agent就是“模型即产品”的机会,因为对模型公司来说,很多工程问题可能只是“烧一烧卡”就可解决[14] - Agent发展可划分为四个象限,从两个维度看:目标定义(人为/自动)和任务规划(人为/自动);今天处于初级状态(目标与规划皆由人定义),未来会出现大模型观察人的工作并使用人的流程数据,最终目标与规划皆可由大模型定义,Agent应是大模型内生的原生系统[14] - 决定Agent未来走势的几个重要问题:是否能真正解决人类任务并创造价值及价值大小;Agent成本有多大(成本过高是问题,若调用API就能解决,模型厂商意识到价值大时就会自然做进去,这是基座模型与应用之间的矛盾);应用公司的迭代速度(若Agent团队有能力拉开半年时间窗口满足用户需求,就有机会持续往前走)[14][15] 全球AI竞赛 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国最大的优势在于一旦证明某件事可行,就有能力以极高效率复现、甚至做到局部更好[17] - 但长期视角中更核心的问题在于“敢突破新范式、敢冒险的人不够多”的文化差异,此外还需面对两个现实瓶颈:算力瓶颈(核心在于光刻机是否有突破)和是否能诞生更成熟的To B市场并在国际市场竞争(应更关注“正确的事”和用户体验,而非过分刷榜)[17][18] - 另一种观点认为,中国AI超过美国的概率最乐观情况为20%[18] - 中美AI之间算力差异不只是绝对量级上的,还是结构性的:美国算力比中国大1-2个数量级,但最关键的差异在于,美国有相当一部分算力投入到了下一代的研究中,而中国今天还在解决任务交付爆发带来的算力瓶颈[1][18] - 但从历史经验看,“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施的联合优化,这个出发点可以倒逼创新发生[18] - 面对光刻机的现实瓶颈,有可能在下一代的模型结构和芯片上从软硬结合的角度端到端地实现突破[18]