原生多模态
搜索文档
千问 3.5 发布,四成参数超越万亿模型,大模型的竞赛逻辑变了
搜狐财经· 2026-02-17 00:07
行业竞争逻辑转变 - 大模型行业正经历从“参数竞赛”到“架构竞赛”的拐点,竞争维度从“谁更强”转向“如何更高效地变强”,核心竞争维度转变为效率和成本 [1][3] - 继续单纯堆叠参数面临边际收益递减,而部署和推理成本刚性增长,导致模型性能曲线与普及曲线背离 [1][3] - 行业竞争标准发生变化,从过去比拼参数量和基准跑分,转向比拼谁能以更少的资源、更统一的架构覆盖更多的能力维度 [4] Qwen 3.5 模型性能与效率突破 - 模型总参数397B,激活参数仅17B,以不到40%的参数量超越了上一代万亿参数级的Qwen3-Max [1] - 多项基准测试成绩媲美或超越顶级闭源模型:MMLU-Pro知识推理得分87.8超越GPT-5.2,博士级难题GPQA得分88.4超越Claude 4.5,指令遵循IFBench以76.5分刷新所有模型纪录 [1] - 效率提升显著:在32K常用上下文场景下推理吞吐量提升8.6倍,256K超长上下文场景下最大提升至19倍,部署显存占用降低60% [3] - API定价极具竞争力,每百万Token低至0.8元,仅为同等性能Gemini 3 pro价格的1/18 [1][8] 技术实现路径:架构与协同创新 - 通过稀疏MoE、线性注意力、原生多Token预测等架构创新,大幅压缩激活参数,实现极致参数效率 [4] - 实现了从纯文本模型到原生多模态模型的代际跃迁,在文本和视觉混合Token上联合预训练,同时大幅新增STEM和推理数据 [4] - 原生多模态训练采用前期投入更高的路线,让不同模态各自选择最优并行策略并在关键位置做跨模态对齐,使多模态训练吞吐量几乎追平纯文本训练 [7] - 采用FP8/FP32混合精度策略,使激活内存减少约50%,同时训练效率提升10% [7] 公司的核心能力与战略协同 - 具备“模型+芯片+云”的垂直整合能力,自研的真武芯片针对MoE架构做了专项优化,能从硬件层面适配极致稀疏结构的计算需求 [5] - 拥有强大的基础研究向产品转化能力,例如获得NeurIPS 2025最佳论文奖的门控技术已融入Qwen 3.5,成为产品核心组件 [5] - 在原生多模态方向上投入决心大,承担了更高的工程风险,旨在打造具备原生跨模态能力的基础设施级模型 [7][8] - 极致的性价比(如API价格)源于模型架构效率、自研芯片优化和云基础设施的三重协同,而非补贴定价,具备可持续性 [8] 市场影响与商业生态 - 对闭源厂商构成结构性挑战,当开源模型在性能上追平且价格极低时,闭源厂商的API溢价根基被动摇 [9] - 千问在中国企业级大模型调用市场排名第一,阿里云在2025上半年中国AI云市场份额达到35.8%,超过第二到第四名总和,且份额从上季度的33%继续攀升至36% [11][12] - 开源生态飞轮效应显著:开源模型数量超过400个,开发者构建的衍生模型突破20万个,全球下载量突破10亿次,单月下载量超过第2到第8名总和 [12] - 千问App的AI购物Agent在春节期间6天完成1.2亿笔订单,成为全球大模型在真实消费场景中规模最大的商业化验证之一 [12] 行业未来展望与竞争格局 - 行业竞争进入新阶段,对模型架构、硬件协同和工程效率的深度理解将定义下一轮竞争规则 [13] - 留下关键观察问题:闭源阵营的护城河还剩什么;行业中具备类似垂直整合能力的玩家还有多少;原生多模态路线对当前主流分步组装路线的冲击 [13] - 公司已连续三代在开源模型的关键能力维度上稳定输出天花板级产品,这种持续的稳定性本身构成一种竞争优势 [13]
最强开源大模型除夕登场!397B参数千问3.5超越Gemini 3,百万Tokens低至8毛
量子位· 2026-02-16 19:00
模型发布与定位 - 阿里于除夕发布全新一代开源大模型Qwen3.5-Plus,登顶最强开源模型宝座[1] - 该模型是阿里春节档发布的第一弹,后续几天将继续开源多款适用于不同场景的Qwen3.5模型,旗舰版Qwen3.5-Max将在年后压轴登场[11][12][13] 核心性能表现 - 模型总参数为3970亿,单次推理仅激活170亿参数,激活比例不到5%,性能却超越万亿参数的Qwen3-Max[4][55] - 在MMLU-Pro测试中得分87.8分,超过GPT-5.2[17] - 在GPQA博士级科学推理评测基准中斩获88.4分,超越Claude 4.5[18] - 在IFBench榜单中以76.5分刷新指令遵循最高纪录[20] - 在Agent能力评测(BFCL-V4、Browsecomp)中评分全面超越Gemini-3-Pro[20] 多模态能力 - 模型从预训练第一天起就基于视觉和文本的混合Token数据,拥有原生多模态理解能力[22][23] - 在多模态主流评测(MathVison、RealWorldQA、CC_OCR、RefCOCO-avg、MLVU)中几乎横扫所有指标,刷新开源模型天花板[23] - 在学科解题、任务规划与物理空间推理等高难度场景上,表现出超越专项模型Qwen3-VL的综合素养[24] - 支持长达2小时的超长视频直接输入,配合1M Tokens原生上下文,能进行精准分析与摘要[26] - 实现视觉理解与代码逻辑的原生融合,可将手绘界面草图重构为高质量前端代码,并通过单张截图定位修复UI缺陷[28] 技术架构创新 - 对Transformer架构进行深度重构,引入四项关键技术以平衡性能与效率[48] - 引入混合注意力机制,根据信息重要程度动态分配计算资源,提升长上下文处理效率[53] - 采用极致稀疏的MoE架构,总参数3970亿,单次推理激活仅170亿,激活比例不到5%[55] - 采用原生多Token预测机制,使推理速度接近翻倍[56] - 引入NeurIPS 2025最佳论文的注意力门控机制等优化,解决稀疏架构训练稳定性问题[57][59] 效率与成本优势 - 新架构使训练成本降幅高达90%[60] - 与Qwen3-Max相比,Qwen3.5-Plus部署显存占用降低60%,最大推理吞吐量可提升至19倍[5][60] - 阿里云百炼为Qwen3.5 API提供极具竞争力的定价:百万Tokens输入低至0.8元,相当于同级别模型Gemini-3-pro价格的1/18[9] - 原生多模态训练方案使整体训练吞吐量与纯文本基座模型几乎无差别,激活内存减少约一半,训练速度额外提升10%[65] - 大规模强化学习框架将智能体训练效率提升了3到5倍[66] 语言支持与可及性 - Qwen3.5首次实现201种语言全覆盖,词表规模从15万大幅扩充至25万,小语种编码效率最高提升60%[9] - 普通用户可登录千问APP或PC端免费体验Qwen3.5模型,开发者可前往魔搭社区或HuggingFace下载部署[9] 行业影响与开源生态 - 自2023年开源以来,阿里已累计开源400多个模型,覆盖全尺寸和全模态领域[71] - 千问模型全球下载量突破10亿次,单月下载量超过第2名到第8名的总和,开发者基于千问开发的衍生模型已超过20万个[72] - 千问已成为全球最大AI大模型族群,其开源开放、低成本和广泛语言支持的策略旨在让更多人用上顶尖模型[73]
从Gemini到豆包:全球两大AI巨头为何走上同一条路?
第一财经资讯· 2026-02-14 23:27
产品发布与定位 - 字节跳动于2月14日正式推出豆包大模型2.0系列,这是自2023年初始测试版上线、2024年正式发布后,近一年半时间内的代际版本更新 [1] - 豆包2.0版本具备全栈模型矩阵、多模态理解、企业级Agent和极致成本四大差异化优势,已跻身全球第一梯队,在多项公开测试集上表现突出,接近Google Gemini3,且具备更高性价比 [1] - 公司官方明确表示,旗舰版豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro [2] 模型能力与技术参数 - 豆包2.0系列提供Pro、Lite、Mini三款不同尺寸的通用Agent模型,其多模态理解能力全面升级,并强化了LLM与Agent能力,使模型在真实长链路任务中能够稳定推进 [3] - 在语言模型基础能力上,豆包2.0 Pro旗舰版取得IMO、CMO数学竞赛和ICPC编程竞赛金牌成绩,数学和推理能力达到世界顶尖水平 [3] - 在科学领域知识测试中,豆包2.0在SuperGPQA等多项公开测试集上表现突出,成绩与Gemini 3 Pro和GPT 5.2相当,跨学科知识应用排名前列 [3] - 豆包2.0全面升级多模态理解能力,在视觉推理、空间感知、长上下文理解等权威测试中取得业界最佳表现 [3] - 豆包2.0 Pro在视觉推理、空间感知、运动理解、长视频理解等维度的大多数相关基准测试中取得最高分 [7] - 豆包2.0可以处理复杂视觉输入并完成实时交互和应用生成,无论是从图像中提取结构化信息,还是通过视觉输入生成交互式内容,都能高效稳定地完成任务 [7] Agent与任务执行能力 - 豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶尖水平,在HLE-Text(人类的最后考试)上获得54.2的最高分,大幅领先于其他模型 [4] - 此次豆包2.0全面升级的核心落点在“真实世界复杂任务的执行力”,旨在让模型从“答题者”进化为“执行者” [6] - 公司强化了模型对时间序列与运动感知的理解能力,例如在健身场景中,接入豆包2.0的智能健身App可实时分析用户动作视频并语音纠正姿势偏移,该能力已延伸至穿搭建议、老人看护等领域 [4] 成本与定价策略 - 豆包2.0 Pro按“输入长度”区间定价,32k以内的输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势 [4] - 豆包2.0 Lite极具性价比,综合性能超越上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元 [4] - 在提升能力的同时,豆包2.0进一步降低了推理成本,其模型效果与业界顶尖大模型相当,同时token定价降低了约一个数量级 [6] 行业趋势与战略共识 - 豆包2.0与Google Gemini的相似性从“对标”走向“一致”,这本质上是全球顶尖AI实验室在通往通用人工智能路径上达成的战略共识,即AI最终需要为人类完成任务执行,这需要对真实世界物理运行规律的理解 [2] - 豆包2.0与Gemini在基础模型层面均选择深耕多模态,是在进行一场“世界模型”的军备竞赛,目标是让AI成为能看懂、听懂、理解物理世界复杂性的“数字人类” [8]
Kimi K2.5登顶开源第一!15T数据训练秘籍公开,杨植麟剧透K3
量子位· 2026-02-03 08:37
开源模型市场表现 - Kimi K2.5在开源社区平台Hugging Face上成为趋势榜首,下载量超过5.3万次 [2] 模型核心能力与性能 - Kimi K2.5主打智能体(Agent)能力,在HLE-Full、BrowseComp等测试集中,其表现超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型 [3] - 在BrowseComp测试中达到比GPT-5.2更高的表现,而资金消耗仅有不到5%,显示出极高的性价比 [9] 技术架构与训练方法 - 模型采用原生多模态技术路线,使用同一套参数空间直接处理视觉信号与文本逻辑 [7] - 在K2架构基础上,投入了15万亿(15T)的视觉与文本混合Token进行持续预训练 [6] - 在15T的庞大数据量级下,模型的视觉理解与文本推理能力实现了同步增强 [8] 视觉编程与自动化调试 - 基于原生多模态底座,K2.5解锁了“视觉编程”能力,能够从视频流直接逆向推导代码 [11] - 模型能够从包含复杂特效的网页演示视频中,捕捉视觉元素随时间变化的规律,并直接映射为可执行的前端代码,实现从设计演示到代码实现的无损转化 [12] - 模型集成了自主视觉调试机制,在代码生成并渲染界面后,会调用视觉感知能力对实际运行页面进行验收,发现问题后自动触发文档查询工具进行定位和修正,形成“生成-观察-查阅-修复”的自动化闭环 [14][15][16] 智能体集群系统 - Kimi K2.5搭载了Agent Swarm架构,能够自主构建并编排多达100个子智能体,并支持调用1500个工具的并行工作流 [17] - 该系统将复杂任务拆解为同步进行的子任务,利用集群算力大幅压缩处理时间 [18] - 系统采用PARL(并行智能体强化学习)框架进行指挥,由调度器负责宏观任务拆解与分发,参数冻结的子智能体负责高效执行具体指令 [20][21][22] - 训练过程采用阶段性奖励塑造策略,初期优先激励调度器进行并行化探索,后期奖励重心平滑过渡至任务最终成功率 [25][26] - 效率评估引入临界步骤作为核心指标,聚焦调度开销与最慢子智能体的耗时,以缩短端到端实际等待时间为目标,在极致速度与计算资源消耗之间寻找平衡 [28] 团队沟通与未来展望 - 月之暗面三位创始人在Reddit进行了长达3小时的AMA问答,与全球开发者交流 [29][30] - 对于下一代Kimi K3,团队预告其很可能基于线性注意力机制,并预期相比K2.5将会有质的飞跃,甚至可能有10倍的提升 [31][32] - 团队解释K2.5偶尔会自称Claude的现象,是由于模型训练数据中包含了大量高质量的编程数据,而这些数据里充斥着Claude的名字 [34] - 团队认为堆砌算力不是通往AGI的唯一路径,在有限资源下追求更高效的算法和更聪明的架构是其核心目标 [38]
中国AI“三杰”同日轰炸,召唤百个Agent的门票终于发到每个人手里
观察者网· 2026-01-28 17:37
文章核心观点 - 月之暗面公司发布的Kimi K2.5模型,通过原生多模态和智能体集群等核心能力,将AI从“副驾驶”工具进化为可直接交付生产力的“同事”或“超级个体”,实现了从提供软件(SaaS)到提供服务(Service)的根本性商业范式转移 [8][22][24] 产品与技术能力 - **技术路线图清晰连贯**:K1时代构建超长上下文“记忆”,K2时代通过智能体解决“行动”,K2.5时代通过多模态和集群解决“感知与组织”,最终形成一个能看、能想、能干、能协作的“超级个体” [8] - **硬核基准测试表现卓越**:在SWE-Bench Verified和HLE等测试中,Kimi不仅超越DeepSeek V3位列开源第一,更在多项指标上击败闭源的GPT 5.2和Gemini 3 Pro,实现全球第一 [9] - **原生多模态能力颠覆开发流程**:K2.5的核心升级之一是原生多模态,视觉理解能力与语言、代码能力深度融合,用户仅需提供草图或涂鸦,Kimi即可生成包含完整HTML、CSS和JS的可运行代码,具备“动态理解”和“审美溢价”能力 [11][13][15] - **智能体集群重构组织形式**:K2.5引入的Agent Swarm架构,使主模型能作为“总指挥”自动创建并调度数十个AI分身并行协作,将复杂任务的处理链条大幅坍缩 [17][21] 效率与生产力提升 - **大幅缩短产品开发周期**:传统创意上线流程需数周乃至数月,K2.5将其坍缩为“决策者直连Kimi”的单节点,实现“所见即生成” [14][16] - **智能体集群显著提升效率**:在大规模搜索场景下,与单Agent相比,Agent集群将达成目标所需的最少关键步骤减少3到4.5倍,实际运行时间最高可缩短4.5倍 [19] - **深度集成办公场景提升人效**:K2.5可深度集成进Excel、Word等工作流,将处理万行数据表等需数天的工作量压缩至几分钟,提供强大的“人效杠杆” [20][21] 商业模式与市场影响 - **商业逻辑从“卖铲子”转向“帮你挖井”**:公司瞄准的不是销售软件工具,而是直接提供生产力服务,实现了从软件(Software)到服务(Service)的范式转移 [22] - **通过开源确立标准,通过云端服务盈利**:尽管K2.5开源,但企业自建“数字员工”的算力与运维成本高昂,公司通过极致优化的API服务实现利润,其价值主张极具吸引力 [23] - **市场增长与付费意愿强劲**:2025年下半年,公司全球付费用户数月增速达170%,自11月以来海外大模型API收入增长4倍,证明了开源模型可实现商业闭环且市场愿为“结果”付费 [23] - **切入广阔业务流程外包市场**:公司切入的不仅是软件市场,更是规模超3000亿美元的业务流程外包市场,使AI以“服务交付”形式直接进入劳动力市场 [23] - **估值快速攀升反映市场认可**:公司在12月31日完成5亿美元融资后,不到一个月估值即从43亿美元推升至48亿美元 [22] 行业趋势与未来展望 - **AI从“Copilot”进化为“Coworker”**:AI正在成为一个不可逆的时代洪流,从辅助工具全面进化为可直接协作的“同事” [24] - **重新定义企业核心资产与组织形态**:未来创业可能不再需要庞大团队,而只需足够算力配额;公司的核心资产可能从“人头数”转向“Agent调度能力” [24] - **技术的终极价值在于赋能于人**:技术的价值不在于其本身有多聪明,而在于能让多少人变得更强大,真正被重新定价的是人的想象力边界 [26]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
36氪· 2026-01-14 08:17
模型与行业发展趋势 - 模型分化已成为显性趋势,分化原因多元,包括To B与To C场景需求差异、对竞争格局的押注以及不同AI实验室的战略选择 [1] - 在To B领域,强模型与弱模型的分化会越来越明显,企业用户愿意为“最强模型”支付溢价,因为强模型(如Opus 4.5做10个任务能对8-9个)能减少错误监控成本,而弱模型(可能只对5-6个)即便更便宜也带来额外管理负担 [2][3] - 在To C场景,任务瓶颈往往不是模型不够大,而是上下文(Context)与环境(Environment)的缺失,例如回答“今天吃什么”需要个性化数据,因此利用好合规的上下文数据(如微信聊天记录)比盲目追求更强预训练模型能带来更大价值 [2] - To C场景适合模型与产品进行垂直整合的All-in-one路线,而To B(生产力应用)因涉及复杂生产环节,给了应用公司优化空间,出现了模型公司与应用公司之间的分层 [3] - 模型分化也是自然演化的结果,源于与客户的高频交流,例如Anthropic进入金融领域就是在交流中发现的机会 [3] - 模型分化的时机与竞争格局判断相关,例如智谱AI在DeepSeek出现后判断“Chatbot取代搜索”战局已定,从而选择押注编程(Coding)领域 [4] 技术新范式与自主学习 - Scaling(规模扩展)仍会继续,但需区分已知路径(通过增加数据和算力探索能力上限)与未知路径(寻找新范式,让AI系统自主定义奖励函数、交互方法和训练任务) [5][6] - Scaling Law的核心是将能源高效转化为智能,是技术、数据与品味(taste)共进的过程,探索前沿智能不会因潜在风险而停止 [8] - 自主学习是共识性极强的新范式,目标是让模型具备自反思与自学习能力,通过持续自我评估与批判来优化行为路径 [8] - 新范式的发生是一个“渐变”过程,已有信号显现,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT拟合用户聊天风格,Claude Code编写了自己项目95%的代码 [8] - 新范式发展的最大瓶颈是想象力,即需要构想出证明其实现的具体任务,例如变成一个赚钱的交易系统或解决未解科学问题 [8] - 从实际角度看,强化学习(RL)的潜力尚未被充分挖掘,下一代范式包括自主学习以及AI具备更强的主动性,未来模型可能不再需要人类提示(Prompt),而是由环境直接触发 [9] - 主动学习(Active Learning)会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向 [9] - 持续学习(Continual Learning)中,对于多智能体(Agent)串联的长程任务,若单个智能体能力未达100%,后续能力会呈指数级下降,可能需要探索类似人类睡眠的“清噪”与新计算模式 [9] - 提出了“智能效率”(Intelligence Efficiency)概念,未来范式应关注“投入多少资源能获得多少智能增量”,以解决成本瓶颈 [10] - 大模型发展借鉴人脑认知,在多模态、记忆与持续学习、以及反思与自我认知这几类人类显著领先的能力上,可能是新的突破方向 [10] - 智谱AI参考人类认知提出AI系统三模块结构:系统1(模式匹配与知识提取,对应数据与模型规模的Scaling-up)、系统2(知识融合与推理,对应Reasoning的Scaling)、自主学习(对应Environment Scaling,让模型从与外界交互中获得反馈) [10] 多模态与感知能力 - 原生多模态模型与人类的“感统”相似,能汇集视觉、声音、触觉等信息进行综合感知,但当前模型的感统能力并不充分 [11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务,如在手机、电脑等设备上持续协作 [11] - 多模态同样是Qwen的持续发展方向,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论 [11] - 从第一性原理出发,为模型提供更多生产力、更好地帮助人类,发展视觉、语音等多模态能力是自然而然的选择 [11] - 视频是更广义的表达,理解长视频是一个有意义的探索方向 [12] 智能体(Agent)的发展与产品化 - 编程(Coding)是通往智能体(Agent)的必经之路,例如智谱AI的GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题 [13] - 模型即智能体,智能体即产品,实现复杂任务对模型要求极高,因此做基础模型本身就是在做产品 [13] - 模型在To B和To C的分化同样体现在智能体上:To C产品的指标有时与模型智能不相关甚至相反;To B的智能体则更依赖模型智能提升来解决真实世界任务、创造价值 [14] - 生产力场景的智能体才刚开始,除了模型进步,环境与部署(deployment)同样重要,是创造价值的关键,即使模型不再变好,将现有模型部署到各公司也能带来10倍甚至100倍的收益,但目前AI对GDP的影响还远不到1% [14] - 未来的智能体将变成“托管式”,用户设定通用目标后,智能体在后台长时间独立运行直至完成任务,这需要自我进化(Self-evolution)与主动学习(Active Learning)能力支撑 [15] - 在通用智能体开发中,解决长尾任务更值得关注,用户感知AI的价值常因某个长尾任务被解决,今天的AGI本质上也在解决长尾问题 [15] - 通用智能体的开发见仁见智,若应用公司没有比模型公司做得更好的信息优势,那么“模型即产品”对模型公司是机会,因为许多工程问题可能只需“烧卡”即可解决 [15] - 智能体的发展可从两个维度划分四象限:目标定义(人为/自动)和任务规划(人为/自动),目前处于初级阶段(目标与规划皆由人定义),未来将发展为由大模型内生定义 [16] - 决定智能体未来走势的重要问题包括:能否真正解决人类任务并创造价值、成本有多大、以及应用公司的迭代速度是否能拉开时间窗口 [17][18] 全球AI竞赛与中美对比 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国在制造业、电动车等领域已证明,一旦某事可行,就能以极高效率复现甚至做到局部更好 [19] - 长期挑战在于文化差异,即“敢突破新范式、敢冒险的人不够多”,并面临两个现实瓶颈:光刻机突破决定的算力瓶颈,以及是否能诞生更成熟的To B市场并在国际竞争,应避免过分刷榜,更关注做“正确的事”和用户体验 [20] - 相对冷静的观点认为,中国AI超过美国的概率最乐观情况为20%,中美算力差异不仅是绝对量级(美国算力比中国大1-2个数量级),更是结构性的:美国将相当一部分算力投入下一代研究,而中国仍在解决任务交付爆发带来的算力瓶颈 [21] - 但“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施(Infra)的联合优化,这可能倒逼创新发生 [21] - 面对光刻机瓶颈,有可能从软硬结合的角度,通过下一代模型结构和芯片实现端到端(End-to-End)的突破 [21]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
海外独角兽· 2026-01-13 20:33
文章核心观点 - 华人已成为AGI领域的重要力量,中国开源模型是全球Tier 1,预计到2026年地位将更加牢固[1] - 大模型行业正经历显著分化,主要体现在To B与To C场景、以及垂直整合与分层路线上[3] - 自主学习是行业共识性极强的新范式,预计2026年将成为主要投入方向[1] - Scaling(规模扩展)将继续,是技术、数据与品味共进的结果,探索前沿智能不会停止[1] - 模型即Agent,Agent即产品,两者趋于一体化[1] - 中美AI竞赛存在结构性差异,美国算力比中国多1-2个数量级,且更多投入下一代技术探索[1] 模型分化趋势 - 分化趋势显性,原因多元,包括To B和To C场景需求差异、对竞争格局的思考以及不同AI实验室的战略选择[1] - To B领域会出现强模型与弱模型的分化,且会越来越大[1] - To C场景的任务瓶颈往往不是模型不够大,而是上下文(Context)和环境(Environment)的缺失[1] - 在To C逻辑下,大多数用户大多数时候不需要很强的智能,模型智能提升的体验不强烈[3] - To C问题的解法在于真正的个性化数据,例如在合规前提下利用微信聊天记录等上下文,比追求更强预训练模型带来更大价值[3] - 在To B市场,用户(企业)愿意为“最强模型”付出溢价,因此强模型与弱模型的分化会越来越明显[3] - 例如,Opus 4.5这类强模型做10个任务能对8-9个,而弱模型只能对5-6个,即使后者更便宜,但企业因监控错误成本高而更倾向于选择强模型[4] - To C场景中,模型做All-in-one的垂直整合成立,模型与产品可强耦合迭代;而To B(生产力应用)因涉及多生产环节,给了应用公司优化空间,出现了模型公司与应用之间的分层[4] - 模型分化并非预设路线图,更多是自然演化的结果,通常源于与客户的高频交流[4] - 分化与模型竞争的时机相关,例如智谱AI押注Coding是基于对当时模型竞争格局(如DeepSeek出现后Chatbot取代搜索之战基本结束)的判断[5] 新范式:自主学习 - Scaling会继续,但需区分两种方向:Scaling已知路径(增加数据和算力)和Scaling未知路径(寻找新范式,让AI系统自己定义奖励函数、交互方法等)[5] - 当下AI社区对新范式尚无统一定义,自主学习、主动学习、持续学习等概念本质都预期模型能在人类不介入下提升智能[6] - Scaling Law被总结为一种将能源转化为智能的视角,核心在于高效逼近智能上限,是技术、数据与审美的共进[6] - 自主学习的目标是让模型具备自反思与自学习能力,通过持续的自我评估与批判来优化行为路径[6] - 新范式的发生是一个正在发生的“渐变”过程,2025年已出现信号,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT利用用户数据拟合聊天风格,Claude Code写了自身项目95%的代码[6] - 新范式的最大瓶颈是想象力,即需要构想出证明范式实现的具体任务(如赚钱的交易系统或解决未解科学问题)[7] - 从更实际角度看,强化学习(RL)的潜力尚未被充分挖掘;下一代范式存在两个维度:自主学习和AI具备更强的主动性(未来模型可能不再需要人类提示,而是环境本身就能提示它)[7] - 主动学习会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向[7] - 自主学习能体现到个性化上,但衡量其是否“变好”会变得困难,因为当AI覆盖生活方方面面后,评估指标变得极其模糊[7] - 对于多Agent串联的长程任务,一旦Agent能力未达100%,后续能力往往呈指数级下降;人类通过睡眠“清理噪音”,AI可能需要探索类似的清噪与新计算模式[8] - 提出了“智能效率”(Intelligence Efficiency)概念,即关注投入多少资源能获得多少智能增量,这是解决成本瓶颈的关键[8] - 大模型发展路径借鉴人脑认知学习过程,而在多模态、记忆与持续学习、反思与自我认知这几类能力上,人类显著领先于当前模型,这些可能是新的突破方向[8] - 智谱AI在2020年参考人类认知规划了AI系统结构图,包含三个模块:系统一(模式匹配与知识提取)、系统二(知识融合与推理机制)、自主学习,分别对应数据与模型规模的Scaling-up、推理的Scaling、以及环境Scaling(让模型从与外界交互中获得反馈)[9][10] 原生多模态 - 原生多模态模型和人的“感统”相似,能汇集视觉、声音、触觉等信息,但当前模型的感统能力并不充分[11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务[11] - 多模态同样是Qwen持续要做的事情,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论[11] - 从第一性原理出发,为模型提供更多生产力、更好帮助人类,做视觉、语音等多模态能力是自然而然的选择[11] - 视频是更广义的表达,图片可理解为单帧视频,理解很长视频是很有意思的事情[11] Agent发展 - Coding是通往Agent的必经之路,例如智谱AI的实践中,GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题[11] - 模型即产品,Agent要实现复杂任务对模型要求相当高,模型就是Agent本身,Agent就是产品本身,做基础模型也就是在做产品[12] - 模型To B和To C的分化同样体现在Agent上:To C产品的指标有时与模型智能不相关甚至相反;To B的Agent甚至不需要做太多创新,模型智能提升、解决真实世界任务能力提高就能创造更多价值[12] - 生产力场景的Agent才刚开始,除了模型进步,环境和部署同样重要,是Agent创造价值的关键:即使模型不再变好,只要把现有模型部署到各公司,也能带来10倍甚至100倍的收益,但今天AI对GDP的影响还远不到1%[13] - 教育非常重要,会使用AI工具的人正在替代那些不会使用工具的人[13] - 未来的Agent将变成“托管式”,用户设定通用目标后,Agent在后台长时间独立运行直至完成任务[13] - Agent要做到这一点离不开前面提到的自我进化以及主动学习,在此逻辑下,“模型即Agent,Agent即产品”[13] - 做通用Agent过程中,长尾任务更值得关注,用户感受到AI的价值与魅力往往因为某个长尾任务被解决,今天的所谓AGI本质上也在解决长尾问题[13] - 做通用Agent是见仁见智的问题,如果作为“套壳”方没有比模型公司做得更好的信息,那么通用Agent就是“模型即产品”的机会,因为对模型公司来说,很多工程问题可能只是“烧一烧卡”就可解决[14] - Agent发展可划分为四个象限,从两个维度看:目标定义(人为/自动)和任务规划(人为/自动);今天处于初级状态(目标与规划皆由人定义),未来会出现大模型观察人的工作并使用人的流程数据,最终目标与规划皆可由大模型定义,Agent应是大模型内生的原生系统[14] - 决定Agent未来走势的几个重要问题:是否能真正解决人类任务并创造价值及价值大小;Agent成本有多大(成本过高是问题,若调用API就能解决,模型厂商意识到价值大时就会自然做进去,这是基座模型与应用之间的矛盾);应用公司的迭代速度(若Agent团队有能力拉开半年时间窗口满足用户需求,就有机会持续往前走)[14][15] 全球AI竞赛 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国最大的优势在于一旦证明某件事可行,就有能力以极高效率复现、甚至做到局部更好[17] - 但长期视角中更核心的问题在于“敢突破新范式、敢冒险的人不够多”的文化差异,此外还需面对两个现实瓶颈:算力瓶颈(核心在于光刻机是否有突破)和是否能诞生更成熟的To B市场并在国际市场竞争(应更关注“正确的事”和用户体验,而非过分刷榜)[17][18] - 另一种观点认为,中国AI超过美国的概率最乐观情况为20%[18] - 中美AI之间算力差异不只是绝对量级上的,还是结构性的:美国算力比中国大1-2个数量级,但最关键的差异在于,美国有相当一部分算力投入到了下一代的研究中,而中国今天还在解决任务交付爆发带来的算力瓶颈[1][18] - 但从历史经验看,“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施的联合优化,这个出发点可以倒逼创新发生[18] - 面对光刻机的现实瓶颈,有可能在下一代的模型结构和芯片上从软硬结合的角度端到端地实现突破[18]
聊一聊AI硬件和软件
傅里叶的猫· 2026-01-09 23:58
文章核心观点 文章认为,近期AI硬件板块市场表现疲软,可能源于对AI数据中心(AIDC)建设速度的担忧,特别是DRAM产能的硬性约束可能限制增长[1][3][7]。与此同时,AI软件/应用领域的发展势头超出预期,受到政策支持、大厂竞争和技术突破的推动,展现出更强的投资吸引力[8][9][10][14]。 AI硬件:增长面临内存瓶颈 - **DRAM产能成为关键制约**:麦格理报告指出,未来两年DRAM行业的新增产能仅能支持约15GW的AI数据中心建设,这可能迫使全球AI扩建计划出现大规模延期与重新调度[3] - **产能约束的替代测算**:有产业研究观点认为,今明两年DRAM产能可支持的数据中心建设规模分别为20GW和33GW,但仍存在不确定性[5] - **数据中心装机量预测**:根据Visible Alpha测算,2025年全球数据中心装机量预计为17.4GW,2026年将增长至30.2GW[5][7] - **GPU出货与功耗激增**:英伟达GPU出货量从2022年的1570千颗(K)预计增长至2026年的9522千颗,单卡平均功耗从381瓦(W)升至1110瓦,导致其GPU出货对应的数据中心总功耗从2022年的0.6GW飙升至2026年的10.6GW[7] - **全球数据中心装机量预测**:基于英伟达GPU功耗及市占率等假设,测算出全球数据中心装机量将从2022年的1.3GW增长至2030年的96.1GW,其中2026年预计为30.2GW[7] - **中美市场占比**:预计到2026年,美国数据中心装机量占全球比例约为60%,对应18.1GW;中国占比约为22%,对应6.8GW[7] - **市场下跌归因**:市场可能将DRAM产能限制解读为AI数据中心增长不及预期的信号,从而导致硬件板块下跌[7] AI软件:政策、竞争与技术驱动发展 - **政策持续加码与精准落地**:国家政策从宏观引导转向精准落地,2025年启动“人工智能+”行动计划试点,2026年初八部门发布“人工智能+制造”专项意见,设定了推动3-5个通用大模型赋能制造业、打造100个工业高质量数据集、推广500个典型应用场景等量化目标[9] - **大厂竞争聚焦入口与生态**:2026年,国内外科技巨头竞争策略灵活密集,核心分两条线:C端聚焦流量入口构建与效率提升(如阿里千问绑定电商账号);B端通过售卖token和布局开发者生态带动云收入(如阿里云通义赋能智能硬件)[10][11][12] - **竞争延伸至实体场景**:ROBOTAXI(机器人出租车)成为新的竞争焦点,Waymo、特斯拉等公司均在加速布局[13] - **技术突破聚焦三大关键词**:2026年AI模型技术演进的核心是世界模型、原生多模态和自进化智能体(记忆)[14] - **原生多模态是突破重点**:其发展分为三个阶段,当前最先进的范式是谷歌实现的端到端统一混合编码解码,国内处于初步探索阶段[15] - **AI应用公司的核心竞争力**:在于技术渗透速度与场景落地效果,通过与现有应用、硬件和系统深度融合,在垂直领域解决实际问题并实现商业化闭环,以此避开与大厂通用大模型的正面竞争[15]
2026 AI 商业中场:从原生多模态到超级入口
晚点LatePost· 2025-12-22 21:39
文章核心观点 - AI行业的竞争已从单一模型能力比拼,演进为涵盖算力、芯片、框架、模型、应用和入口的全栈系统工程能力与基础创新的综合博弈[4][7][21] - 技术进步正解决AI商业化的两大核心障碍:对物理世界的理解与执行能力不足,以及过高的推理成本[7] - 下一代“超级入口”正从汇聚流量的App转向多模态智能助手,各大科技公司依托自身生态展开激烈竞争[22][23] - 具备“算力-系统-模型-入口-资源-行动能力”闭环能力的“AI六边形战士”型公司,被认为将在长期竞争中占据优势[24] AI技术发展趋势:从文本到原生多模态 - 大模型在单一文本维度的性能提升已进入“收益平台期”,缩放路径无法满足智能继续进化的目标[8] - 业界共识认为,大模型要理解世界需要视觉、听觉、语言等多种感官信息的融合,即发展原生多模态能力[8] - 原生多模态模型能从训练阶段就端到端理解图片、视频、语音等信息,但训练和推理复杂度呈指数级增加[9] - 2025年成为原生多模态发展的关键年份,国内外主要模型厂商均发布了相关模型[9] - 百度文心大模型5.0是参数量达2.4万亿的原生全模态大模型,在国内全模态模型中参数量最大[12] - 原生多模态能力让AI能够感知现实,为切入具身智能、智能座舱等万亿美金级赛道提供了可能[16] AI商业化关键:降低推理成本 - 行业从“快思考”转向“慢思考”模式,导致单次问题消耗的token数量激增[17] - 2025年,模型专用于推理类任务的调用量占token消耗总额的超50%[17] - 降低推理成本成为AI走向商业化的关键拐点[17] - DeepSeek凭借MLA架构和精细化MoE设计,在语言模型领域成为“效率标杆”[17] - 但原生多模态模型的训练算力需求是纯文本模型的5到10倍,推理更复杂,例如GPT-4o训练投入超1000 PFlop/s-day[18] - 实现多模态模型降本不能仅靠算法创新,需要芯片、框架、模型和应用四个层面的协同优化[20] - 百度文心5.0依托飞桨框架进行大规模MoE训练,模型预训练性能较基线提速230%,激活参数量比低至3%[20] - 推理成本降低将驱动模型能力从“云端”向“端侧”下沉,融入AI眼镜、智能座舱等设备[20] 主要参与者的全栈能力布局 - 国内具备芯片、框架、模型和应用闭环能力的公司目前只有百度和华为[20] - 百度布局:昆仑芯(芯片)、飞桨(框架)、百度智能云(云)、文心系列(模型)、搜索/地图/小度等(入口)[19] - 字节跳动布局:据传有自研芯片计划、定制框架、火山云、豆包大模型、抖音/TikTok/豆包App等入口[19] - 腾讯布局:自研紫霄芯片、定制框架、腾讯云、混元大模型、微信/QQ/腾讯元宝等入口[19] - 阿里巴巴布局:平头哥含光芯片、定制框架、阿里云、Qwen系列大模型、钉钉/淘宝/千问App等入口[19] - 华为布局:昇腾芯片、昇思框架、华为云、盘古大模型系列、鸿蒙原生应用与硬件生态[19] - Google被认为已形成“算力-模型-数据-应用”的系统级飞轮[24] - 百度被部分行业人士视为中国最接近“AI六边形战士”形态的公司之一,具备长期演进的系统飞轮能力[24] 下一代“超级入口”的竞争格局 - AI技术让“超级入口”的逻辑从“汇聚流量的app”转向“多模态的智能助手”[22] - 字节跳动发布与中兴努比亚合作的豆包手机助手,试图通过语音交互让AI直接接管用户屏幕,重塑人机交互逻辑[22] - 阿里巴巴成立千问C端事业群,将通义千问APP改名“千问APP”并快速迭代,已接入高德地图,未来计划整合夸克、UC、天猫精灵等功能[23] - 百度上线文心助手,升级搜索的AIGC创作能力,并依托文心5.0、萝卜快跑(自动驾驶)、小度等实现从虚拟空间向真实空间的渗透[23] - Google将Gemini 3嵌入核心搜索业务,通过跨应用数据调取实时生成交互式UI页面[23] - 腾讯在组织架构和人才上持续加码,新成立AI Infra部、AI Data部等,并以加倍薪资挖角AI人才[26]
大模型的进化方向:Words to Worlds | 对话商汤林达华
量子位· 2025-12-17 17:07
文章核心观点 - 商汤科技发布的原生多模态空间智能模型SenseNova-SI,在多项基准测试中超越了李飞飞团队的Cambrian-S等模型,标志着公司在空间智能领域达到世界前列水平 [2][3][4][5][6] - 行业单纯依赖参数规模扩展的AI发展范式面临瓶颈,边际效应递减,未来需要回归科研本质,发展能够理解物理世界的原生多模态模型 [8][9][12][13][14][15][16] - 商汤科技通过底层架构创新(NEO架构)和极致工程优化(如算法蒸馏),实现了技术突破与商业落地成本的大幅降低,践行“原始创新”与“击穿工业红线”的双轮驱动战略 [39][49][58][61][63][67] 模型性能与突破 - SenseNova-SI模型在多个空间智能基准测试(vsi, MMSI, MindCube-Tiny, ViewSpatial, SITE)中均取得了SOTA成绩,超越了包括Cambrian-S在内的开源及闭源模型 [4][5] - 具体数据:SenseNova-SI的1.1-InternVL3-2B版本在vsi基准得分为63.7,高于Cambrian-S-3B的57.3;其1.1-InternVL3-8B版本在vsi基准得分为68.7,高于Cambrian-S-7B的67.5,并在MindCube-Tiny基准上以85.6分大幅领先 [5] - 该模型基于商汤科技开源的NEO架构,仅用同类模型10%的训练数据就达到了SOTA水平,数据效率提升了10倍 [39][49] 行业范式转变 - AI行业过去三年奉行Scaling Law,依赖算力、GPU和数据堆叠,但自2024年下半年起,风向转变,模型分数提升带来的惊艳感边际递减 [12][13][14] - 纯语言模型红利将尽,顶尖模型在数学、编程上接近奥赛金牌水平,但在理解物理世界、处理三维空间关系上能力薄弱 [20] - 未来的AGI必须是能够理解物理世界、具有多感官能力的世界模型,AI需要从“读万卷书”(语言模型)进化到“行万里路”(空间与世界交互) [20][21] - OpenAI前首席科学家Ilya Sutskever提出“Back to Research”的呼吁,与商汤科技首席科学家林达华的思考不谋而合 [17][19] 技术架构创新 - 传统多模态模型采用“视觉编码器+大语言模型”的拼接式架构,视觉信号在转化为语言Token过程中丢失大量空间细节和三维结构信息,导致模型出现“幻觉”(如数不清手指) [32][33][36][37] - 商汤科技提出的NEO架构是原生多模态架构,从最底层的Transformer Block开始,每个单元都能同时处理视觉和语言信号 [42] - NEO架构采用混合注意力机制,让视觉Token和文本Token一同进入模型的每一层进行推理计算,并引入“跨视角预测”等训练方法,让模型真正理解三维空间关系 [44][46][47][48] 商业化落地与成本优化 - 大模型行业当前痛点包括不够聪明、成本太高、速度太慢,商汤科技内部设定“工业红线”标准:技术使用成本必须低于其创造的价值 [53][54][55] - 以视频生成为例,商汤科技通过“算法蒸馏”技术,将扩散模型的推理步数从100步压缩到4步,实现了64倍的速度提升,使得在消费级显卡上实时生成高质量数字人视频成为可能 [59][61][63][64] - 实时语音驱动数字人产品SekoTalk展示了算法与系统协同的极致优化,将20秒视频生成时间从一小时缩短到实时,为直播、短视频等领域的规模化落地打通路径 [58][65][66] 对中国AI产业的启示 - 在从“语言”到“世界”的AI范式迁徙中,中国科技公司已经抢到了一张船票 [11][73] - 中国拥有全世界最丰富的应用场景和最完整的工业体系,这片土壤天生适合培育能与物理世界深度交互的AI [72] - 建议年轻研究者和创业者不要只拥挤在大语言模型赛道,应拓宽视野至具身智能、AI for Science、工业制造、生命科学等领域 [68][69][70]