除夕迎「源神」?Qwen3.5以小胜大,捅破性价比天花板,大模型竞赛下半场开始了
机器之心·2026-02-16 18:09

文章核心观点 - 阿里发布的Qwen3.5-Plus模型,在多项核心能力上达到或超越了顶级闭源模型,同时实现了极低的推理成本,标志着顶级AI能力开始向高性价比和普惠化转变,可能引发行业竞争范式的变化 [3][7][8][25][26] 模型性能与定价 - 模型在多模态理解、复杂推理、编程、Agent智能体等核心能力上,在同级开源模型中领先,甚至能媲美或超越GPT-5.2、Gemini-3-pro等第一梯队闭源模型 [3] - 模型定价极具竞争力,每百万Token仅需0.8元,其直接对标的Gemini-3-pro价格是其18倍 [7] - 模型以3970亿的总参数(每次推理仅激活170亿参数),实现了对自家万亿参数模型Qwen3-Max的性能超越 [7][16] 底层架构创新 - 模型通过四项核心架构创新,实现了“以小博大”,告别了行业过去“力大砖飞”(堆叠参数量)的模式 [14][15][16] - 混合注意力机制:使模型能根据信息权重动态分配注意力资源,处理长文本时兼顾精度与效率 [18] - 极致稀疏的MoE架构:在397B总参数中,每次推理仅需激活17B参数(不到5%),能调用全局知识储备 [18] - 原生多Token预测:训练时掌握对后续多个位置联合预测的能力,在代码补全、长文本生成等场景中推理速度接近翻倍 [18] - 系统级训练稳定性优化:引入了包括荣获NeurIPS 2025最佳论文奖的“注意力门控机制”在内的深层优化,增强长上下文泛化能力 [18] - 上述创新使模型训练成本大降,算力部署成本较Qwen3-Max降低60%,在256K长文本下推理吞吐量提升19倍 [17] 原生多模态能力 - 模型实现了“原生多模态”,从预训练第一天起就在文本与视觉混合数据上进行联合学习,在统一参数空间内深度融合特征,避免了“外挂拼装”模式的信息损耗和性能失衡问题 [21][22] - 通过让不同模态“各走各的最优路径”并行策略及精巧的精度应用策略,成功将激活内存减少约50%,训练提速10%,即使同时输入文本、图像、视频数据,训练效率也几乎不受影响 [22] - 研发团队为不同场景搭建了专门的强化学习框架,将整体训练效率提升了3至5倍 [23] - 模型具备超越简单读图的能力,包括图像像素级空间定位、理解长达2小时视频的因果时序、将手绘草图直译为前端代码,以及化身视觉智能体自主操控设备完成复杂任务 [23] 行业影响与竞争范式 - 模型将顶级智能的“性价比”推向了新高度,当性能逼近闭源第一梯队而价格大幅下降时,将改变许多企业因成本过高而无法使用顶级AI的决策逻辑 [25] - 历史上改变行业的往往是最终变成基础设施的技术,如Linux和Android,开源降低门槛,生态将其铺开 [25] - Qwen3.5-Plus的背后是一整套从模型到算力再到云的联动,阿里通过开源释放模型能力,同时利用阿里云和自研芯片压低部署和推理成本,同时解决“用得好”和“用得起”的问题 [26] - 行业新的竞争方式正在成形:不再只是比拼模型最强,而是比拼谁能将足够强的能力变成最多人日常可用、用得起的基础设施 [26]

除夕迎「源神」?Qwen3.5以小胜大,捅破性价比天花板,大模型竞赛下半场开始了 - Reportify