阿里Qwen3.5马年首开源！35B性能逆袭235B，给开发者送省钱绝招

Qwen3.5中型模型系列发布 - 公司推出马年首批新模型Qwen3.5中型模型系列，包括Qwen3.5-122B-A10B、Qwen3.5-35B-A3B、Qwen3.5-27B（Dense）三款开源模型，同时Qwen3.5-Flash（Qwen3.5-35B-A3B生产版本）API已上线阿里云百炼 [2] - 新模型在指令遵循、研究生级推理、哈佛-MIT数学竞赛级数学、多语言知识、智能体工具使用等12项能力测评中，整体表现可与GPT-5 mini、Claude Sonnet 4.5等国际一流模型相媲美 [2] - 模型发布在开发者圈引起关注，开发者认为这些模型尺寸是本地推理的绝佳选择，实现了“更小模型实现更强性能” [12] 模型性能与市场定位 - Qwen3.5-35B-A3B性能已超越参数规模大数倍的Qwen3-235B-A22B-2507和Qwen3-VL-235B-A22B [13] - Qwen3.5-122B-A10B和Qwen3.5-27B进一步缩小了中型模型与前沿模型之间的差距，在复杂智能体场景中表现突出 [14] - Qwen3.5-Flash是与35B-A3B版本一致的托管生产版本，主打以较快速度提供强性能，每百万Token价格低至0.2元，默认支持1M超长上下文长度 [14] - 国际市场调研机构沙利文报告显示，2025年下半年，中国企业级大模型日均调用量千问（Qwen）占比32.1%位列第一，相较上半年的17.7%几乎翻倍，领先字节豆包（21.3%）和DeepSeek（18.4%） [18] 开发者反馈与成本效益 - 多位开发者称Qwen3.5-35B-A3B有望将其每月花费从2000欧元（购买Gemini服务）降至50欧元，大大节省成本 [12] - 一位开发者分享其部署Qwen3.5-35B-A3B的情况，称模型可以跑在16GB的显存机器上，处理32k上下文时每秒处理数能达到60-70个任务 [75] - 开发者对Qwen3.5-27B兴趣浓厚，并询问GGUF版本发布时间，同时有开发者催更更小参数模型如1B/3B/7B [77] 基准测试表现 - 在知识维度，Qwen3.5-122B-A10B在专业领域知识与推理（MMLU-Pro）、多语言与多领域知识（MMLU-Redux）、研究生级知识与推理（SuperGPQA）三项取得最高分 [78] - 在编程能力上，Qwen3.5-27B在SWE-bench Verified中取得最高分，Qwen3.5-122B-A10B在Terminal Bench 2和 FullStackBench en中表现最佳 [79] - 在通用智能体维度，Qwen3.5系列在BFCL-V4、TAU2-Bench、DeepPlanning等多项测评中取得最佳成绩 [79] - 在多语言能力维度，Qwen3.5-122B-A10B表现突出；在多模态能力维度，其在通用VQA领域表现强势，拿下RealWorldQA、MMStar等四项最高分 [85] - 在空间智能方面，Qwen3.5系列实现全维度领跑；在视频理解方面，Qwen3.5-122B-A10B包揽6项单项最高分 [86] 实测能力与产品迭代 - 实测显示三款模型在多模态理解和知识能力上效果出色，例如能准确识别“公鸡根雕”图片的材质为“崖柏”，并进行文化解读和价格评估 [18] - Qwen3.5-27B在编程任务中能够比较完整地生成“虚拟助手个人智能体OpenQwen的官方主页”网站页面，展现较强视觉编程能力 [39] - 在SVG卡通场景绘制任务中，三款模型在复杂约束下输出的SVG基本结构清晰，但在物体贴近程度上仍有提升空间 [64] - 相比于上一代旗舰模型Qwen3，Qwen3.5具有统一视觉语言基础、高效混合架构、可扩展的强化学习泛化、全球语言覆盖范围、下一代训练基础设施五大技术升级 [96] - 三款模型的发布时间距离Qwen3.5-397B-A17B仅一周，分别切入多模态、智能体深度推理与轻量化部署三大场景，快速补齐了产品矩阵 [97]