阿里千问推出原生视觉-语言模型Qwen3.5-397B-A17B

模型发布与核心性能 - 阿里千问于2月16日正式发布Qwen3.5系列，并推出该系列首款模型Qwen3.5-397B-A17B的开放权重版本 [1] - 该模型为原生视觉-语言模型，在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异 [1] - 模型采用创新的混合架构，将线性注意力与稀疏混合专家相结合，总参数量达3970亿，但每次前向传播仅激活170亿参数，实现了出色的推理效率 [1] - 相对于前代Qwen3系列模型，Qwen3.5的性能提升主要源于对各类强化学习任务和环境的全面扩展，更强调环境的难度与可泛化性 [1] 技术架构与效率 - 模型通过异构基础设施实现高效的原生多模态训练，在视觉与语言组件上解耦并行策略，避免统一方案带来的低效 [2] - 利用稀疏激活实现跨模块计算重叠，在混合文本-图像-视频数据上相比纯文本基线达到近100%的训练吞吐量提升 [2] - 采用原生FP8流水线对关键运算采用低精度，并通过运行时监控在敏感层保持BF16精度，实现了约50%的激活显存降低与超过10%的加速 [2] - 技术优化支持模型稳定扩展至数万亿 token 的训练规模 [2] 功能与可用性 - 模型将支持的语言与方言从119种扩展至201种，为全球用户提供更广泛的可用性与更完善的支持 [1]