实测拿215项SOTA的Qwen3.5-Omni：摄像头一开，AI给我现场讲论文、撸代码

产品发布与核心定位 - 通义千问发布了全新的多模态大模型Qwen3.5-Omni，该模型实现了真正的“全模态”原生能力，能够无缝理解并处理文本、图片、音频及音视频输入，并生成带时间戳的音视频脚本 [5] - 该模型旨在成为高效的工作助手，能够在视频会议中与用户进行正经的工作讨论，例如协助编程、讲解论文、分析视频等 [1][2][3] 模型规格与性能表现 - Qwen3.5-Omni提供了Plus、Flash、Light三种尺寸，支持256K长上下文与113种语言识别，可处理长达10小时的音频或1小时的视频内容 [6] - 在基准测试中表现强势，Qwen3.5-Omni共取得了215项SOTA（State-of-the-Art）成绩，整体性能与谷歌的Gemini 3.1 Pro模型相当 [7][44] - 在音频相关能力上全面超越竞品，其通用音频理解、推理、识别、翻译、对话等指标均全面超越了Gemini 3.1 Pro，音视频理解能力总体达到后者水平 [8][45] - 视觉和文本能力则与同尺寸的Qwen3.5模型持平 [9][48] 核心功能与交互体验 - 模型具备自然涌现的“vibe coding”能力，可以在实时视频通话中，根据摄像头捕捉到的画面逻辑（如手绘草图）实时生成Python代码或前端原型 [10][26][30] - 具备强大的视频理解与拆解能力，能够快速分析节奏紧凑、镜头密集的视频（如电影预告片），生成带时间戳的详细脚本，并能准确回答关于视频内容的细节问题 [14][15][16][17][21] - 支持通过视频通话进行实时论文解读，用户只需将论文页面展示给摄像头，模型即可用通俗语言讲解内容、创新点，并支持用户随时进行语义打断以切换话题 [36][39][40][41] - 交互体验接近真人，模型支持“语义打断”功能，但不会被无意义的背景音干扰，同时其语音输出带有语气、停顿等情感，提升了对话的自然度 [29][42] 技术架构与关键升级 - 模型延续了“Thinker-Talker”的双系统架构，Thinker（大脑）负责理解多模态输入，Talker（嘴巴）负责将结果以语音形式输出，两者均升级为Hybrid-Attention MoE以提升效率和性能 [53][54][55][60] - 在语音生成上采用了更轻量高效的RVQ（残差向量量化）方法，类似于“拼装声音单元”，替代了计算量大的逐帧生成方式，实现了更快、更省算力的语音合成 [61][62] - 引入了ARIA（自适应速率交错对齐）技术，动态对齐文本与语音的节奏，有效解决了以往AI语音中常见的漏读、读错、发音不稳定等问题 [52][63][64][65] - 通过流式设计实现了“边输入、边处理、边生成”，使得模型能够进行像真人一样的实时对话，显著减少了响应延迟 [66][67] 具体性能数据对比 - 在音频理解基准测试中，Qwen3.5-Omni-Plus在MMAU上得分为82.2，超越Gemini 3.1 Pro的81.1；在Muchomusic_rul上得分为72.4，大幅领先后者的59.6 [47] - 在语音识别（ASR）任务上表现优异，在Librispeech-other数据集上词错误率（WER）为2.23%，优于Gemini 3.1 Pro的4.41%；在Wenetspeech-net/meeting上词错误率为4.30%/5.84%，显著优于后者的11.53%/14.21% [47] - 在语音生成稳定性上，Qwen3.5-Omni-Plus在Seed-hard测试集上得分为6.24，优于GPT-Audio的8.19和Gemini 2.5 Pro的11.57，显示出更高的语音输出稳定性 [50] - 在文本与知识能力上，Qwen3.5-Omni-Plus在MMLU-Redux上得分为94.2，与Qwen3.5-Plus-NoThinking的94.3基本持平；在C-Eval上得分为92.0 [49] 可用性与行业意义 - 新模型目前已在Qwen Chat平台提供体验，用户可通过手机网页端使用其视频通话功能，同时也可通过阿里云百炼平台调用其API [69] - 该模型的发布代表了多模态AI交互方式的重大飞跃，通过整合实时音视频理解、自然对话与代码生成能力，极大地改变了用户与AI的协作方式，有望在多个行业提升工作效率 [11]