产品发布与核心定位 - 通义千问发布了全新的多模态大模型Qwen3.5-Omni,该模型实现了真正的“全模态”原生能力,能够无缝理解并处理文本、图片、音频及音视频输入,并生成带时间戳的音视频脚本 [5] - 该模型旨在成为高效的工作助手,能够在视频会议中与用户进行正经的工作讨论,例如协助编程、讲解论文、分析视频等 [1][2][3] 模型规格与性能表现 - Qwen3.5-Omni提供了Plus、Flash、Light三种尺寸,支持256K长上下文与113种语言识别,可处理长达10小时的音频或1小时的视频内容 [6] - 在基准测试中表现强势,Qwen3.5-Omni共取得了215项SOTA(State-of-the-Art)成绩,整体性能与谷歌的Gemini 3.1 Pro模型相当 [7][44] - 在音频相关能力上全面超越竞品,其通用音频理解、推理、识别、翻译、对话等指标均全面超越了Gemini 3.1 Pro,音视频理解能力总体达到后者水平 [8][45] - 视觉和文本能力则与同尺寸的Qwen3.5模型持平 [9][48] 核心功能与交互体验 - 模型具备自然涌现的“vibe coding”能力,可以在实时视频通话中,根据摄像头捕捉到的画面逻辑(如手绘草图)实时生成Python代码或前端原型 [10][26][30] - 具备强大的视频理解与拆解能力,能够快速分析节奏紧凑、镜头密集的视频(如电影预告片),生成带时间戳的详细脚本,并能准确回答关于视频内容的细节问题 [14][15][16][17][21] - 支持通过视频通话进行实时论文解读,用户只需将论文页面展示给摄像头,模型即可用通俗语言讲解内容、创新点,并支持用户随时进行语义打断以切换话题 [36][39][40][41] - 交互体验接近真人,模型支持“语义打断”功能,但不会被无意义的背景音干扰,同时其语音输出带有语气、停顿等情感,提升了对话的自然度 [29][42] 技术架构与关键升级 - 模型延续了“Thinker-Talker”的双系统架构,Thinker(大脑)负责理解多模态输入,Talker(嘴巴)负责将结果以语音形式输出,两者均升级为Hybrid-Attention MoE以提升效率和性能 [53][54][55][60] - 在语音生成上采用了更轻量高效的RVQ(残差向量量化)方法,类似于“拼装声音单元”,替代了计算量大的逐帧生成方式,实现了更快、更省算力的语音合成 [61][62] - 引入了ARIA(自适应速率交错对齐)技术,动态对齐文本与语音的节奏,有效解决了以往AI语音中常见的漏读、读错、发音不稳定等问题 [52][63][64][65] - 通过流式设计实现了“边输入、边处理、边生成”,使得模型能够进行像真人一样的实时对话,显著减少了响应延迟 [66][67] 具体性能数据对比 - 在音频理解基准测试中,Qwen3.5-Omni-Plus在MMAU上得分为82.2,超越Gemini 3.1 Pro的81.1;在Muchomusic_rul上得分为72.4,大幅领先后者的59.6 [47] - 在语音识别(ASR)任务上表现优异,在Librispeech-other数据集上词错误率(WER)为2.23%,优于Gemini 3.1 Pro的4.41%;在Wenetspeech-net/meeting上词错误率为4.30%/5.84%,显著优于后者的11.53%/14.21% [47] - 在语音生成稳定性上,Qwen3.5-Omni-Plus在Seed-hard测试集上得分为6.24,优于GPT-Audio的8.19和Gemini 2.5 Pro的11.57,显示出更高的语音输出稳定性 [50] - 在文本与知识能力上,Qwen3.5-Omni-Plus在MMLU-Redux上得分为94.2,与Qwen3.5-Plus-NoThinking的94.3基本持平;在C-Eval上得分为92.0 [49] 可用性与行业意义 - 新模型目前已在Qwen Chat平台提供体验,用户可通过手机网页端使用其视频通话功能,同时也可通过阿里云百炼平台调用其API [69] - 该模型的发布代表了多模态AI交互方式的重大飞跃,通过整合实时音视频理解、自然对话与代码生成能力,极大地改变了用户与AI的协作方式,有望在多个行业提升工作效率 [11]
实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码
量子位·2026-03-31 14:43