全模态大模型 - 财报，业绩电话会，研报，新闻

全模态大模型

搜索文档

硬AI· 2026-03-31 09:02

核心观点 - 阿里千问最新发布的全模态大模型Qwen3.5-Omni，能够将音视频内容深度拆解为高度结构化、可检索、可复用的“数字资产”，从而显著提升生产力，标志着全模态大模型驱动的生产力革命正在来临 [1][5][8][38][44] 产品能力与技术规格 - Qwen3.5-Omni采用混合注意力MoE架构，在海量文本、视觉及超过1亿小时的音频数据上进行了原生多模态预训练 [5][32] - 模型在215项第三方性能测试中取得SOTA（State-of-the-Art）成绩，多项核心指标超越Gemini-3.1 Pro [5] - 模型具备256K超大上下文窗口，支持处理超过10小时的音频或超过400秒的720P视频 [33] - 模型支持113种语种和方言的语音识别，以及三十六种语言和方言的语音合成，内置47个多语言说话人和8个方言说话人 [35] 实测应用场景与效果 - **复杂视频理解**：模型能对无字幕版《沙丘》预告片进行极限测试，按时间戳精准提取结构化信息（剧情时间线、关键镜头、角色关系等），并能进行深层推理，生成带节奏设计和调色建议的复刻分镜脚本 [7][11][12][16][17] - **商业内容分析**：输入一条爆款TikTok带货视频，模型能按Hook、卖点排序等七个维度完成结构化拆解，并进行转化归因分析，还能将分析出的5步转化模板成功迁移到其他行业（如T恤定制）并生成可直接使用的脚本 [7][20][22][23][24] - **交互式开发**：通过口述需求并展示手绘草图，模型能生成可直接运行的React代码，并支持通过连续口述指令进行多轮迭代修改，上下文保持连贯 [7][26][27] - **其他用例**：模型还可用于游戏视频生成解说、将50分钟国际新闻发布会音频快速处理为信息提取、双语稿件生成和语音播报等 [29] 底层产品设计变革 - 模型的核心突破在于将连续、混杂的音视频流，强制拆解为高度结构化的中间层数据，而非简单的摘要 [31] - 官方API推荐输出三层硬结构：按时间戳融合音画细节的故事线（Storyline）、带起止时间和外观特征的画面文字清单（Visible Text）、含说话人身份及情绪的逐字稿（Speakers and Transcript） [32][40] - 这种字段级的结构化输出，使得音视频内容变成了可以被代码直接调用、检索和执行的“数据资产” [32][38] - 模型支持智能语义打断，能过滤无意义背景音，并原生支持联网搜索的Function Call，以应对时效性问题 [35] 战略定位与商业意图 - 阿里近期成立了由CEO直管的Alibaba Token Hub（ATH）事业群，旗下“悟空事业部”定位为B端AI原生工作平台，旨在将模型能力深度融入企业工作流 [42] - 钉钉最新发布的“悟空”产品，其核心逻辑已从“沟通即生成”进化为“沟通即执行”，要求AI能自主处理看视频、听音频、跨平台执行等任务 [42] - Qwen3.5-Omni极低的定价（每百万Tokens输入不到0.8元，据称比Gemini-3.1 Pro的1/10还低）及其强大的结构化音视频能力，被视为在为阿里B端企业级Agent（如悟空）的大规模落地，储备高性价比且稳定的全模态基础设施 [43] - 该模型通过端到端的方式，将过去需要拼装ASR转写、文本大模型、视觉理解模型等多条链路的复杂任务门槛大幅降低 [43]