Workflow
TMRoPE
icon
搜索文档
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
量子位· 2025-03-27 12:16
模型发布与核心特性 - 公司发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B [1] - 模型为7B参数规模的一体式模型,能原生处理文本、音频、图像、视频全模态输入,并实时生成文本和自然语音 [2][36] - 模型采用Apache 2.0开源协议,开发者与企业可免费商用,并支持在手机等终端设备上轻松部署运行 [9] 技术架构与创新 - 模型采用首创的Thinker-Talker双核架构,Thinker作为“大脑”处理多模态输入信息,Talker作为“嘴巴”流式合成语音 [29][30][31] - 团队提出新的位置编码算法TMRoPE,用于编码多模态输入的三维位置信息 [32][33] - 与传统串联单链路模型不同,该模型原生支持多模态输入与输出,实现端到端的训练和推理,效率更高 [34][35][36] 性能表现与基准测试 - 在多模态任务OmniBench评测中,模型刷新记录取得新SOTA,表现远超谷歌Gemini-1.5-Pro等同类模型 [5] - 在单模态任务如语音识别、翻译、音频理解、图像推理等领域,全维度表现优于类似大小的单模态及闭源模型 [5] - 在seed-tts-eval语音生成基准中,模型展现出与人类水平相当的语音合成能力 [6] 应用场景与实测效果 - 模型能实时交互,胜任数学家教、论文解读、PPT讲解、艺术指导等多种场景 [14][15][16][19][20][21] - 实测表明模型能理解商品界面和优惠政策,响应速度快,交互体验流畅 [23][24] - 模型具备识别音视频情绪的能力,能很好地和世界进行实时交互 [8] 行业生态与市场影响 - 模型开源后吸引超90%国产手机品牌接入,包括OPPO、vivo、荣耀、传音等,并获众多汽车品牌和AI硬件产品采用 [39] - 通义千问Qwen已成为全球最大AI大模型族群,截至2025年2月,公司已累计开源200多款模型 [42] - 在海内外开源社区中,通义千问Qwen衍生模型数量超过10万,超越Llama系列,Hugging Face全球开源大模型榜单前十名均为其变体模型 [43] 开发者生态与平台支持 - 阿里魔搭社区ModelScope模型总量已超4万个,服务超1000万开发者 [45] - 公司通过提供算力资源与开发工具等全方位服务,构建起活跃的大模型生态,阿里云已成为中国大模型领域的公共AI算力底座 [44]