Workflow
TMRoPE
icon
搜索文档
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
量子位· 2025-03-27 12:16
西风 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 深夜重磅!阿里发布并开源首个端到端全模态大模型—— 通义千问Qwen2.5-Omni-7B ,来了。 仅靠一个 一体式模型 ,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。 堪称7B模型的全能冠军。 你的iPhone搭载的很可能就是它! 现在打开Qwen Chat,就能直接和它实时进行视频或语音交互: 话不多说,先来看一波能力展示。 在大街上同它视频通话,它能正确识别周围环境,按照你的需求为你推荐餐馆: 走进厨房,它又化身"智能菜谱",一步步指导你变成大厨: 在多模态任务OmniBench评测中,Qwen2.5-Omni表现刷新记录拿下 新SOTA ,远超谷歌Gemini-1.5-Pro等同类模型。 在单模态的语音识别、翻译、音频理解、图像推理、视频理解、语音生成任务中,Qwen2.5-Omni的全维度表现也都优于类似大小的单模态模 型以及闭源模型。 在seed-tts-eval语音生成基准中,Qwen2.5-Omni展现出与人类水平相当的语音合成能力。 这意味着Qwen2.5-Omni-7B能很好地和世界进行实时交互,甚至能轻松识 ...