TMRoPE - 财报，业绩电话会，研报，新闻

TMRoPE

搜索文档

量子位· 2025-03-27 12:16

模型发布与核心特性 - 公司发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B [1] - 模型为7B参数规模的一体式模型，能原生处理文本、音频、图像、视频全模态输入，并实时生成文本和自然语音 [2][36] - 模型采用Apache 2.0开源协议，开发者与企业可免费商用，并支持在手机等终端设备上轻松部署运行 [9] 技术架构与创新 - 模型采用首创的Thinker-Talker双核架构，Thinker作为“大脑”处理多模态输入信息，Talker作为“嘴巴”流式合成语音 [29][30][31] - 团队提出新的位置编码算法TMRoPE，用于编码多模态输入的三维位置信息 [32][33] - 与传统串联单链路模型不同，该模型原生支持多模态输入与输出，实现端到端的训练和推理，效率更高 [34][35][36] 性能表现与基准测试 - 在多模态任务OmniBench评测中，模型刷新记录取得新SOTA，表现远超谷歌Gemini-1.5-Pro等同类模型 [5] - 在单模态任务如语音识别、翻译、音频理解、图像推理等领域，全维度表现优于类似大小的单模态及闭源模型 [5] - 在seed-tts-eval语音生成基准中，模型展现出与人类水平相当的语音合成能力 [6] 应用场景与实测效果 - 模型能实时交互，胜任数学家教、论文解读、PPT讲解、艺术指导等多种场景 [14][15][16][19][20][21] - 实测表明模型能理解商品界面和优惠政策，响应速度快，交互体验流畅 [23][24] - 模型具备识别音视频情绪的能力，能很好地和世界进行实时交互 [8] 行业生态与市场影响 - 模型开源后吸引超90%国产手机品牌接入，包括OPPO、vivo、荣耀、传音等，并获众多汽车品牌和AI硬件产品采用 [39] - 通义千问Qwen已成为全球最大AI大模型族群，截至2025年2月，公司已累计开源200多款模型 [42] - 在海内外开源社区中，通义千问Qwen衍生模型数量超过10万，超越Llama系列，Hugging Face全球开源大模型榜单前十名均为其变体模型 [43] 开发者生态与平台支持 - 阿里魔搭社区ModelScope模型总量已超4万个，服务超1000万开发者 [45] - 公司通过提供算力资源与开发工具等全方位服务，构建起活跃的大模型生态，阿里云已成为中国大模型领域的公共AI算力底座 [44]