蚂蚁集团开源全模态大模型Ming-flash-omni 2.0

公司技术发布 - 蚂蚁集团于2月11日开源发布了全模态大模型Ming-flash-omni2.0 [1] - 该模型在多项公开基准测试中表现突出，部分指标超越Gemini2.5Pro [1] - 模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力上表现突出 [1] 模型技术特性 - 该模型是业界首个全场景音频统一生成模型，可在同一条音轨中同时生成语音、环境音效与音乐 [1] - 用户使用自然语言指令即可对音色、语速、语调、音量、情绪与方言等进行精细控制 [1] - 模型在推理阶段实现了3.1Hz的极低推理帧率，实现了分钟级长音频的实时高保真生成 [1]