全模态大模型行业演进 - 人工智能正从“专才”走向“通才”,从“工具”走向“伙伴”,全模态大模型是实现更丰富理解与深度交互的关键 [2] - 当前行业共同挑战在于如何在一个模型中兼顾强大的多模态理解与高质量生成,并构建高效统一的模型架构与训练方案 [2] 哈工大深圳计算与智能研究院发布Uni-MoE-2.0-Omni - 公司在2023年“立知”大语言模型基础上,基于2024年5月提出的原创Uni-MoE架构,正式发布第二代全模态大模型Uni-MoE-2.0-Omni [2] - 该模型以大语言模型为核心,通过渐进式架构演进与训练优化,将稠密大语言模型拓展为混合专家架构驱动的全模态大模型 [3] - 模型实现了从“语言理解”到“多模态理解”,再到“理解与生成兼备”的跨越式升级 [3] 模型核心架构与技术 - 模型架构由统一模态编码、动态混合专家以及全模态生成器三大核心组件构成 [7] - 统一模态编码:采用统一Token化策略,借助SigLIP编码器处理图像与视频,基于Whisper-Large-v3将30秒音频压缩为仅200个Token,并引入Omni-Modality 3D RoPE机制构建统一坐标系 [7] - 动态混合专家:核心架构升级为新型Dynamic-Capacity MoE,支持根据Token难易程度动态分配算力,并引入路由专家、共享专家和空专家三类角色,配合路由梯度估计技术提升稳定性 [8] - 全模态生成器:通过特殊控制Token将所有任务统一纳入语言模型语义空间,实现理解即生成;其Uni-MoE-TTS可实现两分钟以上语音回复,支持中英三种音色;引入任务感知的扩散模型驱动图像生成与编辑 [8] 训练策略与数据效率 - 团队设计了渐进式训练策略,依次推进跨模态对齐、专家预热、MoE微调与强化学习、生成式训练 [11] - 该策略能够以较少的数据量(75B Tokens),将稠密大语言模型高效扩展为全模态大模型 [11] - 提出以语言生成任务为锚点的多模态理解与生成联合训练方式,打破理解与生成之间的界限 [11] 模型性能评估 - 模型在85项基准测试上进行了评估,在76项可对比评测中,Uni-MoE-2.0-Omni超越Qwen2.5-Omni逾50项任务 [3] - 在35个任务上达到最佳性能,在50个评估任务上全面超越了使用1.2T Tokens训练的Qwen2.5-Omni [13] - 在8个视频评估基准和4个全模态理解基准上,较Qwen2.5-Omni提升7% [13] - 在关键基准测试中,Uni-MoE-2.0-Omni在WorldSense、StreamingBench (Omni)、OmniVideoBench、OmniBench上的平均得分达43.7,表现领先 [14] - 在全模态理解任务中,其平均得分达50.6,在多项子任务中超越对比模型 [14] - 在可控图像生成与低层级图像复原任务中,模型在多项指标上表现优异,例如在Canny-to-Image任务中FID为20.23,CLIP-S为28.58 [15] - 在多模态语音交互问答任务中,平均得分达64.27,超越对比模型 [16] 模型功能展示 - 具备视觉数学推理能力,可基于图表OCR结果进行推理 [18] - 具备图像推理生成能力,能根据季节等指令生成符合逻辑的图像 [20] - 具备人像图片修饰能力,可根据指令修改图片并保持主体不变 [25] - 具备图像质量修复能力,可处理雨、雾、雪、暗等低质量图片 [28] - 可作为多轮对话伙伴,连续响应用户意图 [30] 行业影响与开源 - Uni-MoE-2.0-Omni是一个架构先进、完全开源的全模态大模型,为社区提供了强有力的全模态基座 [33] - 该系列模型验证了将稠密大语言模型扩展为全模态模型的路径,实现了从“多模态理解”向“理解生成一体化”的跨越 [33] - 其代码、模型权重及数据清单的开源,将进一步推动通用多模态人工智能的研究与应用发展 [33]
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA
机器之心·2025-11-25 17:37