混合长链思维微调 - 财报，业绩电话会，研报，新闻 - Reportify

混合长链思维微调

搜索文档

比Gemini Diffusion更全能！首个多模态扩散大语言模型MMaDA发布，同时实现强推理与高可控性

机器之心· 2025-05-22 16:46

核心观点 - 大型语言模型在多模态任务中面临架构统一性与后训练方法的挑战，传统自回归架构存在跨模态协同效率低下问题 [1] - Gemini Diffusion首次验证扩散模型在文本建模领域的潜力 [1] - MMaDA作为首个系统性探索扩散架构的多模态基础模型，通过三项核心技术突破实现文本推理、多模态理解与图像生成的统一建模 [1] 模型性能 - 文本推理：MMLU准确率68.4%，超越LLaMA-3-8B、Qwen2-7B、LLaDA-8B [7] - 多模态理解：POPE（86.1 vs 85.9）、VQAv2（76.7 vs 78.5）与专用模型持平 [7] - 图像生成：CLIP Score达32.46，较SDXL、Janus提升显著，文化知识生成任务准确率提升56% [7] 技术突破 - 统一扩散架构：将文本与图像生成统一到扩散框架中，消除传统混合架构复杂性 [15] - 混合长链思维微调：解决复杂任务冷启动问题，提出跨模态混合CoT微调策略 [15] - 统一推理格式：定义特殊标记结构强制模型输出跨模态推理步骤 [18] - 统一策略梯度优化：UniGRPO算法使奖励值稳定上升，收敛速度提升40% [19][21] 开源信息 - 已开源训练、推理、MMaDA-8B-Base权重和线上Demo [4] - 后续将开源MMaDA-8B-MixCoT和MMaDA-8B-Max权重 [4] - 论文、代码、模型和Demo地址已公开 [6] 跨任务协同 - 在混合训练阶段（130K-200K步），文本推理与图像生成指标同步上升 [9] - 扩散模型无需额外微调即可泛化到补全与外推任务 [11] - 支持文本补全、视觉问答补全和图像补全三类跨模态任务 [14]

多模态扩散大语言模型

统一扩散架构

混合长链思维微调

统一策略梯度优化

多模态扩散大语言模型

统一扩散架构

混合长链思维微调

统一策略梯度优化