多模态大语言模型(MLLM)

搜索文档
中科院领衔万字长文,全面系统梳理多模态LLM对齐算法
量子位· 2025-03-23 19:12
CASIA等 投稿 量子位 | 公众号 QbitAI 万字长文,对多模态LLM中对齐算法进行全面系统性回顾! 从现有 对齐算法涵盖的应用场景 ,到 构建对齐数据集的核心因素 ,再到 用于评估对齐算法的 基准 ,还有 对齐算法未来潜在发展方向 , 全都梳理了一遍。 大语言模型 (LLMs) 能够通过简单的提示完成多种任务,且无需进行任务特定的训练。然而,这些模型主要处理文本数据,对于多模态数 据的处理存在局限。 由于世界本质上是多模态的,包括视觉、听觉和文本等数据,研究者开始在LLM的基础上开发多模态大语言模型 (MLLMs) ,以处理更复 杂的数据形式。 然而,现有的MLLMs仍面临一系列挑战,尤其是在真实性、安全性、推理能力和与人类偏好对齐方面,这些问题尚未得到充分解决。 因此,针对这些问题的对齐算法应运而生,成为解决这些挑战的有效途径。 本文这项研究的主要贡献是对多模态大型语言模型 (MLLMs) 中的对齐算法进行全面的系统性回顾。 具体而言,探讨了以下四个关键问题: 现有对齐算法的应用 场景: 文章通过分类当前的对齐算法,清晰地展示了它们在不同应用领域的适用性,并为研究者提供了一个统一的 符号系统,帮助 ...