Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布
机器之心·2025-08-06 02:56
近年来,大语言模型(LLM)在语言理解、生成和泛化方面取得了突破性进展,并广泛应用于各种文本任务。随着研究的深入,人们开始关注将 LLM 的能力扩展 至非文本模态,例如图像、音频、视频、图结构、推荐系统等。这为多模态统一建模带来了机遇,也提出了一个核心挑战: 如何将各 种模态信 号转化为 LLM 可 处理的离散表示 。 在这一背景下,Discrete Tokenization(离散化)逐渐成为关键方案。通过向量量化(Vector Quantization, VQ)等技术,高维连续输入可以被压缩为紧凑的离散 token,不仅实现高效存储与计算,还能与 LLM 原生的 token 机制无缝衔接,从而显著提升跨模态理解、推理与生成的能力。 尽管 Discrete Tokenization 在多模态 LLM 中扮演着日益重要的角色,现有研究却缺乏系统化的总结,研究者在方法选择、应用设计与优化方向上缺少统一参考。为 此,本文团队发布了 首个面向多模态 LLM 的 Discrete Tokenization 系统化综述 ,系统地梳理技术脉络,总结多模态场景下的实践、挑战与前沿研究方向,为该 领域提供全面的技术地图。 论文 ...