Workflow
离散原生自回归架构
icon
搜索文档
美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测
量子位· 2026-04-03 14:11
文章核心观点 - 美团LongCat团队提出了一种名为“离散原生自回归架构(DiNA)”的全新多模态大模型解决方案,其核心观点是:通过将文本、图像、语音等所有模态统一转化为离散Token,并使用同一套自回归模型进行预测,实现了真正统一、高效的原生多模态建模,挑战了业界关于离散建模存在性能天花板的传统认知 [6][15][17][74] 行业趋势与共识 - 过去一年,几乎所有头部大模型公司(如谷歌、OpenAI、字节、MiniMax)都在重写多模态底层架构,业界共识是“不走原生多模态,已经不够、不行了” [3][4] - 当前行业主流的多模态大模型采用“拼凑式架构”,以语言模型为底座,视觉、语音为外挂,导致理解与生成系统割裂、算力消耗高、信息易流失 [7][8] - 要突破纯语言模型的局限性,统一的多模态预训练是绕不开的路径,这与LeCun等学者的判断相呼应 [109][110] 美团LongCat的DiNA架构 - **核心设计**:DiNA架构将所有模态(文本、图像、语音)统一转化为离散Token,使用同一套不区分模态的学习器进行理解和生成,所有模态共用同一套参数、注意力机制和损失函数 [17][18][21][24] - **运作流程**:输入侧各模态通过专用Tokenizer转为离散Token;中间由统一模型处理Token序列;输出侧通过De-Tokenizer还原为原始模态 [21] - **核心优势**: - **训练与部署高效**:训练时多模态数据互补,梯度更稳;部署时一个模型顶多个,节省显存并提升速度 [25][26] - **理解与生成统一**:理解和生成在数学形式上统一为“预测下一个Token”,一个模型即可完成两项任务 [31][32] - **真原生**:模型内部不同模态的Token在表征空间中自然交融,而非简单对齐或拼凑,表明模型内部长出了统一的多模态世界 [35][37][38] 关键技术实现:视觉与语音的离散化 - **视觉离散化**: - **第一步**:使用语义对齐编码器(SAE)从图像中提取高信息密度、多属性的特征,确保离散前信息丰富准确 [47][48] - **第二步**:使用自研视觉分词器dNaViT,通过8层残差向量量化(RVQ)将特征“分层打包”为离散Token,实现高达28倍的像素空间压缩,并通过双轨解码器保证还原质量 [50][53][55][56] - **原生分辨率**:dNaViT支持任意分辨率的图像编码与解码,无需缩放、裁剪等额外操作 [62][63] - **语音离散化**: - 采用与视觉相似的思路:先用Whisper编码器提取特征,再用RVQ量化为离散Token,最后解码还原 [65][68] - **灵活生成策略**:模型同时支持并行生成(速度快)与串行生成(准确性高),并能通过随机延迟对齐训练自行决定采用何种策略 [69][70][71] 模型效果与关键发现 - **整体性能**:基于DiNA架构训练的LongCat-Next模型(基座为LongCat-Flash-Lite MoE,总参数685亿,激活仅30亿),在视觉理解、图像生成、音频、智能体等多个维度上,展现出与多模态专用模型相当甚至领先的性能 [28][80] - **发现一:离散建模无内在性能天花板**:实验表明,离散模型的性能瓶颈并非来自离散化本身,而是取决于数据规模与表征质量。随着数据规模扩大,离散模型与连续模型的性能差距持续缩小,甚至可以达到接近一致的水平 [91][92][93][96] - **发现二:理解与生成可以协同**:在LongCat-Next上,统一模型的理解损失仅比纯理解模型高0.006,而生成损失比纯生成模型低0.02。在长文本生成(LongText-Bench得分93.15)和数学推理(MathVista得分83.1)等任务上均表现出色,证明理解与生成相互促进 [33][97][98][99] - **发现三:多模态训练不折损文本能力**:在加入图像、音频能力后,模型在纯文本任务上(如MMLU-Pro得分77.02,C-Eval得分86.80)以及工具调用、代码能力上依然保持领先,未出现能力削弱 [104][105] - **细粒度识别能力**:在复杂文档理解基准OmniDocBench上,LongCat-Next的成绩超过了同类多模态模型及专门的视觉理解模型,挑战了离散模型不擅长细粒度文本识别的传统观点 [90] 工程化落地与行业意义 - **开源发布**:公司不仅公开了技术论文,还将LongCat-Next模型及其分词器在GitHub、HuggingFace等平台开源,标志着该方案已达到工业级可用 [114][115][121] - **硬件要求**:使用LongCat-Next至少需要3张80GB显存的专业显卡(如英伟达A100/H100) [115] - **路径验证**:该工作验证了在不推翻LLM和自回归成熟体系的前提下,将所有模态统一为Token序列进行建模是一条可行的新路径,为业界提供了新的框架选择 [113][116][118] - **最终愿景**:通过将所有模态转化为同一种可预测的Token序列,模型面对的不再是“多模态”,模态的边界正在消失 [119][121]