离散原生自回归架构 - 财报，业绩电话会，研报，新闻

离散原生自回归架构

搜索文档

量子位· 2026-04-03 14:11

文章核心观点 - 美团LongCat团队提出了一种名为“离散原生自回归架构（DiNA）”的全新多模态大模型解决方案，其核心观点是：通过将文本、图像、语音等所有模态统一转化为离散Token，并使用同一套自回归模型进行预测，实现了真正统一、高效的原生多模态建模，挑战了业界关于离散建模存在性能天花板的传统认知 [6][15][17][74] 行业趋势与共识 - 过去一年，几乎所有头部大模型公司（如谷歌、OpenAI、字节、MiniMax）都在重写多模态底层架构，业界共识是“不走原生多模态，已经不够、不行了” [3][4] - 当前行业主流的多模态大模型采用“拼凑式架构”，以语言模型为底座，视觉、语音为外挂，导致理解与生成系统割裂、算力消耗高、信息易流失 [7][8] - 要突破纯语言模型的局限性，统一的多模态预训练是绕不开的路径，这与LeCun等学者的判断相呼应 [109][110] 美团LongCat的DiNA架构 - **核心设计**：DiNA架构将所有模态（文本、图像、语音）统一转化为离散Token，使用同一套不区分模态的学习器进行理解和生成，所有模态共用同一套参数、注意力机制和损失函数 [17][18][21][24] - **运作流程**：输入侧各模态通过专用Tokenizer转为离散Token；中间由统一模型处理Token序列；输出侧通过De-Tokenizer还原为原始模态 [21] - **核心优势**： - **训练与部署高效**：训练时多模态数据互补，梯度更稳；部署时一个模型顶多个，节省显存并提升速度 [25][26] - **理解与生成统一**：理解和生成在数学形式上统一为“预测下一个Token”，一个模型即可完成两项任务 [31][32] - **真原生**：模型内部不同模态的Token在表征空间中自然交融，而非简单对齐或拼凑，表明模型内部长出了统一的多模态世界 [35][37][38] 关键技术实现：视觉与语音的离散化 - **视觉离散化**： - **第一步**：使用语义对齐编码器（SAE）从图像中提取高信息密度、多属性的特征，确保离散前信息丰富准确 [47][48] - **第二步**：使用自研视觉分词器dNaViT，通过8层残差向量量化（RVQ）将特征“分层打包”为离散Token，实现高达28倍的像素空间压缩，并通过双轨解码器保证还原质量 [50][53][55][56] - **原生分辨率**：dNaViT支持任意分辨率的图像编码与解码，无需缩放、裁剪等额外操作 [62][63] - **语音离散化**： - 采用与视觉相似的思路：先用Whisper编码器提取特征，再用RVQ量化为离散Token，最后解码还原 [65][68] - **灵活生成策略**：模型同时支持并行生成（速度快）与串行生成（准确性高），并能通过随机延迟对齐训练自行决定采用何种策略 [69][70][71] 模型效果与关键发现 - **整体性能**：基于DiNA架构训练的LongCat-Next模型（基座为LongCat-Flash-Lite MoE，总参数685亿，激活仅30亿），在视觉理解、图像生成、音频、智能体等多个维度上，展现出与多模态专用模型相当甚至领先的性能 [28][80] - **发现一：离散建模无内在性能天花板**：实验表明，离散模型的性能瓶颈并非来自离散化本身，而是取决于数据规模与表征质量。随着数据规模扩大，离散模型与连续模型的性能差距持续缩小，甚至可以达到接近一致的水平 [91][92][93][96] - **发现二：理解与生成可以协同**：在LongCat-Next上，统一模型的理解损失仅比纯理解模型高0.006，而生成损失比纯生成模型低0.02。在长文本生成（LongText-Bench得分93.15）和数学推理（MathVista得分83.1）等任务上均表现出色，证明理解与生成相互促进 [33][97][98][99] - **发现三：多模态训练不折损文本能力**：在加入图像、音频能力后，模型在纯文本任务上（如MMLU-Pro得分77.02，C-Eval得分86.80）以及工具调用、代码能力上依然保持领先，未出现能力削弱 [104][105] - **细粒度识别能力**：在复杂文档理解基准OmniDocBench上，LongCat-Next的成绩超过了同类多模态模型及专门的视觉理解模型，挑战了离散模型不擅长细粒度文本识别的传统观点 [90] 工程化落地与行业意义 - **开源发布**：公司不仅公开了技术论文，还将LongCat-Next模型及其分词器在GitHub、HuggingFace等平台开源，标志着该方案已达到工业级可用 [114][115][121] - **硬件要求**：使用LongCat-Next至少需要3张80GB显存的专业显卡（如英伟达A100/H100） [115] - **路径验证**：该工作验证了在不推翻LLM和自回归成熟体系的前提下，将所有模态统一为Token序列进行建模是一条可行的新路径，为业界提供了新的框架选择 [113][116][118] - **最终愿景**：通过将所有模态转化为同一种可预测的Token序列，模型面对的不再是“多模态”，模态的边界正在消失 [119][121]

美团(HK:03690)

原生多模态

离散原生自回归架构

Artificial Intelligence

LongCat-Next

原生多模态

离散原生自回归架构

Artificial Intelligence

LongCat-Next