美团LongCat-Next：把图像、声音、文字都变成Token，然后呢？

模型核心架构与性能突破 - 公司发布了一款名为LongCat-Next的离散原生自回归多模态大模型，总参数量达685亿，激活参数仅30亿，能够在统一框架下同时处理文本、图像与音频三种模态 [1] - 该模型基于LongCat-Flash-Lite MoE架构构建，并提出了离散原生自回归框架，将图像和音频等连续信号转化为与文本共享表示空间的离散token，大幅减少了为不同模态设计专用架构的需求 [1][19] - 模型破解了视觉理解与生成之间的优化冲突，实验表明在同等token预算下，理解任务的训练信号对生成质量有正向促进，这与多数统一模型的实际经验相悖 [4] - 在视觉理解方面，该模型是首个在纯离散框架下将细粒度视觉理解能力推至与专用连续模型相当水平的统一多模态模型，与同等参数量专用视觉模型Qwen3-VL-A3B相比毫不逊色 [2] - 在图像生成方面，其长文本理解与文字渲染能力相较同类统一模型优势显著，整体生成质量可与专用文生图模型Flux-dev相抗衡 [2] - 在音频方面，其语音识别与理解能力超越了Gemini 3.1 Flash-Lite preview、MiMo-Audio等同量级模型 [3] 关键技术细节 - 为将视觉信号转化为离散token，模型设计了名为dNaViT的视觉Tokenizer，其核心包含语义对齐编码器、残差向量量化压缩机制以及原生分辨率处理能力 [20][21] - 视觉Tokenizer中的残差连接结构被证明是保住像素细节的“保鲜通道”，即使视觉编码器没有接受像素级重建训练，浅层的像素级与结构细节也能通过恒等映射直接传递到深层 [22][23] - 图像生成分为两个阶段：首先通过基于ViT的像素解码器恢复图像的空间布局与对象结构，随后引入基于流匹配训练的图像细化器补充纹理与高频细节 [25][26] - 音频处理方面，模型利用Whisper编码器提取特征，通过下采样与RVQ压缩为离散音频token；解码时先恢复粗略的梅尔频谱，再通过基于流匹配的模型进行细化 [26] - 在模型推理架构上，所有模态的输入被转换为统一格式的离散token后，由一个模态无关的混合专家网络统一处理，取消了传统多模态模型中常见的视觉分支、语音分支等专用结构 [29][30] - 为处理多模态计算负载的异构性，团队采用了基于V-Half的流水线调度策略，通过“V型调度”将计算流水线的首尾阶段共置于同一物理设备，有效消除了流水线气泡并减少了通信开销 [34] 模型能力展示 - 在视觉理解任务中，模型能准确识别图片中的植物种类及其特征，并能识别不同城市的地标建筑及其背景信息 [6][7][8][9] - 模型能够解决涉及抽象规律归纳的图形推理题，例如通过分析得出“外框边数 - 黑点个数 = 2”的隐藏规律 [10][11] - 在图像生成任务中，模型能生成具有专业摄影质感的风景图，并能准确渲染产品图中的文字，支持任意分辨率及极端长宽比输出 [12][13][14][15] - 在音频理解方面，模型能准确识别四川话语音并将其转化为可推理的语义内容，能根据环境录音判断录制地点，并能感知音频中的情绪 [17] - 模型具备语音合成与声音克隆能力，能在保留说话人音色特征与口音习惯的同时，合成全新的目标内容，在英文场景下同样有效 [17][18] 训练方法与系统优化 - 在训练数据方面，团队引入了基于聚类的重平衡策略，通过对高密度集群进行去重并提高稀疏长尾概念的采样权重，以保障生成内容的多样性 [35] - 在强化学习阶段，离散视觉潜在空间可作为动作空间，使模型能够直接套用语言模型成熟的RL算法来提升能力，避免了连续空间中的复杂过程 [35] - 针对图像理解进行RL训练时出现的“熵爆炸”问题，团队通过设计基于熵和概率差的“序列级过滤机制”，在梯度更新前精准丢弃问题样本序列，稳定了训练过程 [36] - 对于语音生成，团队提出了串行生成与并行生成两种策略，并引入了一种基于随机延迟的训练范式，使模型学习更鲁棒的跨模态对齐能力 [31][32] - 实验显示，在随机延迟训练下，并行生成在效率与语义准确度上可达到与串行生成相当的水平 [33] 行业意义与未来展望 - 该研究证实了信息的丰富度并不必然依赖于连续的空间，即使将复杂图像压缩成有限的离散token，模型依然能够精准完成问答、描述及逻辑推理任务 [27] - 离散token成为了高维、连续视觉信号的一种极度紧凑且语义完备的等价表示，变成了语言模型能够直接阅读的“通用母语” [28] - 团队观察到，在DiNA框架下，视觉和文本token的特征分布自然地交织在一起，它们变成了表达同一个底层概念的“世界语言” [38] - 团队指出，未来的原生多模态系统必须走向更复杂的“任意到任意”的交织推理，输入和输出将是文本、视觉和音频的任意组合，以实现真正的通用多模态智能 [39] - 后续工作将围绕两个核心问题展开：一是在更高压缩率下维持跨模态语义完备性；二是在统一token空间中进一步提升长序列与复杂任务下的稳定性与可控性 [36]