美团LongCat-Next：把图像、声音、文字都变成Token，然后呢？

文章核心观点 - 美团发布了一项名为LongCat-Next的多模态大模型研究成果，该模型基于离散原生自回归框架，在统一架构下同时处理文本、图像与音频三种模态，其性能在多项任务上达到或超越了专用模型水平，挑战了离散化会导致视觉细节丢失的传统认知 [1][3][46] 模型架构与核心技术 - LongCat-Next是一款离散原生自回归多模态大模型，基于LongCat-Flash-Lite MoE架构构建，总参数量达685亿，激活参数仅30亿 [1] - 模型提出了离散原生自回归框架，将图像和音频等连续信号转化为与文本共享表示空间的离散token，从而统一了多模态任务的建模过程 [46] - 模型采用名为dNaViT的视觉Tokenizer，其核心包含语义对齐编码器、残差向量量化压缩机制以及原生分辨率处理能力，旨在减少信息损失并保持语义完备性 [50][51] - 在音频处理上，模型利用Whisper编码器提取特征，并通过RVQ压缩为离散token，解码时通过恢复梅尔频谱和流匹配细化来提升音质 [60][61] - 所有模态的离散token由一个模态无关的混合专家网络统一处理，取消了传统多模态模型中的专用分支结构，实现了表示层面的统一 [67][68] 性能表现与突破 - 在细粒度视觉理解任务上，LongCat-Next是首个在纯离散框架下将能力推至与专用连续模型相当水平的统一多模态模型，与同等参数量专用视觉模型Qwen3-VL-A3B相比毫不逊色 [3] - 在图像生成方面，其长文本理解与文字渲染能力相较同类统一模型优势显著，整体生成质量可与专用文生图模型Flux-dev相抗衡 [5] - 根据评测表格，LongCat-Next在GenEval基准上得分为84.44，在LongText-EN上得分为93.15，在LongText-ZH上得分为89.08 [6] - 在音频方面，其语音识别与理解能力超越了Gemini 3.1 Flash-Lite preview、MiMo-Audio等同量级模型 [6] - 在音频理解基准测试中，LongCat-Next在MMAU上得分为76.40，在ClothoAQA上得分为73.45，在多项音频到文本聊天任务中表现优异，如在AlpacaEval上得分为86.83 [7] 关键技术创新与发现 - 模型破解了视觉理解与生成之间的优化冲突，实验表明在同等token预算下，理解任务的训练信号对生成质量有正向促进，联合训练未导致相互拖累 [8][69] - 当所有模态以离散token形式共同训练后，模型内部自发涌现出跨模态的语义交融现象，视觉token与文本token在表示空间中形成交织分布 [8][85] - 研究发现，视觉编码器中的残差连接固有地保留了用于低级信号传播的潜在路径，成为保住像素细节的“保鲜通道”，这有助于离散化后的信息保留 [53][54][66] - 团队采用了基于V-Half的流水线调度策略来解决多模态计算负载异构的问题，该策略通过“V型调度”将计算流水线的首尾阶段共置于同一设备，有效消除了流水线气泡并减少了通信开销 [76][77] - 在强化学习阶段，离散视觉潜在空间使模型能够直接套用语言模型成熟的RL算法来提升能力，避免了连续空间中的复杂采样过程 [80] 具体能力展示 - 在视觉理解上，模型能准确识别图片中的植物种类并描述特征，也能准确识别不同城市的地标建筑及其背景信息 [16][18] - 模型具备图形推理能力，能够归纳抽象规律并解答问题 [23] - 在图像生成上，模型能生成具有专业质感的风景图、文字渲染准确的产品图以及色彩表现突出的场景图，并支持任意分辨率输出 [24][27][30][33] - 在音频理解上，模型能准确识别方言内容、从环境录音推断场景，并能感知说话者的情绪 [36][38][40] - 模型具备语音合成与声音克隆能力，能在保留说话人音色和口音特征的同时合成新的语音内容 [41][43][45] 训练策略与数据工程 - 为保证生成内容的多样性，团队在视觉生成数据上引入了基于聚类的重平衡策略，通过对高密度集群去重并提高稀疏长尾概念的采样权重来避免同质化审美 [78] - 数据整理与训练流程包含三个阶段：预训练实现基本对齐、中期训练解决数据不平衡问题、监督微调提升美学质量和文本渲染效果 [80] - 在针对图像理解进行强化学习训练时，团队通过设计基于熵和概率差的序列级过滤机制，成功解决了因概率失配导致的“熵爆炸”问题，稳定了训练过程 [81] 未来发展方向 - 团队未来的工作将围绕两个核心问题展开：一是在更高压缩率下维持跨模态语义完备性；二是在统一token空间中进一步提升长序列与复杂任务下的稳定性与可控性 [81] - 团队指出，未来的原生多模态系统应走向更复杂的“任意到任意”的交织推理，输入和输出将是文本、视觉和音频的任意组合，以实现真正的通用多模态智能 [85]