Workflow
离散原生自回归(DiNA)框架
icon
搜索文档
美团LongCat-Next:把图像、声音、文字都变成Token,然后呢?
36氪· 2026-04-02 12:42
模型核心架构与性能突破 - 公司发布了一款名为LongCat-Next的离散原生自回归多模态大模型,总参数量达685亿,激活参数仅30亿,能够在统一框架下同时处理文本、图像与音频三种模态 [1] - 该模型基于LongCat-Flash-Lite MoE架构构建,并提出了离散原生自回归框架,将图像和音频等连续信号转化为与文本共享表示空间的离散token,大幅减少了为不同模态设计专用架构的需求 [1][19] - 模型破解了视觉理解与生成之间的优化冲突,实验表明在同等token预算下,理解任务的训练信号对生成质量有正向促进,这与多数统一模型的实际经验相悖 [4] - 在视觉理解方面,该模型是首个在纯离散框架下将细粒度视觉理解能力推至与专用连续模型相当水平的统一多模态模型,与同等参数量专用视觉模型Qwen3-VL-A3B相比毫不逊色 [2] - 在图像生成方面,其长文本理解与文字渲染能力相较同类统一模型优势显著,整体生成质量可与专用文生图模型Flux-dev相抗衡 [2] - 在音频方面,其语音识别与理解能力超越了Gemini 3.1 Flash-Lite preview、MiMo-Audio等同量级模型 [3] 关键技术细节 - 为将视觉信号转化为离散token,模型设计了名为dNaViT的视觉Tokenizer,其核心包含语义对齐编码器、残差向量量化压缩机制以及原生分辨率处理能力 [20][21] - 视觉Tokenizer中的残差连接结构被证明是保住像素细节的“保鲜通道”,即使视觉编码器没有接受像素级重建训练,浅层的像素级与结构细节也能通过恒等映射直接传递到深层 [22][23] - 图像生成分为两个阶段:首先通过基于ViT的像素解码器恢复图像的空间布局与对象结构,随后引入基于流匹配训练的图像细化器补充纹理与高频细节 [25][26] - 音频处理方面,模型利用Whisper编码器提取特征,通过下采样与RVQ压缩为离散音频token;解码时先恢复粗略的梅尔频谱,再通过基于流匹配的模型进行细化 [26] - 在模型推理架构上,所有模态的输入被转换为统一格式的离散token后,由一个模态无关的混合专家网络统一处理,取消了传统多模态模型中常见的视觉分支、语音分支等专用结构 [29][30] - 为处理多模态计算负载的异构性,团队采用了基于V-Half的流水线调度策略,通过“V型调度”将计算流水线的首尾阶段共置于同一物理设备,有效消除了流水线气泡并减少了通信开销 [34] 模型能力展示 - 在视觉理解任务中,模型能准确识别图片中的植物种类及其特征,并能识别不同城市的地标建筑及其背景信息 [6][7][8][9] - 模型能够解决涉及抽象规律归纳的图形推理题,例如通过分析得出“外框边数 - 黑点个数 = 2”的隐藏规律 [10][11] - 在图像生成任务中,模型能生成具有专业摄影质感的风景图,并能准确渲染产品图中的文字,支持任意分辨率及极端长宽比输出 [12][13][14][15] - 在音频理解方面,模型能准确识别四川话语音并将其转化为可推理的语义内容,能根据环境录音判断录制地点,并能感知音频中的情绪 [17] - 模型具备语音合成与声音克隆能力,能在保留说话人音色特征与口音习惯的同时,合成全新的目标内容,在英文场景下同样有效 [17][18] 训练方法与系统优化 - 在训练数据方面,团队引入了基于聚类的重平衡策略,通过对高密度集群进行去重并提高稀疏长尾概念的采样权重,以保障生成内容的多样性 [35] - 在强化学习阶段,离散视觉潜在空间可作为动作空间,使模型能够直接套用语言模型成熟的RL算法来提升能力,避免了连续空间中的复杂过程 [35] - 针对图像理解进行RL训练时出现的“熵爆炸”问题,团队通过设计基于熵和概率差的“序列级过滤机制”,在梯度更新前精准丢弃问题样本序列,稳定了训练过程 [36] - 对于语音生成,团队提出了串行生成与并行生成两种策略,并引入了一种基于随机延迟的训练范式,使模型学习更鲁棒的跨模态对齐能力 [31][32] - 实验显示,在随机延迟训练下,并行生成在效率与语义准确度上可达到与串行生成相当的水平 [33] 行业意义与未来展望 - 该研究证实了信息的丰富度并不必然依赖于连续的空间,即使将复杂图像压缩成有限的离散token,模型依然能够精准完成问答、描述及逻辑推理任务 [27] - 离散token成为了高维、连续视觉信号的一种极度紧凑且语义完备的等价表示,变成了语言模型能够直接阅读的“通用母语” [28] - 团队观察到,在DiNA框架下,视觉和文本token的特征分布自然地交织在一起,它们变成了表达同一个底层概念的“世界语言” [38] - 团队指出,未来的原生多模态系统必须走向更复杂的“任意到任意”的交织推理,输入和输出将是文本、视觉和音频的任意组合,以实现真正的通用多模态智能 [39] - 后续工作将围绕两个核心问题展开:一是在更高压缩率下维持跨模态语义完备性;二是在统一token空间中进一步提升长序列与复杂任务下的稳定性与可控性 [36]
美团LongCat-Next:把图像、声音、文字都变成Token,然后呢?
机器之心· 2026-04-02 11:49
文章核心观点 - 美团发布了一项名为LongCat-Next的多模态大模型研究成果,该模型基于离散原生自回归框架,在统一架构下同时处理文本、图像与音频三种模态,其性能在多项任务上达到或超越了专用模型水平,挑战了离散化会导致视觉细节丢失的传统认知 [1][3][46] 模型架构与核心技术 - LongCat-Next是一款离散原生自回归多模态大模型,基于LongCat-Flash-Lite MoE架构构建,总参数量达685亿,激活参数仅30亿 [1] - 模型提出了离散原生自回归框架,将图像和音频等连续信号转化为与文本共享表示空间的离散token,从而统一了多模态任务的建模过程 [46] - 模型采用名为dNaViT的视觉Tokenizer,其核心包含语义对齐编码器、残差向量量化压缩机制以及原生分辨率处理能力,旨在减少信息损失并保持语义完备性 [50][51] - 在音频处理上,模型利用Whisper编码器提取特征,并通过RVQ压缩为离散token,解码时通过恢复梅尔频谱和流匹配细化来提升音质 [60][61] - 所有模态的离散token由一个模态无关的混合专家网络统一处理,取消了传统多模态模型中的专用分支结构,实现了表示层面的统一 [67][68] 性能表现与突破 - 在细粒度视觉理解任务上,LongCat-Next是首个在纯离散框架下将能力推至与专用连续模型相当水平的统一多模态模型,与同等参数量专用视觉模型Qwen3-VL-A3B相比毫不逊色 [3] - 在图像生成方面,其长文本理解与文字渲染能力相较同类统一模型优势显著,整体生成质量可与专用文生图模型Flux-dev相抗衡 [5] - 根据评测表格,LongCat-Next在GenEval基准上得分为84.44,在LongText-EN上得分为93.15,在LongText-ZH上得分为89.08 [6] - 在音频方面,其语音识别与理解能力超越了Gemini 3.1 Flash-Lite preview、MiMo-Audio等同量级模型 [6] - 在音频理解基准测试中,LongCat-Next在MMAU上得分为76.40,在ClothoAQA上得分为73.45,在多项音频到文本聊天任务中表现优异,如在AlpacaEval上得分为86.83 [7] 关键技术创新与发现 - 模型破解了视觉理解与生成之间的优化冲突,实验表明在同等token预算下,理解任务的训练信号对生成质量有正向促进,联合训练未导致相互拖累 [8][69] - 当所有模态以离散token形式共同训练后,模型内部自发涌现出跨模态的语义交融现象,视觉token与文本token在表示空间中形成交织分布 [8][85] - 研究发现,视觉编码器中的残差连接固有地保留了用于低级信号传播的潜在路径,成为保住像素细节的“保鲜通道”,这有助于离散化后的信息保留 [53][54][66] - 团队采用了基于V-Half的流水线调度策略来解决多模态计算负载异构的问题,该策略通过“V型调度”将计算流水线的首尾阶段共置于同一设备,有效消除了流水线气泡并减少了通信开销 [76][77] - 在强化学习阶段,离散视觉潜在空间使模型能够直接套用语言模型成熟的RL算法来提升能力,避免了连续空间中的复杂采样过程 [80] 具体能力展示 - 在视觉理解上,模型能准确识别图片中的植物种类并描述特征,也能准确识别不同城市的地标建筑及其背景信息 [16][18] - 模型具备图形推理能力,能够归纳抽象规律并解答问题 [23] - 在图像生成上,模型能生成具有专业质感的风景图、文字渲染准确的产品图以及色彩表现突出的场景图,并支持任意分辨率输出 [24][27][30][33] - 在音频理解上,模型能准确识别方言内容、从环境录音推断场景,并能感知说话者的情绪 [36][38][40] - 模型具备语音合成与声音克隆能力,能在保留说话人音色和口音特征的同时合成新的语音内容 [41][43][45] 训练策略与数据工程 - 为保证生成内容的多样性,团队在视觉生成数据上引入了基于聚类的重平衡策略,通过对高密度集群去重并提高稀疏长尾概念的采样权重来避免同质化审美 [78] - 数据整理与训练流程包含三个阶段:预训练实现基本对齐、中期训练解决数据不平衡问题、监督微调提升美学质量和文本渲染效果 [80] - 在针对图像理解进行强化学习训练时,团队通过设计基于熵和概率差的序列级过滤机制,成功解决了因概率失配导致的“熵爆炸”问题,稳定了训练过程 [81] 未来发展方向 - 团队未来的工作将围绕两个核心问题展开:一是在更高压缩率下维持跨模态语义完备性;二是在统一token空间中进一步提升长序列与复杂任务下的稳定性与可控性 [81] - 团队指出,未来的原生多模态系统应走向更复杂的“任意到任意”的交织推理,输入和输出将是文本、视觉和音频的任意组合,以实现真正的通用多模态智能 [85]