自适应长短思维链机制

搜索文档
腾讯混元TurboS技术报告首次全公开:560B参数混合Mamba架构,自适应长短链融合
AI前线· 2025-05-23 03:57
腾讯混元TurboS模型技术亮点 - 采用创新的Hybrid Transformer-Mamba架构MoE设计,结合Mamba长序列处理效率与Transformer上下文理解优势,实现性能与效率平衡 [2] - 模型激活参数56B(总参数560B),为业界首个大规模部署的Transformer-Mamba专家混合模型 [2] - 引入自适应长短思维链机制,动态切换快速响应与深度思考模式,优化计算资源分配 [7] 模型性能表现 - 在LMSYS Chatbot Arena评测中获1356分,全球排名第7,国内仅次于Deepseek [1][2] - 多语种能力突出,中文/法语/西班牙语并列全球第一,韩文排名全球第二 [4] - 四大关键任务(困难提示/创意写作/多轮对话/长问题)均进入全球前五 [5] 架构与训练创新 - 采用128层交错式"AMF"(Attention→Mamba2→FFN)和"MF"模块设计,FFN层占比50%,Mamba2层占44.5% [14][15] - 预训练使用16万亿Token语料,上下文窗口扩展至256K Tokens [10][18] - 后训练包含监督微调/自适应CoT融合/多轮推敲学习/两阶段强化学习四模块 [22] 基准测试对比 - 数学推理表现仅次于DeepSeek-v3-0324,GSM8K达94.4分,MATH达90分 [41] - 逻辑推理在BBH/DROP/Zebra-Logic基准与DeepSeek-V3共同树立新标杆 [42] - 中文任务表现强劲,C-Eval得分88.7,CMMLU达89.4 [20][42] 基础设施优化 - 自研Angel-RL训练框架集成5种并行技术,ZeroCache技术降低GPU显存压力 [45][46] - 推理部署优化实现1.8倍加速,数学/编程任务Token消耗减少35%-45% [47] - Mamba Kernel优化增强计算并行性,MoE专家并行缓解解码显存瓶颈 [47]