腾讯混元TurboS技术报告首次全公开：560B参数混合Mamba架构，自适应长短链融合

腾讯混元TurboS模型技术亮点 - 采用创新的Hybrid Transformer-Mamba架构MoE设计，结合Mamba长序列处理效率与Transformer上下文理解优势，实现性能与效率平衡 [2] - 模型激活参数56B（总参数560B），为业界首个大规模部署的Transformer-Mamba专家混合模型 [2] - 引入自适应长短思维链机制，动态切换快速响应与深度思考模式，优化计算资源分配 [7] 模型性能表现 - 在LMSYS Chatbot Arena评测中获1356分，全球排名第7，国内仅次于Deepseek [1][2] - 多语种能力突出，中文/法语/西班牙语并列全球第一，韩文排名全球第二 [4] - 四大关键任务（困难提示/创意写作/多轮对话/长问题）均进入全球前五 [5] 架构与训练创新 - 采用128层交错式"AMF"（Attention→Mamba2→FFN）和"MF"模块设计，FFN层占比50%，Mamba2层占44.5% [14][15] - 预训练使用16万亿Token语料，上下文窗口扩展至256K Tokens [10][18] - 后训练包含监督微调/自适应CoT融合/多轮推敲学习/两阶段强化学习四模块 [22] 基准测试对比 - 数学推理表现仅次于DeepSeek-v3-0324，GSM8K达94.4分，MATH达90分 [41] - 逻辑推理在BBH/DROP/Zebra-Logic基准与DeepSeek-V3共同树立新标杆 [42] - 中文任务表现强劲，C-Eval得分88.7，CMMLU达89.4 [20][42] 基础设施优化 - 自研Angel-RL训练框架集成5种并行技术，ZeroCache技术降低GPU显存压力 [45][46] - 推理部署优化实现1.8倍加速，数学/编程任务Token消耗减少35%-45% [47] - Mamba Kernel优化增强计算并行性，MoE专家并行缓解解码显存瓶颈 [47]