Workflow
腾讯混元TurboS技术报告首次全公开:560B参数混合Mamba架构,自适应长短链融合
AI前线·2025-05-23 03:57

随着大型语言模型(LLM)的飞速发展,模型能力与效率的平衡成为了前沿研究的关键议题。 腾讯混 元团队最新推出的混元TurboS模型,是一款新颖的 超大型 Hybrid Transformer-Mamba架构MoE模型 。该模型通过Mamba架构在长序列处理上的卓越效率与Transformer架构在上下文理解上的固有优势的 有机协同,实现了性能与效率的精妙平衡。 混元TurboS引入了创新的自适应长短思维链机制,能够根据问题复杂度动态切换快速响应模式与深度 思考模式,从而优化计算资源分配。更重要的是,其模型激活参数达到了56B(总参数560B),是业 界首个大规模部署的Transformer-Mamba专家混合(MoE)模型。 架构创新以及参数量的保证,让模型效果进步明显,国际最权威的大模型评测榜单LMSYS Chatbot Arena最新排名显示: 混元Turbo S 取得了整体1356的高分,在所有239个参赛模型中位列全球前7名。 | Rank* | Rank | Model | Arena 4 | વેરૂર A | Votes | A Organizatio License | 4 | | --- | ...