腾讯混元A13B用130亿参数达到千亿级效果,Flash Attention作者点赞

模型性能与效率优势 - 仅130亿激活参数实现与千亿级大模型竞争的性能表现 [2] - 推理吞吐量比同类前沿模型提升超过100% [11] - 在单张H200 GPU上以FP8精度运行 [4] - 原生支持256K超长上下文窗口 [12][20] 技术架构创新 - 采用细粒度MoE架构,总参数量达800亿但仅激活130亿参数 [11] - 支持SGLang、vLLM和TensorRT-LLM等主流推理框架 [14] - 提供多种量化格式支持,单张中端GPU即可部署 [14][15] - 具备"快慢思考"双模式,支持推理时动态切换效率与深度模式 [37] 训练策略与数据构建 - 基于20T Tokens高质量训练数据,专项强化STEM领域数据 [19] - 采用三阶段训练策略:基础训练、快速退火和长文本训练 [19][20][23] - 后训练分两阶段:第一阶段专注数理代码能力,第二阶段提升对话创意能力 [22][24] - 通过多角色合成数据引擎生成五角色(用户/规划师/工具/智能体/检查员)训练数据 [29] 核心能力表现 - 在AIME2024数学竞赛获87.3分,超越OpenAI-o1-1217的74.3分 [37] - BBH推理测试达89.1分,优于Deepseek-R1-0120的83.7分 [37] - Agent能力在BFCL v3评测获78.3分,显著超过OpenAI-o1-1217的67.8分 [36][37] - 在C3-Bench评测取得63.5分,领先于Qwen3-A22B的51.7分 [37] 商业化应用进展 - 腾讯云API定价为输入每百万Tokens 0.5元,输出每百万Tokens 2元 [7] - 已在腾讯内部400多个业务场景完成实际验证 [38] - 模型权重、代码和技术报告已在GitHub和Hugging Face开源 [38] - 在RULER长文本评测中表现出优异稳定性 [37]