Workflow
Attention-FFN Disaggregation(AFD)机制
icon
搜索文档
又一SOTA级开源模型!阶跃Step-3多模态推理登顶,百万token解码成本不到4毛钱
量子位· 2025-08-01 08:46
模型性能 - Step-3多模态推理模型在MMMU等多个榜单上取得开源SOTA成绩,成为开源多模态推理模型的新标杆 [2] - 模型在Hopper GPU上每秒可解码4039个Token(4K上下文、FP8、无MTP),速度达到DeepSeek-V3的174% [3] - 采用模型-Infra一体化设计,性价比极高,在H20上的解码成本仅为DeepSeek-V3的30% [5][7] 模型架构 - Step-3为MoE模型,包含48个专家,总参数量321B(316B语言模型+5B视觉编码器),激活参数量38B(3个专家) [9] - 采用自研MFA注意力机制,通过低秩分解和共享Key/Value表示压缩KV缓存,使其小于DeepSeek-V3,更适配长上下文场景 [20][21][22] - 模型层数1层,隐藏维度7168,注意力头64个,头维度256,MoE层配置覆盖除首尾外的所有层 [10] 技术优势 - 提出AFD机制,将注意力和FFN计算拆分到不同GPU群组,通过三阶段流水线提升资源利用率 [25][26][27] - 开发StepMesh通信库,支持GPUDirect RDMA,SM占用为0,子毫秒级完成双向流式传输 [30][32] - 在昇腾910B上解码成本低于华为盘古大模型,32K长度下H20计算卡成本仅为DeepSeek-V3的30% [23][16] 行业地位 - Hugging Face模型榜单前十名中8个为中国模型,包括智谱GLM-4.5、腾讯混元世界模型、Qwen系列等 [33][34][35] - 中国厂商如字节Seed、昆仑万维、上海AI Lab等均将王牌模型直接开源,推动国产模型成为开源领域领军者 [37][38] - Step-3位列Hugging Face榜单第一页,技术报告和代码已在Github、Hugging Face、魔搭平台全面开源 [39] 成本效率 - 8K上下文长度下每百万Token成本0.055美元(约人民币0.4元),采用H20+H800异构组合 [12] - 相比DeepSeek-V3激活参数量更高但成本仅80%,对比Qwen MoE成本低12% [13][14] - 算力-带宽比调至略低于主流GPU屋脊线,同一套权重在高带宽卡和算力卡上均保持高利用率 [24]