核心观点 - 阶跃星辰在WAIC 2025发布新一代开源多模态基座模型Step 3,性能超越同类开源模型并接近顶尖闭源模型[1][2] - Step 3以"多开好省"为核心设计理念,解决AI商业化应用的三大瓶颈:推理成本高、场景适配难、多模态能力调用不全[7][8][11] - 模型在国产芯片上实现突破性成本优化,推理效率达竞品3倍,为国产算力生态注入强心剂[32][47][52] - 公司联合10家芯片厂商成立"模芯生态创新联盟",推动底层技术协同创新[51][52][59] - 2025年上半年智能终端业务环比增长超800%,预计全年收入近10亿元[54][55] 技术架构 - 采用原创MFA架构:多矩阵分解注意力设计,KV量仅为Qwen GQA的1/3,计算量仅为DeepSeek MLA的1/4[29][31][32] - MoE混合专家架构:总参数量321B(LLM 316B+视觉编码器5B),激活参数量38B,性能对标DeepSeek[33][34][35] - AFD分布式推理方案:比DeepSeek"大EP"模式更先进,实现Attention与FFN计算资源精准匹配[38] - 原生多模态设计:支持文本/视觉输入,具备深度推理能力,在MMMU等基准超越ERNIE 4.5等竞品[39][41] 性能表现 - 基准测试:在MMMU、MathVision等多项多模态基准超越开源竞品[1][41] - 实测案例: - 准确完成"视觉称重"任务,识别三花猫品种并估算体重[14][15] - 解析"Who's Adam?"网络热梗,总结AI研究者审稿质量焦虑[16][17] - 根据主机贴纸照片完成复杂空间推理[19] - 实时识别桌游"Splendor"并处理对话打断[25][26] - 效率指标:国产芯片推理成本为行业领先开源模型的1/3,Hopper架构芯片吞吐量提升70%[18][47] 商业化进展 - 智能终端:Top10国产手机厂商过半已合作,多模态能力落地量产旗舰机型[54] - 汽车领域:端到端语音大模型在吉利银河M9首发上车,联合发布智能座舱Agent OS[54] - 生态布局:与华为昇腾、沐曦等10家芯片厂商成立创新联盟,推动算力-模型协同优化[51][52] - 收入增长:2025H1智能终端调用量环比增800%,全年收入预计10亿元[54][55] 战略演进 - 产品迭代路径:Step-1对标GPT-3.5→Step-2逼近GPT-4→Step-3聚焦商业化效率[45][46] - 行业定位转变:从"多模态卷王"(20/26款为多模态模型)转向推理时代"最优解"提供者[57][58] - 商业模式创新:通过技术而非补贴实现成本革命,避免API价格战[44][59]
实测爆火的阶跃星辰Step 3,性能SOTA,开源多模态推理之王
机器之心·2025-07-26 16:19