Workflow
阶跃星辰开源模型Step 3.5 Flash
icon
搜索文档
全球AI开发者新宠:阶跃星辰Step 3.5 Flash,两天登顶OpenRouter趋势榜
36氪· 2026-02-07 13:05
模型市场表现与用户认可 - 阶跃星辰开源模型Step 3.5 Flash发布后市场反响热烈,在OpenRouter平台首日即登上“Fastest Models”全球最快模型之列,并在两天内登顶“Trending”全球趋势榜第一[1] - OpenRouter的Trending全球趋势榜不关注参数或跑分,只反映开发者和用户调用模型的实际情况,Step 3.5 Flash登顶此榜单证明了其在实际应用中的“有用”和“好用”[3] - 在OpenRouter的LLM Leaderboard上,Step 3.5 Flash(免费)以12.5B tokens的调用量位列第一,远超榜单上其他模型,显示了开发者和用户用实际API调用进行的“投票”[2] - 一线开发者和用户对模型的关注点从跑分转向实际应用表现,在Agent、深度研究、自动化工作流等场景中集体选择Step 3.5 Flash,表明模型在复杂任务中的实际可用性受到认可[21][28] 模型核心技术与架构创新 - Step 3.5 Flash采用稀疏混合专家(MoE)架构,总参数量为1960亿,但在处理每个Token时仅激活110亿参数,实现了以较小计算成本获得前沿模型智能水平的效果[4] - 模型通过3:1滑动窗口与全局注意力混合架构(SWA+Full Attention)实现了256K长上下文的高效处理,能极大节省显存,解决了Agent时代成本与效果的倒挂难题[7] - 模型引入了MTP-3(三路多Token预测)技术,允许在生成当前内容时同时预测后续多个Token,这不仅提升了生成速度,更增强了模型在多轮推理中的连贯性,减少了“卡顿”和“失忆”[9] - 测试显示Step 3.5 Flash支持100–300 TPS的生成吞吐量,部分场景下最高可达350 TPS,远超去年50-100 TPS的主流水平,在OpenRouter的速度榜单上位列第九,速度为167 tok/s[7][8] 模型性能与实测效果 - 根据基准测试,Step 3.5 Flash在数学推理(AIME 2025评分97.3)和代码修复(SWE-bench Verified达到74.4%)上表现优异,其PaCoRe强化版甚至将AIME 2025成绩提高到几近满分的99.9[4] - 在实际应用测试中,Step 3.5 Flash能够准确还原不同设计风格的差异并进行持续迭代优化,甚至能生成功能完备的浏览器操作系统(WebOS),并在测试中是唯一能正常运行经典游戏“Memory Game”的模型[10] - 模型在本地部署(如在128GB内存的Mac M3 Max上)实际效果远超预期,性能可达硬件理论效率的70%,并且具有很低的幻觉率和多语言混用场景下的低错误率[14] - 在Agent场景测试中,模型展现出纠错与自我改进能力,例如在生成游戏时,能通过提示词反馈在初始版本基础上进行迭代优化,使开发质量爆发式提高[22] 公司战略与行业趋势 - 阶跃星辰团队意识到不同智能阶段需要不同的基础模型结构,L1 Chatbot时代的设计不适用于L2 Reasoner,而L3 Agent时代需要新的基模结构,因此Step 3.5 Flash的训练目标直接锚定了强逻辑、高效长上下文处理和快速推理能力[22] - 模型的结构设计(如MoE、MTP-3、工程化的长上下文方案)并非为了追逐跑分,而是为了让模型在复杂的多轮任务中持续工作,做到不掉速、不失忆、不乱编,以满足Agent时代的需求[26] - 行业重心正在从对话向工作流迁移,自2025年开始,模型开始大规模引入工作流,开发者更看重Token,用户则希望AI能直接处理改代码、跨平台流程等复杂任务[27] - Step 3.5 Flash的成功表明,AI的成功取决于其帮助人类提高效率的程度,大模型需要褪去“炫技”外壳,转变为真正好用的生产力工具[29]