Agent原生模型时代开启!阶跃Step 3.5 Flash上线,2天登顶OpenRouter全球趋势榜
AI前线·2026-02-05 18:39

行业趋势:从Chatbot到Agent的范式演进 - 大模型正从单纯的对话工具(Chatbot)向能够调用外部工具、执行复杂任务的智能体(Agent)进化,这要求模型具备更长的上下文处理能力和更快的即时响应能力 [2][5] - Agent应用场景的扩展导致对模型推理成本、速度和智能水平提出了更高要求,传统的推理模型已难以满足需求,行业正在呼唤“Agent原生”的新一代模型 [3][4][5] 公司产品:阶跃星辰Step 3.5 Flash的核心特性 - 独特的模型架构:采用稀疏混合专家(MoE)架构,总参数量1960亿,每次推理仅激活约110亿参数,旨在实现效率与性能的平衡 [6] - 创新的注意力机制:采用滑动窗口注意力(SWA)与全局注意力(Full Attention)以3:1比例混合的架构,以兼顾局部专注与长程依赖 [6] - 并行预测技术:使用MTP-3(多token并行预测)机制,在保证因果一致性的前提下实现多token并行推理,提升生成效率 [7] - 卓越的性能表现:拥有256K超长上下文,在单请求代码类任务上最高推理速度可达每秒350个token [8][9] - 强大的逻辑能力:在多项数学推理基准测试中取得领先成绩,包括AIME 2025(97.3分)、IMOAnswerBench(85.4分)和HMMT 2025(96.2分)[9][10] - 出色的实际任务表现:在Coding任务(如Terminal-Bench 2.0、LiveCodeBench-V6)和Agent相关测试(如τ²-Bench 88.2分、xbench-DeepSearch 54分)中均达到国内开源模型第一或全球第一梯队水平 [13] - 广泛的开发者认可:发布后迅速进入OpenRouter全球趋势榜(Trending)榜首,并在“Fastest Models”速度榜中位列前茅,反映了其在真实任务中的表现获得全球AI开发者认可 [13][14] - 良好的用户体验反馈:在Reddit、X等社区获得好评,包括多语言切换自然、幻觉率低、对自身能力边界认知清晰等优点 [15] 技术影响:推动AI模型设计与部署的范式转移 - 打破“规模迷信”:通过“合适尺寸+充分后训练”的路径,证明了模型能力并非单纯与参数量挂钩,关键在于凝缩逻辑内核 [10][11] - 实现“终端平权”:模型经过4-bit量化后,可流畅运行在消费级硬件上,如在128GB内存的M3 Max芯片MacBook上实现平均35 tokens/秒的推理速度(约为该平台理论最大效率的70%),支持在终端侧构建私有化Agent工作流 [16][17][18][19][20][23] - 广泛的硬件适配:已获得华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等多家中外芯片厂商的云服务适配,并支持NVIDIA DGX Spark、Apple M3/M4 Max、AMD AI Max+ 395等主流个人AI终端的本地部署 [19] - 定义“Agent原生基座模型”新范式:通过精巧的架构设计,同时解决了Agent时代的三大挑战:超长上下文下的低延迟响应、复杂任务中的高幻觉风险以及终端设备上的本地化部署 [22] - 引领基础设施层创新:在行业追逐Agent应用层时,专注于为Agent提供高性能、低门槛的“原生大脑”,完成了基础设施层的关键范式跃迁 [24]

Agent原生模型时代开启!阶跃Step 3.5 Flash上线,2天登顶OpenRouter全球趋势榜 - Reportify