Workflow
Step 4
icon
搜索文档
阶跃新模型快到“没推理”!印奇上任,果然气势一新
量子位· 2026-02-03 15:45
公司新产品发布 - 阶跃星辰正式发布新一代开源Agent基座模型 Step 3.5 Flash [2] - 新模型总参数为196B,激活参数为11B,支持256K上下文窗口 [2] - 模型在NVIDIA Hopper GPU上的推理峰值达到350 TPS [5][41] 模型性能表现 - 在AIME 2025基准测试中得分为97.3 [7] - 在SWE-bench Verified编码测试中达到74.4% [7] - 在τ²-Bench智能体任务测试中取得88.2的分数 [7] - 在实测中能快速准确完成数学计算、图像计算等复杂推理任务 [11][12][13] 技术架构与创新 - 采用MoE稀疏混合专家架构,通过稀疏激活控制计算与部署成本 [36] - 使用3:1滑动窗口注意力与全注意力交错的方案优化长上下文处理 [37] - 将SWA层的查询头数从64增加到96以增强表征能力 [38] - 集成头向门控注意力机制以维持推理过程的数值稳定性 [39] - 采用3路多Token预测技术提升推理效率 [40] - 搭载自研的MIS‑PO强化学习框架,优化长序列任务的训练稳定性 [42] 生态与兼容性 - 坚持软硬结合的技术路线,模型已与昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等多家国产AI加速芯片平台完成适配 [4] 应用场景演示 - **编程能力**:能够根据复杂需求生成功能完整的代码,例如开发出包含3D渲染、实时数据更新、异常处理等功能的医疗资源监控仪表盘和艺术化气象仪表盘 [16][17][19][20][21][22][24][25][26][27] - **端云协同能力**:核心思路为云端负责规划与推理,端侧负责安全的数据读取与本地执行,在电商比价等任务中能有效拆分任务、汇总信息,并保障数据隐私 [30][32][33][35] - **智能体能力**:官方称其能胜任复杂、长链条任务,在Agent场景上媲美闭源模型 [5] 公司发展动态 - 印奇上任后,公司气势一新 [1] - 据官方透露,下一代模型Step 4正在训练中 [43]
阶跃星辰开源Agent 基模 Step 3.5 Flash 下一代模型已开启训练
新浪财经· 2026-02-02 19:58
公司战略与产品路线图 - 阶跃星辰已启动下一代模型Step 4的训练工作,并计划邀请开发者深度参与共建,共同定义下一代Agent基础模型[1][3] - 公司目前围绕“AI+终端”体系已发布超过30款模型,重点发展方向是语言基础大模型、多模态以及端云结合[1][3] 新产品发布与技术规格 - 阶跃星辰于2月2日发布并开源了最新基座模型Step 3.5 Flash[1][3] - Step 3.5 Flash采用稀疏混合专家架构,总参数量达到1960亿,但每个Token仅激活约110亿参数,旨在平衡推理能力与运行效率[1][3] - 该模型针对规模化应用场景的稳定性、响应速度和成本问题进行了专项优化,在单请求代码类任务上,最高推理速度可达每秒350个token[1][3] 模型性能与竞争力 - Step 3.5 Flash在多项基准测试中表现亮眼,包括针对智能体能力的τ²-Bench、BrowseComp测试,以及LiveCodeBench V6代码挑战和AIME 2025数学竞赛[2][4] - 模型在Agent场景和数学任务上展现出强大竞争力[2][4] 实际应用能力展示 - Step 3.5 Flash展示了强大的自动编程与“端云协同”能力[2][4] - 该模型能基于自然语言指令自动构建复杂的可视化地理空间系统[2][4] - 模型可作为“云端大脑”,将复杂用户需求拆解为多个子任务,协同本地设备高效完成跨平台数据分析与决策支持[2][4] 行业趋势 - 越来越多的开发者正从单纯的提示词工程转向构建Agent和Workflow[1][3]