Workflow
理解生成一体化架构
icon
搜索文档
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅APP· 2025-05-08 21:13
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕创立于2023年 核心团队包括首席科学家张祥雨和系统负责人朱亦博 形成技术研发与AI基础设施建设的铁三角架构 [5][7] - 公司员工规模达400余人 其中80%为技术研发人员 采用扁平化管理模式 员工可通过私信直接与CEO沟通 内部设有技术协同会和见闻分享群 [5][6] - 商业模式聚焦ToB服务和开发者API接口 2024年下半年多模态API调用量增长超45倍 2024年12月完成B轮数亿美元融资 [5][7] 技术战略 - 核心主张"理解生成一体化架构" 将原生成小组和理解小组整合为统一团队 认为这是实现多模态突破的关键路径 [2][3][4] - 建立Step系列通用大模型矩阵 覆盖语言模型和原生多模态模型 是国内少数坚持预训练路线的公司之一 [14][15] - 2025年1月发布推理模型Step R1-V-Mini 性能超越OpenAI早期版本 计划未来三个月推出满血版Step-R1 [17] 行业趋势判断 - 模型演进遵循三阶段路径:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) 与OpenAI的AGI五级划分逻辑一致 [9][12] - 当前竞争焦点转向"智能上限" OpenAI等五大厂商半年内发布超8款新品 国内月之暗面等公司同步发力 [7][9] - 多模态领域尚未出现"GPT-4时刻" 核心卡点在于缺乏可扩展的理解生成一体化架构 需突破predict next frame技术难题 [2][28] 产品应用 - 推出Step 1X-Edit图片编辑模型 实现初级理解生成一体化 对原图忠实度达90%以上 正在开发更先进版本 [31] - 布局智能终端Agent生态 与手机/汽车/机器人领域头部企业合作 提供云端Agent构建平台和运行环境 [36] - 落地巡店等商业场景 通过规则Prompt实现操作规范检测 准确率超90% 显著提升连锁门店管理效率 [19] 发展路线 - 短期聚焦强化学习在预训练模型的应用 提升长思维链推理能力 解决奖励函数定义等工业界难题 [17] - 中期突破视觉领域理解生成一体化 构建可扩展架构以处理高维连续空间 最终实现世界模型 [24][28] - 长期通过"超级模型+超级应用"双轮驱动 形成从云到端的Agent生态体系 重点布局智能硬件场景 [33][36]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅· 2025-05-08 19:50
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕于2023年创立,总部位于上海,北京办公室距离微软中国办公地仅504米 [1] - 公司核心管理团队包括CEO姜大昕(战略与技术研发)、首席科学家张祥雨(技术研发)、系统负责人朱亦博(AI基础设施) [1] - 公司员工规模达400余人,其中80%为技术研发人员,采用扁平化管理模式,员工可通过私信直接与CEO沟通 [2] - 2024年12月完成B轮数亿美元融资,是"AI六小虎"中少数坚持预训练路线的公司 [3] 技术战略 - 核心聚焦多模态基础模型研发,坚持"理解生成一体化架构"技术路线,认为这是实现AGI的必经之路 [1][11] - 已建立Step系列通用大模型矩阵,涵盖语言模型和多模态模型,2024年下半年多模态API调用量增长超45倍 [1][11] - 2025年1月发布推理模型Step R1-V-Mini,计划未来三个月推出满血版Step-R1 [14] - 近期将算法团队重组为"生成理解"团队,体现对理解生成一体化架构的重视 [1] 行业趋势判断 - 多模态领域尚未出现"GPT-4时刻",核心瓶颈在于缺乏统一的理解生成一体化架构 [1] - 模型演进路径分为三阶段:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) [5][7] - 当前两大技术趋势:1) 将长思维链推理能力融入语言/多模态模型 2) 视觉领域理解生成一体化 [18][19] - 智能体(Agent)发展需要两个条件:多模态能力和慢思考能力,2024年这两方面取得突破性进展 [31] 产品应用 - 主要收入来源:面向品牌客户的ToB服务和面向开发者的API接口业务 [3] - 已推出Step 1X-Edit图片编辑模型,采用初级理解生成一体化技术,未来几个月将发布更先进版本 [30] - 重点布局智能终端Agent生态,与手机、汽车、机器人领域头部企业合作,提供云端Agent开发平台 [34][35] - 实际应用案例包括茶百道/瑞幸门店巡店系统,通过视觉推理实现90%以上的操作规范检测准确率 [17] 竞争格局 - 基础模型领域竞争激烈,过去半年仅OpenAI/Google/Meta/Grok/Anthropic就发布不少于8款新品 [3] - 国内竞争对手包括月之暗面、MiniMax等,但阶跃星辰在多模态覆盖广度和原生多模理念上具有差异化优势 [3][12] - 公司认为当前竞争焦点仍是"追求智能上限",将持续投入强化学习和多模态前沿技术研发 [4][15]