理解生成一体化

搜索文档
启明创投周志峰对话阶跃星辰姜大昕:探索AI创业的“无人区”
IPO早知道· 2025-06-23 11:23
AGI定义与发展路径 - AGI定义尚未形成行业共识,但阶跃星辰提出以模型完成人类现有工作50%作为AGI到来的标准[7] - 实现AGI分为三个阶段:模拟世界(模仿学习多模态表征)、探索世界(强化学习解决复杂问题)、归纳世界(自主发现新规律)[7][8][10] - OpenAI智能演进五层级(Chatbot→Reasoner→Agent→Innovator→Organization)与阶跃星辰三阶段逻辑一致[10] 大模型技术趋势 - 多模态能力是通向AGI的必经之路,阶跃星辰坚持全模态覆盖及原生多模态理念[11][12] - 模型技术处于陡峭上升期,关键进展包括:强化学习提升推理能力、多模态融合实现理解生成一体化[14][15][19][21] - 理解生成一体化在多模态领域尚未实现,但GPT-4o等模型已展现编辑指令响应能力[21] 阶跃星辰差异化优势 - 构建完整模型矩阵:涵盖语言模型(基础/推理)和多模态模型(语音/音乐/图像/视频)[11] - 推理模型Step R-Mini性能超过OpenAI o1 preview模型,未来将发布满血版推理模型[15] - 智能终端Agent布局聚焦环境感知与任务自主完成能力,目标打造调用模型矩阵的平台[24][25][28] AI Agent发展驱动因素 - 2025年AI Agent火爆源于推理模型成熟与多模态能力提升[25][26] - Agent核心能力包括自动性(独立完成任务)和主动性(预判需求并响应)[27] - 智能终端作为感知延伸(如录音笔Plaud、影石创新相机)是Agent落地重要场景[28] 行业竞争格局 - 中国大模型领域形成"新五强":字节跳动、阿里巴巴、DeepSeek、智谱AI、阶跃星辰[6] - 阶跃星辰是上海徐汇区"模速空间"大模型生态中唯一汇报基础大模型进展的企业[6] - AI时代技术底座尚未定型,"模型即产品"理念下底层能力决定产品70%-80%表现[3][29]
“卷王”阶跃星辰又卷出新花样,但姜大昕的理想道阻且长
观察者网· 2025-05-16 15:29
公司动态 - 阶跃星辰开源最新多模态大模型Step1X-3D 总参数量达4.8B(几何模块1.3B 纹理模块3.5B)采用3D原生两阶段架构生成高保真可控3D内容 [1] - 公司自建包含200万高质量训练样本库 数据筛选覆盖超500万原始数据 水密几何转换成功率提升20% [3] - 模型采用FLUX MMDiT结构和Rectified flow算法建模几何生成 基于Diffusion model生成多视角一致纹理 [3] - 模型架构兼容2D控制技术(如LoRA微调) 支持用户精准调控3D资产属性 [5] - 在110项测试用例评估中表现优异 CLIP-Score指标位列开源模型首位 [7] 技术突破 - Step1X-3D实现几何与纹理表征解耦 通过增强型网格-SDF转换技术提升建模效率 [3] - VAE-Diffusion架构延续Stable Diffusion设计范式 实现2D控制技术迁移应用 [5] - 3D原生两阶段架构突破行业数据瓶颈 解决具身智能赛道3D数据稀缺问题 [9] 战略布局 - 公司已发布20多款自研基座模型 以每月高频更新节奏被称为"多模态卷王" [7] - 创始人姜大昕强调多模态是AGI必经之路 需先实现多模态融合再发展Agent技术 [9] - 当前重点布局语音/图像/视频/音乐等多模态方向 每条技术路线需6个月以上积累 [10] 行业定位 - 公司作为"大模型六小虎"中最晚成立者 凭借基座模型实力站稳行业地位 [7] - 多模态模型尚处早期阶段 相当于语言模型2017年前水平 未现Transformer级突破 [9] - 理解生成一体化需综合语言/视觉/推理能力 公司完整多模态布局符合技术演进需求 [10]
阶跃星辰姜大昕:追求AGI的初心不变,要在多模态能力和Agent方向做出差异化
IPO早知道· 2025-05-13 09:55
公司战略与核心观点 - 公司坚持基础大模型研发,追求AGI(通用人工智能)是初心且不会改变 [3] - 公司差异化特点在于多模态能力,目前多个模态性能在业界领先,并积极探索前沿方向 [3] - 公司在应用层面选择差异化路线,与合作伙伴共同发力智能终端Agent,形成从模型到Agent、云侧到端侧的生态体系 [3] - 行业技术发展处于陡峭区间,公司不会放弃主流增长或前进趋势 [3][4] 技术发展趋势 - 基础大模型发展呈现两大趋势:从模仿学习到强化学习、从多模态融合走向多模态理解生成一体化 [6] - 多模态理解生成一体化是重要趋势,尤其在视觉领域,理解与生成由同一模型完成 [11] - 公司已发布理解生成一体化模型Step 1X-Edit,总参数量19B(7B MLLM + 12B DiT),支持11类高频图像编辑任务 [13] - 公司内部正在开发更高级版本,未来几个月将发布更先进技术 [13] 多模态能力布局 - 公司建立Step系列通用大模型矩阵,包括语言模型和多模态模型,多模态细分涵盖图像、视频、语音、音乐等 [8] - 公司是国内少数重视模态全覆盖并坚持原生多模理念的企业,认为多模态是实现AGI的必经之路 [9] - 多模态能力对垂直领域和C端应用必不可少,公司具备全面自研预训练模型能力,构成独特优势 [9] 智能终端Agent战略 - 公司采用"超级模型+超级应用"双轮驱动策略,将智能终端Agent作为重要方向之一 [15] - Agent爆发需要多模态能力和慢思考能力,这两项能力在2024年取得突破性进展 [15] - 公司已与OPPO、吉利、智元机器人等头部企业合作,重点布局手机、汽车、机器人等智能终端 [16] - 公司认为AI时代产品流量增长逻辑不同于传统互联网,智能终端服务C端存在巨大机会 [17] 产品与技术成果 - 图像编辑大模型Step1X-Edit性能达到开源SOTA,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [13] - 该模型支持文字替换、风格迁移、材质变换、人物修图等11类高频图像编辑任务 [13] - 理解生成一体化的技术路线在公司成立之初就已设定 [14]
「阶跃星辰」的一次豪赌
36氪· 2025-05-12 08:27
文|邓咏仪 编辑|苏建勋 5月8日,久不露面的阶跃星辰CEO姜大昕,出现在北京的一场媒体沟通会上。 "在多模态领域,如果任何一个方面有短板,都会延缓探索AGI进程。"姜大昕给出了一个鲜明的判断。过去一年中,他在不同场合都在反复提及:多模态 是实现AGI的必经之路。 在六小龙中,比起在融资、市场声量上有烈火烹油之势的其他选手,阶跃星辰的低调格外显眼。 这家公司最不声不响,但又能有独特的身位而被记住——过去两年中,它没有参与应用投流的狂热之中,在To C应用上也仅是有所试水。 多模态如今成为了阶跃最亮眼的标签,这家公司正在倾注大部分力量探索这一道路。 成立两年,阶跃一共发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等。这其中,有16款是多模态模型,占比超7成。阶跃也因此 在行业内被称为"多模态卷王"。 但多模态的发展阶段和语言模型并不相同。 在技术路线已经收敛的语言模型领域,几乎所有公司都已经沿着差不多的技术路线迭代,但多模态的技术探索尚在早期。从顶尖大厂到AI初创,都像在 迷雾中穿行。 在2024年Sora震撼全球时,不少AI创业者就有着不一样的意见。"Sora出来的时候,其实我们比较失望,我 ...
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
量子位· 2025-05-10 12:40
基础大模型研发战略 - 公司明确表态坚持基础大模型研发,认为行业技术发展仍处于陡峭上升期,GPT-4等前沿技术迭代速度极快[1][2] - 坚持研发的逻辑包括:技术趋势的快速演进要求紧跟主流增长路径,避免被淘汰[1][2] - 应用与模型存在共生关系——模型决定应用上限,应用反哺模型场景数据[3] 产品形态与商业化路径 - 公司C端产品完成从"跃问"到"阶跃AI"的品牌升级,形态从手机App转向端云一体Agent平台[4] - 商业化逻辑遵循"模型突破先于商业化"原则,参考OpenAI的GPT-3.5到ChatGPT演进路径[4] - 终端产品定位明确聚焦C端市场,涵盖助手类与内容类应用场景[4] 技术演进两大趋势 - **强化学习转型**:行业从模仿学习转向强化学习,OpenAI的o1/o3和DeepSeek-R1均采用该技术[7][8] - **多模态融合**:多模态被视为实现AGI的必经之路,涉及符号/视觉/空间等多元智能形态[9][12] 多模态研发实践 - 公司采取散弹式研发策略,两年内发布22款基座模型,其中16款为多模态模型(占比73%),覆盖文字/语音/图像/视频等方向[10] - 多模态模型细分领域包括图像理解生成、视频处理、音乐生成及多模态推理等7类[10] - 技术路线聚焦"单模态→多模态→理解生成一体化→世界模型→AGI"的演进路径[12] 理解生成一体化技术突破 - 多模态理解生成一体化指同一模型完成理解与生成,而非传统三段式流程[13] - 视觉模态因高维度连续分布特性,其NFP(Next-Frame-Prediction)技术复杂度显著高于语言模型的NTP[13][14] - 公司图像编辑模型Step1X-Edit已初步实现该技术,但承认仍需架构优化与数据打磨[17] - 技术难点在于视觉领域缺乏类似Transformer的统一架构,公司正探索可扩展的解决方案[16] 综合能力建设 - 实现理解生成一体化需语言模型、视觉推理、内容生成等全栈能力支撑,无法单点突破[20][21] - 公司通过并行多条技术路线保持技术领先性,内部各方向能力均衡发展[17][22]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅APP· 2025-05-08 21:13
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕创立于2023年 核心团队包括首席科学家张祥雨和系统负责人朱亦博 形成技术研发与AI基础设施建设的铁三角架构 [5][7] - 公司员工规模达400余人 其中80%为技术研发人员 采用扁平化管理模式 员工可通过私信直接与CEO沟通 内部设有技术协同会和见闻分享群 [5][6] - 商业模式聚焦ToB服务和开发者API接口 2024年下半年多模态API调用量增长超45倍 2024年12月完成B轮数亿美元融资 [5][7] 技术战略 - 核心主张"理解生成一体化架构" 将原生成小组和理解小组整合为统一团队 认为这是实现多模态突破的关键路径 [2][3][4] - 建立Step系列通用大模型矩阵 覆盖语言模型和原生多模态模型 是国内少数坚持预训练路线的公司之一 [14][15] - 2025年1月发布推理模型Step R1-V-Mini 性能超越OpenAI早期版本 计划未来三个月推出满血版Step-R1 [17] 行业趋势判断 - 模型演进遵循三阶段路径:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) 与OpenAI的AGI五级划分逻辑一致 [9][12] - 当前竞争焦点转向"智能上限" OpenAI等五大厂商半年内发布超8款新品 国内月之暗面等公司同步发力 [7][9] - 多模态领域尚未出现"GPT-4时刻" 核心卡点在于缺乏可扩展的理解生成一体化架构 需突破predict next frame技术难题 [2][28] 产品应用 - 推出Step 1X-Edit图片编辑模型 实现初级理解生成一体化 对原图忠实度达90%以上 正在开发更先进版本 [31] - 布局智能终端Agent生态 与手机/汽车/机器人领域头部企业合作 提供云端Agent构建平台和运行环境 [36] - 落地巡店等商业场景 通过规则Prompt实现操作规范检测 准确率超90% 显著提升连锁门店管理效率 [19] 发展路线 - 短期聚焦强化学习在预训练模型的应用 提升长思维链推理能力 解决奖励函数定义等工业界难题 [17] - 中期突破视觉领域理解生成一体化 构建可扩展架构以处理高维连续空间 最终实现世界模型 [24][28] - 长期通过"超级模型+超级应用"双轮驱动 形成从云到端的Agent生态体系 重点布局智能硬件场景 [33][36]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅· 2025-05-08 19:50
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕于2023年创立,总部位于上海,北京办公室距离微软中国办公地仅504米 [1] - 公司核心管理团队包括CEO姜大昕(战略与技术研发)、首席科学家张祥雨(技术研发)、系统负责人朱亦博(AI基础设施) [1] - 公司员工规模达400余人,其中80%为技术研发人员,采用扁平化管理模式,员工可通过私信直接与CEO沟通 [2] - 2024年12月完成B轮数亿美元融资,是"AI六小虎"中少数坚持预训练路线的公司 [3] 技术战略 - 核心聚焦多模态基础模型研发,坚持"理解生成一体化架构"技术路线,认为这是实现AGI的必经之路 [1][11] - 已建立Step系列通用大模型矩阵,涵盖语言模型和多模态模型,2024年下半年多模态API调用量增长超45倍 [1][11] - 2025年1月发布推理模型Step R1-V-Mini,计划未来三个月推出满血版Step-R1 [14] - 近期将算法团队重组为"生成理解"团队,体现对理解生成一体化架构的重视 [1] 行业趋势判断 - 多模态领域尚未出现"GPT-4时刻",核心瓶颈在于缺乏统一的理解生成一体化架构 [1] - 模型演进路径分为三阶段:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) [5][7] - 当前两大技术趋势:1) 将长思维链推理能力融入语言/多模态模型 2) 视觉领域理解生成一体化 [18][19] - 智能体(Agent)发展需要两个条件:多模态能力和慢思考能力,2024年这两方面取得突破性进展 [31] 产品应用 - 主要收入来源:面向品牌客户的ToB服务和面向开发者的API接口业务 [3] - 已推出Step 1X-Edit图片编辑模型,采用初级理解生成一体化技术,未来几个月将发布更先进版本 [30] - 重点布局智能终端Agent生态,与手机、汽车、机器人领域头部企业合作,提供云端Agent开发平台 [34][35] - 实际应用案例包括茶百道/瑞幸门店巡店系统,通过视觉推理实现90%以上的操作规范检测准确率 [17] 竞争格局 - 基础模型领域竞争激烈,过去半年仅OpenAI/Google/Meta/Grok/Anthropic就发布不少于8款新品 [3] - 国内竞争对手包括月之暗面、MiniMax等,但阶跃星辰在多模态覆盖广度和原生多模理念上具有差异化优势 [3][12] - 公司认为当前竞争焦点仍是"追求智能上限",将持续投入强化学习和多模态前沿技术研发 [4][15]