公司战略与核心观点 - 公司坚持基础大模型研发,追求AGI(通用人工智能)是初心且不会改变 [3] - 公司差异化特点在于多模态能力,目前多个模态性能在业界领先,并积极探索前沿方向 [3] - 公司在应用层面选择差异化路线,与合作伙伴共同发力智能终端Agent,形成从模型到Agent、云侧到端侧的生态体系 [3] - 行业技术发展处于陡峭区间,公司不会放弃主流增长或前进趋势 [3][4] 技术发展趋势 - 基础大模型发展呈现两大趋势:从模仿学习到强化学习、从多模态融合走向多模态理解生成一体化 [6] - 多模态理解生成一体化是重要趋势,尤其在视觉领域,理解与生成由同一模型完成 [11] - 公司已发布理解生成一体化模型Step 1X-Edit,总参数量19B(7B MLLM + 12B DiT),支持11类高频图像编辑任务 [13] - 公司内部正在开发更高级版本,未来几个月将发布更先进技术 [13] 多模态能力布局 - 公司建立Step系列通用大模型矩阵,包括语言模型和多模态模型,多模态细分涵盖图像、视频、语音、音乐等 [8] - 公司是国内少数重视模态全覆盖并坚持原生多模理念的企业,认为多模态是实现AGI的必经之路 [9] - 多模态能力对垂直领域和C端应用必不可少,公司具备全面自研预训练模型能力,构成独特优势 [9] 智能终端Agent战略 - 公司采用"超级模型+超级应用"双轮驱动策略,将智能终端Agent作为重要方向之一 [15] - Agent爆发需要多模态能力和慢思考能力,这两项能力在2024年取得突破性进展 [15] - 公司已与OPPO、吉利、智元机器人等头部企业合作,重点布局手机、汽车、机器人等智能终端 [16] - 公司认为AI时代产品流量增长逻辑不同于传统互联网,智能终端服务C端存在巨大机会 [17] 产品与技术成果 - 图像编辑大模型Step1X-Edit性能达到开源SOTA,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [13] - 该模型支持文字替换、风格迁移、材质变换、人物修图等11类高频图像编辑任务 [13] - 理解生成一体化的技术路线在公司成立之初就已设定 [14]
阶跃星辰姜大昕:追求AGI的初心不变,要在多模态能力和Agent方向做出差异化
IPO早知道·2025-05-13 09:55