多模态理解生成一体化

搜索文档
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
量子位· 2025-05-10 12:40
基础大模型研发战略 - 公司明确表态坚持基础大模型研发,认为行业技术发展仍处于陡峭上升期,GPT-4等前沿技术迭代速度极快[1][2] - 坚持研发的逻辑包括:技术趋势的快速演进要求紧跟主流增长路径,避免被淘汰[1][2] - 应用与模型存在共生关系——模型决定应用上限,应用反哺模型场景数据[3] 产品形态与商业化路径 - 公司C端产品完成从"跃问"到"阶跃AI"的品牌升级,形态从手机App转向端云一体Agent平台[4] - 商业化逻辑遵循"模型突破先于商业化"原则,参考OpenAI的GPT-3.5到ChatGPT演进路径[4] - 终端产品定位明确聚焦C端市场,涵盖助手类与内容类应用场景[4] 技术演进两大趋势 - **强化学习转型**:行业从模仿学习转向强化学习,OpenAI的o1/o3和DeepSeek-R1均采用该技术[7][8] - **多模态融合**:多模态被视为实现AGI的必经之路,涉及符号/视觉/空间等多元智能形态[9][12] 多模态研发实践 - 公司采取散弹式研发策略,两年内发布22款基座模型,其中16款为多模态模型(占比73%),覆盖文字/语音/图像/视频等方向[10] - 多模态模型细分领域包括图像理解生成、视频处理、音乐生成及多模态推理等7类[10] - 技术路线聚焦"单模态→多模态→理解生成一体化→世界模型→AGI"的演进路径[12] 理解生成一体化技术突破 - 多模态理解生成一体化指同一模型完成理解与生成,而非传统三段式流程[13] - 视觉模态因高维度连续分布特性,其NFP(Next-Frame-Prediction)技术复杂度显著高于语言模型的NTP[13][14] - 公司图像编辑模型Step1X-Edit已初步实现该技术,但承认仍需架构优化与数据打磨[17] - 技术难点在于视觉领域缺乏类似Transformer的统一架构,公司正探索可扩展的解决方案[16] 综合能力建设 - 实现理解生成一体化需语言模型、视觉推理、内容生成等全栈能力支撑,无法单点突破[20][21] - 公司通过并行多条技术路线保持技术领先性,内部各方向能力均衡发展[17][22]