理解生成一体化

搜索文档
启明创投周志峰对话阶跃星辰姜大昕:探索AI创业的“无人区”
IPO早知道· 2025-06-23 11:23
AGI定义与发展路径 - AGI定义尚未形成行业共识,但阶跃星辰提出以模型完成人类现有工作50%作为AGI到来的标准[7] - 实现AGI分为三个阶段:模拟世界(模仿学习多模态表征)、探索世界(强化学习解决复杂问题)、归纳世界(自主发现新规律)[7][8][10] - OpenAI智能演进五层级(Chatbot→Reasoner→Agent→Innovator→Organization)与阶跃星辰三阶段逻辑一致[10] 大模型技术趋势 - 多模态能力是通向AGI的必经之路,阶跃星辰坚持全模态覆盖及原生多模态理念[11][12] - 模型技术处于陡峭上升期,关键进展包括:强化学习提升推理能力、多模态融合实现理解生成一体化[14][15][19][21] - 理解生成一体化在多模态领域尚未实现,但GPT-4o等模型已展现编辑指令响应能力[21] 阶跃星辰差异化优势 - 构建完整模型矩阵:涵盖语言模型(基础/推理)和多模态模型(语音/音乐/图像/视频)[11] - 推理模型Step R-Mini性能超过OpenAI o1 preview模型,未来将发布满血版推理模型[15] - 智能终端Agent布局聚焦环境感知与任务自主完成能力,目标打造调用模型矩阵的平台[24][25][28] AI Agent发展驱动因素 - 2025年AI Agent火爆源于推理模型成熟与多模态能力提升[25][26] - Agent核心能力包括自动性(独立完成任务)和主动性(预判需求并响应)[27] - 智能终端作为感知延伸(如录音笔Plaud、影石创新相机)是Agent落地重要场景[28] 行业竞争格局 - 中国大模型领域形成"新五强":字节跳动、阿里巴巴、DeepSeek、智谱AI、阶跃星辰[6] - 阶跃星辰是上海徐汇区"模速空间"大模型生态中唯一汇报基础大模型进展的企业[6] - AI时代技术底座尚未定型,"模型即产品"理念下底层能力决定产品70%-80%表现[3][29]
“卷王”阶跃星辰又卷出新花样,但姜大昕的理想道阻且长
观察者网· 2025-05-16 15:29
公司动态 - 阶跃星辰开源最新多模态大模型Step1X-3D 总参数量达4.8B(几何模块1.3B 纹理模块3.5B)采用3D原生两阶段架构生成高保真可控3D内容 [1] - 公司自建包含200万高质量训练样本库 数据筛选覆盖超500万原始数据 水密几何转换成功率提升20% [3] - 模型采用FLUX MMDiT结构和Rectified flow算法建模几何生成 基于Diffusion model生成多视角一致纹理 [3] - 模型架构兼容2D控制技术(如LoRA微调) 支持用户精准调控3D资产属性 [5] - 在110项测试用例评估中表现优异 CLIP-Score指标位列开源模型首位 [7] 技术突破 - Step1X-3D实现几何与纹理表征解耦 通过增强型网格-SDF转换技术提升建模效率 [3] - VAE-Diffusion架构延续Stable Diffusion设计范式 实现2D控制技术迁移应用 [5] - 3D原生两阶段架构突破行业数据瓶颈 解决具身智能赛道3D数据稀缺问题 [9] 战略布局 - 公司已发布20多款自研基座模型 以每月高频更新节奏被称为"多模态卷王" [7] - 创始人姜大昕强调多模态是AGI必经之路 需先实现多模态融合再发展Agent技术 [9] - 当前重点布局语音/图像/视频/音乐等多模态方向 每条技术路线需6个月以上积累 [10] 行业定位 - 公司作为"大模型六小虎"中最晚成立者 凭借基座模型实力站稳行业地位 [7] - 多模态模型尚处早期阶段 相当于语言模型2017年前水平 未现Transformer级突破 [9] - 理解生成一体化需综合语言/视觉/推理能力 公司完整多模态布局符合技术演进需求 [10]
阶跃星辰姜大昕:追求AGI的初心不变,要在多模态能力和Agent方向做出差异化
IPO早知道· 2025-05-13 09:55
公司战略与核心观点 - 公司坚持基础大模型研发,追求AGI(通用人工智能)是初心且不会改变 [3] - 公司差异化特点在于多模态能力,目前多个模态性能在业界领先,并积极探索前沿方向 [3] - 公司在应用层面选择差异化路线,与合作伙伴共同发力智能终端Agent,形成从模型到Agent、云侧到端侧的生态体系 [3] - 行业技术发展处于陡峭区间,公司不会放弃主流增长或前进趋势 [3][4] 技术发展趋势 - 基础大模型发展呈现两大趋势:从模仿学习到强化学习、从多模态融合走向多模态理解生成一体化 [6] - 多模态理解生成一体化是重要趋势,尤其在视觉领域,理解与生成由同一模型完成 [11] - 公司已发布理解生成一体化模型Step 1X-Edit,总参数量19B(7B MLLM + 12B DiT),支持11类高频图像编辑任务 [13] - 公司内部正在开发更高级版本,未来几个月将发布更先进技术 [13] 多模态能力布局 - 公司建立Step系列通用大模型矩阵,包括语言模型和多模态模型,多模态细分涵盖图像、视频、语音、音乐等 [8] - 公司是国内少数重视模态全覆盖并坚持原生多模理念的企业,认为多模态是实现AGI的必经之路 [9] - 多模态能力对垂直领域和C端应用必不可少,公司具备全面自研预训练模型能力,构成独特优势 [9] 智能终端Agent战略 - 公司采用"超级模型+超级应用"双轮驱动策略,将智能终端Agent作为重要方向之一 [15] - Agent爆发需要多模态能力和慢思考能力,这两项能力在2024年取得突破性进展 [15] - 公司已与OPPO、吉利、智元机器人等头部企业合作,重点布局手机、汽车、机器人等智能终端 [16] - 公司认为AI时代产品流量增长逻辑不同于传统互联网,智能终端服务C端存在巨大机会 [17] 产品与技术成果 - 图像编辑大模型Step1X-Edit性能达到开源SOTA,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [13] - 该模型支持文字替换、风格迁移、材质变换、人物修图等11类高频图像编辑任务 [13] - 理解生成一体化的技术路线在公司成立之初就已设定 [14]
「阶跃星辰」的一次豪赌
36氪· 2025-05-12 08:27
公司战略与定位 - 阶跃星辰专注于多模态技术研发,认为多模态是实现AGI的必经之路,并将大部分资源投入该领域[4][8] - 公司采取差异化竞争策略,未参与应用投流热潮,仅试水To C应用,保持低调但技术领先的身位[2][3] - 技术路线选择"难上加难"的理解生成一体化原生多模方向,从成立之初即定为主线[5][14] 技术布局与成果 - 成立两年发布22款自研基座模型,其中16款为多模态模型,占比超70%,覆盖文字、语音、图像等六大模态[4] - 多模态技术处于早期探索阶段,类比语言模型相当于GPT-1.0前的Transformer时期,需解决模态融合不降智的难题[5][18] - 重点布局两大技术趋势:预训练模型+强化学习提升推理能力,以及视觉领域理解生成一体化[10][14] - 组建多支技术路线并行团队,采取"并发突破"策略应对技术不确定性[7] 产品与商业化路径 - 2025年将产品"跃问"更名为"阶跃 AI",实现从类ChatGPT产品向Agent能力转型[22] - 选择智能终端Agent为主攻方向,与Oppo、吉利汽车等头部企业合作落地手机、汽车、机器人场景[23][24] - 商业化逻辑强调模型突破先于应用爆发,通过绑定行业头部公司获取场景和数据,暂不直接ToC[20][24] - 认为AI产品流量增长不依赖传统投流模式,以DeepSeek为例验证技术驱动增长路径[19] 行业趋势判断 - 多模态与Agent成为2025年两大关键词,Agent爆发依赖多模态能力和慢思考能力的突破[6][23] - 技术演进路线从单模态到多模态,再到理解生成一体化,最终延伸至AI for Science[9][18] - 视觉领域尚未解决predict next frame难题,因模态复杂度远超语言(图片数据达百万维连续空间)[17] - 行业技术发展仍处陡峭增长期,基础模型研发决定应用上限,应用场景反哺模型迭代[22]