Workflow
智能终端Agent
icon
搜索文档
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
量子位· 2025-04-28 11:43
全球AI大模型进入多模态时代 - 行业正围绕多模态技术展开密集创新,多模态能力成为AI应用落地的核心要素[1][2] - 阶跃星辰作为代表性玩家,过去1个月发布3款多模态模型(图生视频、多模态推理、图像编辑),其中2款已开源[5][7] - 公司已发布21款基座模型,多模态占比达70%,覆盖语言、语音、图像、视频、推理五大方向[61][70] 阶跃星辰多模态技术突破 Step1X-Edit图像编辑模型 - 采用19B参数创新架构(7B MLLM+12B DiT),首次实现理解与生成模块解耦[8][9] - 在GEdit-Bench基准测试中,语义一致性(7.183)、图像质量(7.229)、综合得分(7.161)全面领先开源模型,媲美GPT-4o[12][13] - 实测显示具备精准语义解析(大象转身)、身份一致性保持(马斯克秃头)、区域级控制(海水调色)三大核心能力[19][23][27] Step-R1-V-Mini多模态推理模型 - 采用PPO强化学习策略,通过多模态合成数据解决训练跷跷板问题[41][43] - 在MathVision视觉推理榜单以56.6分位列国内第一,超越Claude 3.5(37.99)和Gemini 2.0 Flash(41.3)[40] - 展示出复杂场景推理能力(精确定位北京长安街)、烹饪方法分析(川香藤椒鸡步骤分解)等应用潜力[45][51] Step-Video-TI2V图生视频模型 - 基于30B参数Step-Video-T2V优化,支持生成5秒540P视频,具备运动幅度/镜头运动双控制[56][57] - 通过引入图像条件提升一致性,动态性参数可调(2-20数值范围对应不同运动强度)[58] - 填补开源图生视频领域空白,与闭源Sora形成差异化竞争[55] 终端Agent商业化布局 - 2025年重点发力四大场景:智能汽车(吉利)、手机终端(OPPO)、具身智能(智元机器人)、IoT(TCL)[65][66][67] - 采用深度绑定策略,与各领域头部企业建立全价值链合作,例如为OPPO提供「一键问屏」多模态技术支持[66][69] - 形成「数据-场景-模型」三角闭环,2年内完成21款模型研发,成为国内基座模型种类最全的公司之一[63][73] 行业竞争格局 - 全球科技巨头(OpenAI GPT-4o、谷歌Gemini)与阶跃等企业正围绕多模态展开新一轮竞赛[75] - 多模态技术决定AI模型天花板,阶跃通过「技术奇袭+终端破局」双轮驱动实现后来居上[72][73] - 行业进入新旧范式交替期,非多模态AI模型面临淘汰风险[76]