智能终端Agent - 财报，业绩电话会，研报，新闻

智能终端Agent

搜索文档

量子位· 2025-04-28 11:43

全球AI大模型进入多模态时代 - 行业正围绕多模态技术展开密集创新，多模态能力成为AI应用落地的核心要素[1][2] - 阶跃星辰作为代表性玩家，过去1个月发布3款多模态模型（图生视频、多模态推理、图像编辑），其中2款已开源[5][7] - 公司已发布21款基座模型，多模态占比达70%，覆盖语言、语音、图像、视频、推理五大方向[61][70] 阶跃星辰多模态技术突破 Step1X-Edit图像编辑模型 - 采用19B参数创新架构（7B MLLM+12B DiT），首次实现理解与生成模块解耦[8][9] - 在GEdit-Bench基准测试中，语义一致性(7.183)、图像质量(7.229)、综合得分(7.161)全面领先开源模型，媲美GPT-4o[12][13] - 实测显示具备精准语义解析（大象转身）、身份一致性保持（马斯克秃头）、区域级控制（海水调色）三大核心能力[19][23][27] Step-R1-V-Mini多模态推理模型 - 采用PPO强化学习策略，通过多模态合成数据解决训练跷跷板问题[41][43] - 在MathVision视觉推理榜单以56.6分位列国内第一，超越Claude 3.5(37.99)和Gemini 2.0 Flash(41.3)[40] - 展示出复杂场景推理能力（精确定位北京长安街）、烹饪方法分析（川香藤椒鸡步骤分解）等应用潜力[45][51] Step-Video-TI2V图生视频模型 - 基于30B参数Step-Video-T2V优化，支持生成5秒540P视频，具备运动幅度/镜头运动双控制[56][57] - 通过引入图像条件提升一致性，动态性参数可调（2-20数值范围对应不同运动强度）[58] - 填补开源图生视频领域空白，与闭源Sora形成差异化竞争[55] 终端Agent商业化布局 - 2025年重点发力四大场景：智能汽车（吉利）、手机终端（OPPO）、具身智能（智元机器人）、IoT（TCL）[65][66][67] - 采用深度绑定策略，与各领域头部企业建立全价值链合作，例如为OPPO提供「一键问屏」多模态技术支持[66][69] - 形成「数据-场景-模型」三角闭环，2年内完成21款模型研发，成为国内基座模型种类最全的公司之一[63][73] 行业竞争格局 - 全球科技巨头（OpenAI GPT-4o、谷歌Gemini）与阶跃等企业正围绕多模态展开新一轮竞赛[75] - 多模态技术决定AI模型天花板，阶跃通过「技术奇袭+终端破局」双轮驱动实现后来居上[72][73] - 行业进入新旧范式交替期，非多模态AI模型面临淘汰风险[76]

多模态

智能终端Agent

Artificial Intelligence

Artificial Intelligence

Step1X-Edit

Step-R1-V-Mini

Step-Video-TI2V