Workflow
统一多模态
icon
搜索文档
中金 _ AI主线开年布局展望:MiniMax首次覆盖
中金· 2026-02-25 12:08
报告投资评级与核心观点 * 首次覆盖MiniMax-WP(00100),公司是当前国内少数在基础模型能力与全球化AI原生应用商业化两端同时跑通的公司,在AI赛道中具备稀缺性 [2] 公司概况与稀缺性 * **业务布局**:公司以全模态融合技术模型为核心,向上构建AI原生应用与平台,形成了从模型到应用的全栈布局 [10][11] * **战略定位**:公司是国内最早押注原生全模态融合路线的基模厂商之一,从成立初期即同步推进文本、语音、视频模型研发 [2] * **全球化验证**:2025年前三季度,公司海外收入占比超过73%,覆盖超过200个国家及地区,是国内少有的已验证海外市场规模化变现能力的基模厂商 [2] * **商业模式**:公司坚定执行“技术即产品”路线,采用“前店后厂”模式加速模型与产品的拟合迭代 [2][16] * **组织效率**:公司为AI原生组织,秉持高效组织理念,截至2025年第三季度末,公司仅385名全职员工,其中研发人员占比73.8%,CEO以下设立不超过三层职级 [2][15][16] 行业趋势与竞争格局 * **市场规模**:全球生成式AI收入总市场规模预计将从2023年的929亿美元增长至2032年的16,198亿美元,年复合增长率约37% [25] * **竞争态势**:大模型行业从“百模大战”逐渐收敛至头部厂商,全球头部厂商表现出“竞相迭代、轮番领跑”的竞争态势 [26] * **取胜关键**:大模型研发遵循A=V*D的动力学模型,其中A代表模型能力进化加速度,V代表训练速度(含计算资源、组织能力等),D代表战略投入方向 [38] * **先发优势维持**:实现好的“工作负载-模型匹配”(WMF)有助于把握先发优势、提升用户留存率,形成“水晶鞋效应” [47] 公司多模态战略与技术优势 * **文本模型能力领先**:公司文本模型能力被市场低估,其M2模型发布后不久在Artificial Analysis智能指数榜单位列第五名 [30][31][50] * **文本模型迭代与性能**:M1模型在长上下文场景下具备极致性价比,原生支持100万Token上下文长度;M2模型采用交错思维链技术,具备反思能力;M2.5模型在编程、工具调用等场景达到或刷新行业SOTA水平,且价格仅为Opus、GPT-5等模型的5%-10% [50][54][67] * **视频模型全球领先**:公司Hailuo-02视频模型发布后在Artificial Analysis榜单排名全球第二 [30][31][81] * **音频模型全球领跑**:公司Speech 2.6模型在Artificial Analysis全球文生音频榜单中位列首位 [91][92] * **统一多模态竞争优势**:公司认为统一多模态是未来技术趋势,其在文本、图像、视频和音频等模态均拥有行业领先的自研模型,具备“全模态自研闭环”的技术积累,在统一多模态演进方向上有显著优势 [68][75] 产品矩阵与市场空间 * **AI Agent产品**:公司于2026年1月发布MiniMax Agent 2.0桌面端,定位从“对话助手”升级为“AI原生工作台”,采用模块化专家体系,支持与本地环境深度耦合 [99][105][107] * **Agent市场空间**:根据ARK研究测算,在乐观假设下,全球软件支出有望从2025年的1.43万亿美元增长至2030年的13万亿美元,年复合增长率56%,AI生产力具备十万亿美元级市场想象空间 [113] * **音视频产品**:公司音视频产品包括海螺AI(视频生成)与MiniMax语音(语音合成),其中海螺AI在全球头部视频生成产品中具备“物理一致性强”与“可控性高”的突出优势 [118][127] * **音视频市场竞争**:在语音生成领域,与ElevenLabs相比,MiniMax语音在长文本处理能力(单次最高20万字符)、延迟稳定性(端到端延迟低于250毫秒)和定价上具有优势 [130][136] * **音视频市场空间**:音视频生成市场面向专业创作者(P端)、企业客户(B端)和大众用户(C端),报告测算中性假设下,P端市场空间为32亿美元,B端为94亿美元,C端(社交平台)为917亿美元 [143][147][149] * **AI陪伴产品**:公司拥有Talkie/星野等全球头部AI陪伴与互动产品,据ARK Invest测算,AI陪伴软件市场规模在2030年可能达到700-1,500亿美元 [152][155]
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 17:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]