统一多模态 - 财报，业绩电话会，研报，新闻

统一多模态

搜索文档

中金· 2026-02-25 12:08

报告投资评级与核心观点 * 首次覆盖MiniMax-WP（00100），公司是当前国内少数在基础模型能力与全球化AI原生应用商业化两端同时跑通的公司，在AI赛道中具备稀缺性 [2] 公司概况与稀缺性 * **业务布局**：公司以全模态融合技术模型为核心，向上构建AI原生应用与平台，形成了从模型到应用的全栈布局 [10][11] * **战略定位**：公司是国内最早押注原生全模态融合路线的基模厂商之一，从成立初期即同步推进文本、语音、视频模型研发 [2] * **全球化验证**：2025年前三季度，公司海外收入占比超过73%，覆盖超过200个国家及地区，是国内少有的已验证海外市场规模化变现能力的基模厂商 [2] * **商业模式**：公司坚定执行“技术即产品”路线，采用“前店后厂”模式加速模型与产品的拟合迭代 [2][16] * **组织效率**：公司为AI原生组织，秉持高效组织理念，截至2025年第三季度末，公司仅385名全职员工，其中研发人员占比73.8%，CEO以下设立不超过三层职级 [2][15][16] 行业趋势与竞争格局 * **市场规模**：全球生成式AI收入总市场规模预计将从2023年的929亿美元增长至2032年的16,198亿美元，年复合增长率约37% [25] * **竞争态势**：大模型行业从“百模大战”逐渐收敛至头部厂商，全球头部厂商表现出“竞相迭代、轮番领跑”的竞争态势 [26] * **取胜关键**：大模型研发遵循A=V*D的动力学模型，其中A代表模型能力进化加速度，V代表训练速度（含计算资源、组织能力等），D代表战略投入方向 [38] * **先发优势维持**：实现好的“工作负载-模型匹配”（WMF）有助于把握先发优势、提升用户留存率，形成“水晶鞋效应” [47] 公司多模态战略与技术优势 * **文本模型能力领先**：公司文本模型能力被市场低估，其M2模型发布后不久在Artificial Analysis智能指数榜单位列第五名 [30][31][50] * **文本模型迭代与性能**：M1模型在长上下文场景下具备极致性价比，原生支持100万Token上下文长度；M2模型采用交错思维链技术，具备反思能力；M2.5模型在编程、工具调用等场景达到或刷新行业SOTA水平，且价格仅为Opus、GPT-5等模型的5%-10% [50][54][67] * **视频模型全球领先**：公司Hailuo-02视频模型发布后在Artificial Analysis榜单排名全球第二 [30][31][81] * **音频模型全球领跑**：公司Speech 2.6模型在Artificial Analysis全球文生音频榜单中位列首位 [91][92] * **统一多模态竞争优势**：公司认为统一多模态是未来技术趋势，其在文本、图像、视频和音频等模态均拥有行业领先的自研模型，具备“全模态自研闭环”的技术积累，在统一多模态演进方向上有显著优势 [68][75] 产品矩阵与市场空间 * **AI Agent产品**：公司于2026年1月发布MiniMax Agent 2.0桌面端，定位从“对话助手”升级为“AI原生工作台”，采用模块化专家体系，支持与本地环境深度耦合 [99][105][107] * **Agent市场空间**：根据ARK研究测算，在乐观假设下，全球软件支出有望从2025年的1.43万亿美元增长至2030年的13万亿美元，年复合增长率56%，AI生产力具备十万亿美元级市场想象空间 [113] * **音视频产品**：公司音视频产品包括海螺AI（视频生成）与MiniMax语音（语音合成），其中海螺AI在全球头部视频生成产品中具备“物理一致性强”与“可控性高”的突出优势 [118][127] * **音视频市场竞争**：在语音生成领域，与ElevenLabs相比，MiniMax语音在长文本处理能力（单次最高20万字符）、延迟稳定性（端到端延迟低于250毫秒）和定价上具有优势 [130][136] * **音视频市场空间**：音视频生成市场面向专业创作者（P端）、企业客户（B端）和大众用户（C端），报告测算中性假设下，P端市场空间为32亿美元，B端为94亿美元，C端（社交平台）为917亿美元 [143][147][149] * **AI陪伴产品**：公司拥有Talkie/星野等全球头部AI陪伴与互动产品，据ARK Invest测算，AI陪伴软件市场规模在2030年可能达到700-1,500亿美元 [152][155]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

一周六连发！昆仑万维将多模态AI卷到了新高度

量子位· 2025-08-17 17:00

技术发布概览 - 一周内连续发布六款多模态AI模型，覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源，包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强"，与腾讯、阿里等并列 [5] 核心模型与技术突破视频生成领域 - **SkyReels-A3**：支持音频驱动人像视频生成，预设8种运镜参数，可生成60秒单分镜视频，唇形同步指标Sync-C达8.66，超越OmniHuman（8.15）和Hydra（7.70） [8][10][12][14] - 技术原理：基于DiT视频扩散模型+插帧延展+强化学习动作优化，支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**：国内首个对标谷歌Genie 3的开源模型，支持25 FPS实时生成分钟级交互视频，数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**：单图像生成全景视频并还原三维空间，对标李飞飞World Labs，适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**：2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext，联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略：采用渐进式双任务强化策略优化SD3.5-Medium架构，降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**：多模态深度调研智能体整合图片检索与生成，自动插入图文混合文档；浏览器智能体支持社媒多模态分析（如小红书、Instagram） [37][38][44] - 技术手段：端到端强化学习（GRPO算法）、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**：中文音乐生成模型在音色、情感表现上超越Suno v4.5，优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**：基于MoE的语音合成框架，通过自然语言描述精准控制声音特征，域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**：2023年确立"All in AGI与AIGC"战略，2024年研发费用15.4亿元（同比+59.5%），研发团队占比73.41% [66][67][73] - **垂直领域聚焦**：CEO方汉强调垂直Agent与高频应用场景的价值，如数字人直播（国内市场规模近十万亿）、游戏引擎、具身智能等 [70][76] - **开源生态**：通过开源建立技术话语权，推动"技术-社区-应用"正向循环，强化行业地位 [78]

Artificial Intelligence

Artificial Intelligence

MoE - TTS