Multimodal Fusion - 财报，业绩电话会，研报，新闻

Multimodal Fusion

搜索文档

MINIMAX(00100) - 2025 Q4 - 业绩电话会

Invalid Date

财务数据和关键指标变化 - 2025年全年收入为7900万美元，同比增长159% [13] - AI原生产品收入为5300万美元，同比增长143%；开放平台收入约为2600万美元，同比增长198% [13] - 2025年全年毛利润为2000万美元，同比增长437%；毛利率提升至25.4%，较2024年的12.2%提升了13个百分点 [17] - 2025年销售和营销费用同比下降40%；研发费用同比增长33.8%，但远低于收入增速 [17] - 2025年调整后净亏损为2.5亿美元，随着商业化推进和模型优化带来成本效率提升，调整后净亏损率显著收窄 [17] - 截至2026年2月，年度经常性收入已超过1.5亿美元 [17] 各条业务线数据和关键指标变化 - **大语言模型系列（M2系列）**：自M2发布以来，模型能力与采用率均显著提升。2026年2月，M2系列模型的平均日token消耗量是2025年12月水平的6倍以上，其中编程计划的token消耗增长了十倍以上 [9] - **视频模型（Hailuo）**：截至2025年底，视频模型已帮助全球创作者生成了总计超过6亿个视频 [10]。2026年2月，Hailuo视频生成模型的推理延迟较2025年12月水平降低了30%以上 [16] - **语音模型（Speech）**：截至2025年底，语音模型已帮助全球用户生成了总计超过2亿小时的语音 [10] - **AI Agent产品**：截至2026年2月底，专业用户已累计创建超过50,000个专家Agent [12]。公司内部AI Agent实习生已支持近90%的员工，应用于软件开发、数据分析等多个场景 [11] - **开放平台**：2026年2月的新用户注册量是2025年12月记录的4倍以上 [13] 各个市场数据和关键指标变化 - 2025年，国际市场收入占总收入的比例超过70% [15] - 开放平台的国际收入占其总收入的比例超过50% [15] - 截至2025年12月31日，公司累计服务了超过200个国家和地区的2.36亿用户，以及来自100多个国家和地区的21.4万企业客户和开发者 [14] - M2.5发布后，公司在国际市场获得强劲吸引力，吸引了大量新全球客户的兴趣，并与Google Vertex AI、Microsoft Azure AI Foundry等全球领先云提供商和AI原生云平台达成合作 [15] 公司战略和发展方向和行业竞争 - **战略定位**：公司正从一个大模型公司演变为AI时代的平台公司，其价值被定义为“提供的智能密度”乘以“token吞吐量” [19][20] - **技术路线**：公司自成立之初就专注于全模态模型研发，认为多模态融合是持续提升智能的根本前提，是少数在中国实现每个模态都达到领先水平的公司之一 [26][32][34] - **研发与产品**：公司坚持“模型+产品”双轮驱动，认为这构成了更强的竞争壁垒 [26]。公司注重研发效率而非单纯烧钱，通过敏捷的组织架构和跨模态能力复用，保持行业最快的迭代速度 [41][46] - **行业展望**：预计2026年智能水平将显著提升，特别是在软件开发（L4-L5级智能）、专业工作场所和多模态内容创作领域将出现新的技术挑战和市场机遇 [18] - **竞争差异化**：公司通过定义技术路线、打造差异化模型能力（如低延迟、高成本效益）来建立竞争优势，不追求在所有维度获胜，而是聚焦于能展现独特优势的模型能力 [42][43][45] 管理层对经营环境和未来前景的评论 - **市场空间**：AI市场并非零和游戏，每年的增量市场大于现有存量，也不是赢家通吃，只要拥有独特的差异化创新就有市场空间 [25] - **增长动力**：模型能力的突破推动了使用量的快速增长。M2.5发布后迅速登上OpenRouter排行榜首位 [9]。公司认为当前token消耗的爆炸式增长是长期趋势的开始，而非一次性红利 [50] - **未来机遇**：除了编程，办公生产力是比编程更大的市场，涉及数据分析、财务建模、演示文稿制作等无代码场景，市场渗透才刚刚开始 [40][41]。多模态创作将向可直接用于生产的中长内容生成发展 [18] - **成本效率**：得益于算法优化、算子实现和编解码工程的迭代改进，公司持续提升计算效率。截至2026年2月，M2文本模型系列每百万token的推理协同计算成本较2025年12月水平下降超过50% [16] 其他重要信息 - 公司于2025年第四季度发布了M2、M2.1和M2-her三个更新的大语言模型 [6]。M2-her在100轮对话测试中全球综合性能排名第一 [8] - 2026年2月发布了M2.5模型，在SWE-bench基准测试中创造了新的行业记录，效率比上一代M2.1提升了37% [8]。以每秒100个token的输出速度连续运行1小时成本仅为1美元，使得复杂Agent的运营在经济上可行 [8] - 2025年10月发布了视频模型Hailuo 2.3和更快的Fast模型，后者可将批量内容创作成本降低高达50% [9]。同期发布了针对语音Agent场景优化的语音模型Speech 2.6，支持超过40种语言 [10] - 2026年1月发布了MiniMax Agent 2.0，使Agent能直接访问用户本地工作区 [11] - 公司已成为OpenCode和KiloCode等领先编程平台的默认模型。Notion也于近期推出了M2.5作为其首个也是唯一一个开源模型选项 [16] - 公司内部AI原生组织演进加速，AI Agent的部署不仅缩短了工作流程，还帮助公司更清晰地定义下一代模型和Agent的研发重点 [56][57][58] 问答环节所有的提问和回答问题: 公司如何定义AI时代的平台公司，以及作为初创公司的MiniMax为何有机会成为这样的平台 [23] - **回答**: AI时代的平台公司是那些定义和推进新智能范式、并能够捕获范式转变所创造的产品和商业价值的公司 [19]。AI市场增量巨大且非赢家通吃，拥有差异化创新就有机会 [25]。公司的机会在于：1) 模型层：依靠长期积累和快速迭代，以及全模态战略在多模态融合趋势中的优势 [26]；2) 产品层：“模型+产品”形成高壁垒 [26]；3) 生态层：通过开放系统（如支持OpenClaw）降低用户门槛，助力生态快速增长 [27] 问题: 公司专注于多模态，而竞争对手可能先专注于单一模态再转向多模态，这是否会导致公司发展更慢 [31] - **回答**: 多模态融合是持续提升智能的根本前提，近期的行业模型已验证此趋势 [32]。公司的策略分为两个阶段：第一阶段用4年时间在各个单模态建立行业领先模型；第二阶段（当前）进行跨模态融合以取得更大突破 [33]。公司在全模态上的构建成本不高于其他初创公司，且每个单模态模型都已具备竞争力，甚至优于某些只专注于单一模态的公司 [35]。公司的技术判断和前瞻性定位在过去几年已得到持续验证 [35] 问题: 如何看待L4-L5级编程智能的到来，以及公司在此转型中的定位 [38] - **回答**: L4-L5级智能意味着从工具级（Agent）向同事级和组织级智能的演进 [38]。编程只是Agent已验证的最早生产力场景，办公生产力市场比编程更大，并将复制编程领域去年的快速进展 [39]。公司已在编程和Agent领域取得早期进展，并以行业最快的迭代速度（如从M2到M2.3仅用100天）证明了研发能力和规模处理能力 [41]。公司专注于定义能展现自身优势的模型能力（如低延迟、高成本效益），通过差异化赢得市场份额，并相信随着组织和资源规模扩大，能进一步巩固优势 [42][43] 问题: 在科技巨头、初创公司和开源模型并存的行业中，公司的竞争领域和优先事项是什么 [45] - **回答**: 公司的差异化在于：1) 战略定位：自始专注于通过全模态模型提升智能密度和扩展边界，并围绕模型智能密度构建可扩展的产品和业务，将资源集中在能创造差异价值的领域（例如，选择不开发通用的移动助手，而聚焦Hailuo和MiniMax Agent等产品）[45][46]；2) 研发效率：在AI时代，成功最终取决于智能提升的速度，这源于研发效率。公司将效率理念贯穿于算法优化、实验设计、迭代周期等研发各阶段，并利用敏捷组织结构和跨模态经验复用，以保持领先 [46][47] 问题: 2026年前两个月M2系列token消耗量达到去年12月的6倍，这是否为可持续的长期趋势开端 [49] - **回答**: 这被视为长期趋势的开端，而非一次性红利。行业增长往往呈阶梯式 [50]。下一波增长将受多个因素支撑：编程领域仍有巨大空间，并将从助手级工具向同事级协作者演进 [51]；工作场所场景市场更广阔，预计将复制编程领域的快速进展 [52]；多模态领域将通过生产更好的模型来显著降低采用门槛 [52]。公司有信心通过推动技术边界、打造更大生态来持续赢得关键领域，并将模型差异化、研发效率等转化为持久的组织竞争优势 [53] 问题: 内部AI Agent覆盖近90%员工带来了哪些洞察，如何反馈至产品和技术开发 [55] - **回答**: 公司旨在成为真正的AI原生平台公司 [56]。内部广泛使用AI Agent带来了两大影响：1) 提升速度与效率：工作动态从“人教Agent”转向“人观察Agent”，甚至Agent能带来惊喜，这缩短了组织工作流，加速了从模型迭代到客户服务的反馈循环，让员工能专注于更高价值的工作 [57]；2) 指导研发方向：内部部署暴露了当前最佳模型的不足，这些差距指明了最高经济价值所在，为下一代模型和Agent的研发明确了优先事项，使公司能更快定义新的模型目标 [58]。这已在公司内部形成积极飞轮，并有望成为关键竞争优势 [58]

MINIMAX(HK:00100)

Artificial Intelligence

Multimodal Fusion

Artificial Intelligence

Hailuo 2.3

Speech 2.6

Music 2.0

Artificial Intelligence

Multimodal Fusion

Artificial Intelligence

Hailuo 2.3

Speech 2.6

Music 2.0

AI能看懂细节了！IDEA研究院多模态目标检测模型DINO-XSeek，自然语言精准定位目标

量子位· 2025-03-06 16:29

文章核心观点 IDEA研究院发布基于多模态大语言模型的目标检测模型DINO - XSeek，结合视觉与语言理解，能精准定位复杂场景目标，解决传统模型矛盾，在多行业有广泛应用潜力 [1][2] 模型特点 - 结合视觉与语言理解，通过自然语言描述精准定位复杂场景目标，如识别工作的消防员和金色头发的人 [2][5][6] - 基于DINO - X统一视觉模型，融合多模态大语言模型推理与理解能力，能联合解析形容词和介词，让AI看懂细节 [7] - 参考ChatRex模型架构，采用检索式框架，先检测图像物体生成候选目标边界框，再由大语言模型检索相关对象 [10][11][12] - 能精准处理多实例指代任务，实现指代表达理解，为相关任务提供强大解决方案 [15] - 以“理解物体属性及关系”为核心，近似人类对复杂场景的理解能力，降低实际生产应用后置开发成本 [17][18] 应用场景工业制造与质检 - 安全合规检测，识别未佩戴护具或进入危险区域人员并触发警告 [19] - 质量检测，自动识别并分类零部件或成品缺陷，为工艺改进提供数据参考 [21] 智能家居与生活 - 危险行为识别，识别老人意外摔倒等状况并通知或警告 [23] 农业与食品 - 农作物检测，根据发育程度分类农作物，识别腐坏、病虫害侵染果实 [25] 自动驾驶 - 道路场景识别，标注道路图像目标，帮助自动驾驶汽车决策 [26] - 障碍物检测，标注障碍物保障行车安全 [28]

Artificial Intelligence

Multimodal Fusion

Referring Expression Comprehension

Artificial Intelligence

DINO-XSeek

Artificial Intelligence

Multimodal Fusion

Referring Expression Comprehension

Artificial Intelligence

DINO-XSeek