Workflow
Lightning Attention(线性注意力)
icon
搜索文档
刚刚,AI企业IPO最速纪录刷新!MiniMax的技术野心,价值超800亿港元
AI前线· 2026-01-09 11:37
公司上市与市场表现 - 公司于2025年1月9日挂牌上市,股票代码00100,成为全球从创立到IPO用时最短的AI企业,仅用时4年 [1] - 此次IPO计划发行约2540万股H股,开盘价235.4港元,上市后股价飙升超60%,市值超过820亿港元(约合人民币738亿元) [2] - IPO公开发售部分获得市场热烈追捧,超额认购倍数高达1209倍,投资者通过保证金方式认购的金额累计超过2533亿港元 [4] 用户与客户规模 - 截至2025年9月30日,公司累计个人用户超过2亿,覆盖200多个国家和地区 [3] - AI原生产品月活跃用户(MAU)约为2760万 [3] - 企业与开发者客户超过10万家 [3] 业务模式与收入结构 - 公司的ToC收入已经反超ToB收入,这在中国大模型公司中极为罕见 [1] - 相比行业其他公司以ToB与ToG为核心并已跑出稳健盈利能力的路径,公司展现出另一种取向,模型更强调产业化落地,并在ToC端取得了不错的成果 [9] 技术研发与核心成果 - 公司定位为技术驱动,最大的成本是研发成本 [6] - 2025年已通过至少两篇公开科研论文系统阐述其大模型架构与推理优化方案,核心成果包括基于Lightning Attention与MoE的超长上下文大模型MiniMax-01,以及针对推理计算效率优化的模型MiniMax-M1 [7] - 2024年初,在稠密模型为主流的背景下,公司率先推出了中国首个混合专家系统大模型abab6,比竞争对手早了约一年 [8] - 在行业普遍依赖Softmax Attention时,公司开始在模型中大量引入自研的Lightning Attention,具体做法是在每8层模型结构中,只保留1层传统注意力,其余7层改用线性注意力,以降低长上下文推理的计算压力 [8] - 该技术改动使模型在面对超长文本、长代码或多轮复杂推理时,不再随上下文变长而指数级变慢,与MoE架构叠加后进一步放大了效率优势 [9] - 截至上市前近一年,公司完成了从MoE架构探索到基础大模型开源,再到高级推理模型的连续迭代 [10] - 以MiniMax-01系列为例,模型总参数规模达数千亿量级,但单个token实际参与计算的参数仅为几十亿,使得模型可在控制成本的前提下原生支持百万级乃至更长的上下文窗口 [10] 产品矩阵与市场地位 - 围绕自研大模型,公司已形成包括MiniMax Agent、海螺AI、MiniMax语音、星野以及开放平台在内的产品矩阵 [10] - 在海外市场已有实质进展,产品和服务覆盖200多个国家和地区,累计触达超过2.12亿名个人用户,并服务超过13万家海外企业与开发者 [10] - 按2024年基于模型的收入计算,公司是全球第四大pure-play大模型技术公司,也是全球第十大大模型公司,覆盖文本、视觉、音频、视频的全模态模型体系 [10] 最新技术进展与竞争力 - 2025年12月23日,公司对外发布了最新旗舰级Coding & Agent模型M2.1 [11] - 在衡量多语言软件工程能力的Multi-SWE-bench测试中,M2.1模型在仅约100亿激活参数的前提下取得49.4%的成绩,超越了Claude Sonnet 4.5等国际顶尖竞品,拿下全球SOTA [12] - M2.1模型的关键变化在于其能力边界首次延伸至更完整的后端开发规范,旨在补足过去模型在工程能力上的短板 [14] - 公司选择了一条更偏效率驱动的技术路线,其Lightning Attention + MoE的投入旨在解决如何在成本可控的前提下,把上下文和工程复杂度拉到“真实软件世界”的尺度 [22] - 对于Coding模型,长上下文被视为入场券而非加分项,M2.1的表现回应了Claude Codex的“主战场”,即完成跨语言、跨模块、带验证的软件工程任务 [22] 团队构成与背景 - 截至2025年9月底,公司员工385人,平均年龄29岁,研发人员占比近74%,董事会平均年龄32岁 [15] - 核心团队由来自商汤科技、全球一流高校和顶级科研机构的技术骨干组成 [15] - 创始人闫俊杰拥有东南大学本科、中科院自动化所博士及清华博士后背景,曾担任商汤副总裁与研究院副院长 [16] - 联合创始人杨斌具备加拿大博士及Uber ATG与国际初创工程经验;周彧聪则是商汤早期算法团队核心成员 [18] - 团队多数成员来自AI与深度学习前沿领域,在NLP、语音、视觉、生成模型等方向拥有丰富经验和多项全球发明专利 [19] 研发投入与财务状况 - 公司研发投入在过去三年持续攀升:2022年为1060万美元,2023年增至7000万美元,2024年进一步扩大至1.89亿美元 [23] - 截至2024年及2025年9月30日止的九个月,研发开支分别达到1.387亿美元和1.803亿美元,相关投入主要用于模型训练过程中产生的云服务费用 [23] 行业竞争与挑战 - 公司尚未实现整体盈利,在全球AICoding市场需直面与Claude Codex的直接竞争 [21] - Claude Codex由Anthropic公司推出,上线仅6个月已创造近10亿美元年化营收 [21] - 在头部云厂商和海外独角兽的夹击之下,公司同时承受着ToB与ToC两个市场的竞争压力 [24] - 模型技术仍在快速演进,上市只是把比赛带入了下一个赛段 [25] - 公司曾基于对自身交付能力的判断放弃过一些ToB订单,若ToB领域的工程化交付当下不是其“长板”,则短期来看只剩“技术登顶”一条路能帮助公司走到终局 [25]