Workflow
MiniMax M2.1
icon
搜索文档
MiniMax M2.1 登顶多语言编程 SOTA,IPO 前夕秀硬核研发实力
格隆汇· 2025-12-24 17:30
公司动态与产品发布 - 公司于2025年12月24日正式发布最新旗舰级Coding & Agent模型M2.1 [1] - 该模型以10B激活参数在Multi-SWE-bench榜单中取得49.4%的成绩,超越Claude Sonnet 4.5等国际竞品,拿下全球SOTA [1] - M2.1模型在10月底推出的M2模型基础上,聚焦更多编程语言和办公场景的可用性 [1] 公司技术实力与市场地位 - 公司自2022年初成立即专注全模态模型自研,是目前“全球唯四全模态进入第一梯队”的大模型公司 [1] - 公司被定义为全球领先的通用人工智能(AGI)公司 [1] - 此次发布的技术迭代和研发效率被视为公司冲刺港股IPO最好的路演 [1] 产品性能与特点 - M2.1模型具备卓越多编程语言能力、Web&移动端开发能力兼备、复合指令约束提升等诸多能力 [1] - 模型收获国内外开发者一致好评 [1]
实测MiniMax M2.1之后,我们终于看懂了其招股书里的技术底气
新浪财经· 2025-12-24 15:57
公司财务与上市进展 - 公司已正式向港交所递交招股书,启动上市进程 [1] - 截至招股书披露时,公司账上现金储备超过10亿美元 [1] - 2025年前九个月,公司营收同比增长174.7% [1] - 2025年前九个月,公司经调整净亏损为1.86亿美元 [1] - 2025年前九个月,公司研发支出同比增长约30%,远低于174.7%的营收增速,显示出高效的研发杠杆率 [17][18][19] 核心技术发布:MiniMax M2.1模型 - 公司在递交招股书后迅速发布了新一代模型MiniMax M2.1 [1][7] - M2.1在多语言编程评测SWE-bench Multilingual中获得72.5%的分数,超越了Gemini 3 Pro和Claude Sonnet 4.5,达到SOTA水平 [2][3] - 模型编程能力从Python扩展至Rust、Java、Go、C++、Kotlin、Obj-C、TS及JS等多种后端语言 [2][4] - 模型在原生Android与iOS应用开发能力上获得重大升级 [2][4] - 模型响应速度更快,推理更简洁,并显著降低了token消耗 [2][7] - 模型具备强大的交错思维与指令跟随能力,擅长集成复合指令约束,可胜任办公自动化等复杂任务 [2][6] 新基准与性能表现 - 公司为评估应用开发全栈能力,构建并开源了全新基准VIBE [4] - VIBE基准涵盖Web、仿真、Android、iOS及后端五大核心子集,并采用创新的Agent-as-a-Verifier范式进行自动评估 [4] - 在VIBE基准测试中,M2.1平均得分为88.6分,显著优于M2的67.5分和Claude Sonnet 4.5的85.2分,并逼近Claude Opus 4.5的90.7分 [5][6] - 在各子项得分上:VIBE-Web为91.5,VIBE-Simulation为87.1,VIBE-Android为89.7,VIBE-iOS为88.0,VIBE-Backend为86.7 [6] 技术实测与开发者体验 - 实测显示M2.1能够快速理解复杂需求并生成项目规划,如在不到6分钟内完成一个多世界穿越主题的“虾仁模拟器”小游戏初始构建 [10][11] - 模型具备良好的审美能力,能根据“像素风格、莫兰迪色系”等要求生成美观的网页UI [11][12] - 在涉及Rust、Go、React+TypeScript+Three.js的多模块复杂全栈任务中,模型能像成熟工程师一样进行多轮交互、调试报错并最终完成系统集成 [13][14][17] - 模型展现出强大的代码重构和问题解决能力,例如将C++游戏库重构为Python版本、修改Obsidian插件等 [17] 商业战略与市场定位 - 公司通过M2.1的发布,展示了从擅长语音、视频生成和角色扮演的“特长生”,向补齐编程和逻辑推理短板的“全能型”模型的战略性进化 [10][19] - 技术迭代速度与招股书中的高效研发指标形成互文,旨在向市场证明其商业模式的可扩展性 [7][19] - 公司的商业雄心在于从C端应用渗透至B端生产力场景,通过强化模型的代码解释器和工具调用能力,以应对企业级工作流的自动化需求 [20][21] - 公司致力于构建商业闭环:C端产品(如星野、海螺AI)作为数据飞轮和现金牛;底层模型通过MoE架构控制成本并提升能力上限;开放平台基于模型能力切入高价值企业市场 [21][23]
实测MiniMax M2.1之后,我们终于看懂了其招股书里的技术底气
机器之心· 2025-12-24 15:40
公司财务与运营状况 - 公司于12月21日正式向港交所递交招股书,披露其账上现金储备超过10亿美元[1] - 2025年前九个月,公司营收同比增长174.7%,同时经调整净亏损控制在1.86亿美元[1] - 2025年前九个月,公司研发费用同比增长约30%,远低于174.7%的营收增速,显示出高效的研发模式[28][32] - 公司研发成本结构具有可扩展性,研发投入增速未随营收规模同比例膨胀[32] - 公司2025年前九个月实现毛利1.2476亿美元,毛利率为23.3%[31] 核心技术发布:MiniMax M2.1模型 - 公司于12月23日正式上线MiniMax M2.1模型,这是一次重要的技术迭代[2] - M2.1在多语言编程能力上取得突破,在SWE-bench Multilingual评测中以72.5%的成绩达到SOTA,超越了Gemini 3 Pro和Claude Sonnet 4.5[3][4] - 模型支持包括Rust、Java、Go、C++、Kotlin、Obj-C、TS和JS在内的多种后端语言,旨在解决代码“跑不通”和“缺乏工程感”的痛点[3][5] - M2.1大幅强化了原生Android和iOS的开发能力,并提升了网页美观度与科学模拟功能[3][6] - 模型具备更快的响应速度、更简洁的推理以及显著降低的token消耗[3][9] - 模型拥有强大的交错思维与指令跟随能力,能集成“复合指令约束”,胜任办公自动化等任务[3][7] 技术基准与评估 - 公司构建并开源了全新基准VIBE,用于评估应用开发中的执行能力,涵盖Web、仿真、Android、iOS及后端五大核心子集[6] - 在VIBE基准测试中,M2.1平均得分为88.6分,显著优于Claude Sonnet 4.5的85.2分,并逼近Claude Opus 4.5的90.7分[6][7] - 在各子集测试中,M2.1在VIBE-Web得91.5分,VIBE-Android得89.7分,VIBE-iOS得88分,VIBE-Simulation得87.1分,VIBE-Backend得86.7分[7] 模型实测与开发者体验 - 实测表明,M2.1能够快速理解复杂需求并规划项目,例如在不到6分钟内完成一个“虾仁模拟器”小游戏的初步构建[17] - 模型具备良好的审美能力,能根据要求开发出具有特定风格(如像素风、莫兰迪色系)且支持深/浅色模式切换的网页UI[18][19] - 在多语言编程的复杂任务中,M2.1能够通过多轮互动解决问题,理解报错信息并自动完成修复,还能编写单元测试[21] - 模型能够连接使用不同语言(如React前端、Go网关、Rust核心程序)编写的模块,展现出全栈工程能力[22][30] - 实测项目还包括代码库重构、插件修改、工具开发等,证明模型能像成熟工程师一样解决问题[23][24] 技术迭代的战略意义与商业逻辑 - M2.1的发布是对公司招股书中高效研发数字指标的有力诠释,展示了其快速的技术迭代能力[9] - 此次更新是一次针对性的进化,旨在补齐公司在编程和逻辑推理方面的短板,支撑其AGI蓝图[13][14] - 公司正从C端应用(如星野、海螺AI)向B端生产力场景渗透,M2.1对代码和工具调用能力的强化旨在满足企业级工作流自动化需求[33] - 公司的商业闭环包括:C端产品作为数据飞轮和现金牛;底层模型控制成本并提升能力上限;开放平台切入高价值企业市场[34] - 公司形成了“左手账本,右手模型”的双轮驱动模式,将资本市场与技术探索相结合[35]
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA
量子位· 2025-12-23 21:40
文章核心观点 - MiniMax发布最新旗舰级Coding & Agent模型M2 1,在多项基准测试中取得SOTA成绩,特别是在多语言软件工程和复杂后端开发能力上实现显著突破 [1][2][5] - M2 1的发布旨在证明公司在推进上市流程的同时,仍保持高频研发节奏,并通过展示其模型的工程实用性与研发效率,为IPO进行“硬核自证” [6][50][59] 模型性能与技术突破 - **多语言软件工程能力SOTA**:在Multi-SWE-bench榜单中,M2 1以仅100亿激活参数取得49 4%的成绩,超越了Claude Sonnet 4 5等国际竞品 [2] - **解决“学科偏科”问题**:模型突破了过去在涉及后端架构或底层逻辑时表现断崖式下跌的难题,掌握了后端开发规范 [4][5] - **工程上下文理解与工具链适配**:模型能将工程理解转化为对开发工具链的深度适配,不仅能生成代码,还能配合Cursor、Claude Code等主流工具在存量代码库中执行精准修复或重构 [7][8] - **系统性多语言能力提升**:模型系统性提升了Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript等语言的能力 [9] - **移动端开发能力加强**:针对业界普遍存在的移动端开发短板,显著加强了原生Android与iOS开发能力 [10][47] - **引入Interleaved Thinking**:模型能同时关注代码执行正确性与对“复合指令约束”的整合执行能力 [10] - **出色的泛化性**:在Claude Code、Droid(Factory AI)、Cline等各类编程工具与Agent框架中均有出色表现 [10] 基准测试成绩 - **VIBE基准综合表现**:在全新的VIBE测试基准中,M2 1取得88 6的平均分,综合水准逼近Claude Opus 4 5 [10] - **各子项得分详情**: - VIBE-Web: 91 5分 - VIBE-Simulation: 87 1分 - VIBE-Android: 89 7分 - VIBE-iOS: 88 分 - VIBE-Backend: 86 7分 [11] - **与前代及竞品对比**:M2 1的VIBE平均分较其前代M2的67 5分有大幅提升,并在多个子项上超越或接近Claude Sonnet 4 5、Claude Opus 4 5及Gemini 3 Pro [11] 实际应用案例演示 - **H5小游戏分阶段开发**:通过“星际弹弓”游戏案例,演示模型能根据分阶段、迭代的需求(如增加黑洞引力、添加视觉特效等)生成并修改代码,且最终代码满足所有要求 [12][13][14][15][17][19][22][24][25][26] - **跨语言代码迁移**:能够将完成的网页版游戏逻辑成功迁移并重写为Python程序 [29][30] - **复杂后端系统设计**:使用Java语言,根据需求先输出详细的设计文档(包括类设计、关系图、权限矩阵、数据库表建议等),再生成完整可运行的后台权限分配系统代码,项目共1700多行代码 [33][34][35][37][38][40][41][42][43][44] - **小众语言与移动端开发**:官方案例显示,模型能用Rust打造CLI + TUI双模式的Linux安全审计工具,并能开发具备完整逻辑和原生交互动画的iOS桌面交互小组件 [45][48] 公司战略与研发背景 - **IPO前夕的战略展示**:在刚刚通过港交所聆讯的节点发布新模型,是一种展示技术实力的战略宣言 [50] - **纠正市场认知**:外界常因Talkie、海螺等产品将公司标签为擅长多模态交互,而M2 1的发布证明了其在文本模型的Coding与Agent领域同样具备强大实力 [51][52] - **高效的研发投入**:招股书披露,公司成立至今仅消耗约5亿美元便构建了全模态能力,研发效率极高 [53] - **高度AI化的内部实践**:公司内部超过80%的代码已由AI完成,M2 1本质上是内部长期服役的“AI实习生”的能力外溢,已在内部支撑385人团队的高强度迭代 [54][55] - **AI原生组织理解**:公司基于流程高度AI化的背景,形成了AI需要在更多岗位工种和更真实生产场景中创造价值的独特理解,这直接促成了M2 1的诞生 [56][57]
MiniMax M2.1:多语言编程SOTA,为真实世界复杂任务而生
第一财经· 2025-12-23 14:30
公司战略与产品迭代 - 公司MiniMax正以更加AI原生的方式改造自身,其核心驱动力包括模型、Agent脚手架和组织[1] - 公司开放了其模型部分的更新,推出MiniMax M2.1,旨在帮助企业及个人实现更AI原生的工作与生活方式[1] 产品更新与性能提升 - 在10月底发布的M2版本中,公司主要致力于解决模型成本和模型开放性的问题[1] - 在最新的M2.1版本中,公司致力于提升模型在真实世界复杂任务中的表现[1] - M2.1版本的重点是提升在更多编程语言和办公场景中的可用性,并力求在该领域达到最佳水平[1]