Minimax M2
搜索文档
深度|Hugging Face联创:中国模型成初创公司首选,开源将决定下一轮AI技术主导权
Z Potentials· 2025-11-28 10:52
2025-2026年AI行业宏观趋势 - 行业呈现算力向少数核心参与者集中的趋势,算力是2026年的关键话题[7] - 开源社区涌现大量新参与者,中国新实验室训练出优秀模型成为重要现象[7] - 美国出现“开源重新兴起”现象,是对中国AI发展的反应,出现估值数十亿美元的新公司如Reflection[9] - 探索全新AI使用场景的初创公司倾向于从中国开源模型开始,以突破闭源模型的限制[9] - 在AI模型分析榜单中,排名第五的Minimax M2是表现强劲的开源模型[12] 大语言模型规模扩展的局限性 - LLM的泛化能力比预期弱得多,当前秘诀是尽可能多地对数据进行标注和在不同环境做强化学习[15] - 现有技术会遇到天花板,难以实现超级智能的跨越式提升,即模型做到“人做不到的事”[15] - 依赖不断标注数据、缓慢推动边界的方式,很难让AI具备定义新研究问题、挑战旧有假设的能力[18] - AI模型被训练成“唯唯诺诺的队伍”,会说“Yes”但不会提出好问题,缺乏真正创新能力[20] - 在数学领域,AI未能提出能让数学家投入数年研究的猜想,如费马大定理级别的创造力[22] AI行业估值与资本投入 - 尽管存在泡沫,但巨量资本投入可能催生意料之外的真正突破[25] - 资本投入可提升模拟环境的精确度和质量,从而间接推动科学进步[29] - AI需求推动GPU变得更强、更便宜、规模更大,这些GPU也将受益于科学模拟和工程领域[30][31] - 模拟和AI之间可能形成真正的“飞轮效应”,共同滚动发展[32] 开源与闭源的博弈 - 公司选择开源与否是吸引人才的重要策略,在西方做闭源更有吸引力,在中国则闭源实验室难挖到最优秀的人[36][37] - 开源模型便于调整、试验、定制,能更好地处理数据隐私场景,并提供部署自由度和可控性[39][40] - NVIDIA是Hugging Face上最大的开源模型和数据集贡献者之一,具备训练全球前两名模型的能力[43] - 在偏自由资本主义体系下,开源是美国构建健康AI生态的最佳方式[43] Hugging Face业务与战略 - 公司运营效率高,上一轮超2亿美元融资资金尚未动用,团队约250人,规模节制[46][47][48] - 业务从咨询服务转向推出Hub企业版,具备访问控制、权限管理等生产级安全需求,已有数千个组织使用[49][50] - 核心方向是服务“AI构建者”,企业版产品是未来长期重要、规模很大的产品[51] - 收购Humanoid Robotic并发布机器人Ritchie,旨在构建机器人领域的开源AI社区[52][53] - 发布售价100美元的SU-100机械臂和桌面型机器人Ritchie Mini,专注于探索人机交互方向[57][58][59] - 机器人产品卖出约150万美元,预计一个月内发货给用户[59][60]
K2 Thinking再炸场,杨植麟凌晨回答了21个问题
36氪· 2025-11-12 21:35
文章核心观点 - 月之暗面发布万亿参数开源模型K2 Thinking,在推理和任务执行等前沿能力基准测试中表现优异,甚至在某些榜单上超过GPT-5 [15] - 公司采取专注Agentic能力的策略,通过长思维链和高效工具调用设计,旨在让AI真正完成复杂任务而非仅用于聊天 [21][22] - 在芯片等基础设施受限的背景下,国产大模型通过算法创新加速发展,各厂商根据自身商业目标选择不同的技术路线,形成差异化竞争格局 [29][31][32] K2 Thinking模型技术特点 - 模型为1万亿参数的稀疏混合专家架构,实际运行时激活参数控制在300亿,平衡了性能与速度 [14][21] - 采用INT4量化手段,百万token输出价格仅为2.5美元,是GPT-5价格的四分之一,具备显著成本优势 [16] - 核心长板为长程执行能力,可连续执行200-300次工具调用来解决复杂问题,保证任务连续性 [22][56] - 通过端到端智能体强化学习训练,实现了交错“思考-工具”模式的稳定运行,这是大语言模型中相对较新的挑战 [56][57] 模型性能与市场定位 - 在高难度测试集HLE和BrowseComp等Agent榜单上,分数超过了GPT-5 [15] - 市场定位为GPT-5和Claude Sonnet 4.5的“平替”,专注于将文本模型能力做到极致,探索智能上限 [16][32] - 团队选择性能优先的策略,暂时不太考虑Token消耗效率,以确保Agent更可用 [21][32] 训练成本与硬件配置 - 团队澄清460万美元训练成本“不是官方数字”,强调主要成本在于研究和实验,难以量化 [8][34] - 训练在配备Infiniband的H800 GPU上进行,虽在GPU数量上处于劣势,但将每张显卡性能压榨到极致 [29][37] 技术路线与行业趋势 - 国产大模型在算法创新上加快进程,月之暗面、智谱、MiniMax等厂商接力开源,在全球榜单上表现亮眼 [17][29] - 面对长上下文处理问题,各厂商选择不同路径:MiniMax M2回退到全注意力机制求稳定;月之暗面则采用更激进的KDA+MLA混合架构 [31] - 中国开源模型的应用生态正在形成优势,吸引海外开发者构建应用并提供反馈,预计将带来更多应用爆发 [33] 未来发展规划 - 下一代K3模型计划引入重大架构更改,KDA实验架构的相关想法很可能被采用 [62] - 公司重心仍在模型训练,暂无计划推出AI浏览器类产品,认为做好模型无需再做浏览器“壳” [63][64] - 公司拥抱开源策略,相信AGI应是导致团结的追求,并考虑开源安全对齐技术栈以惠及社区 [65][66] - 未来会重新审视更长的上下文窗口,并可能发布更多如Kimi Linear的小模型作为研究演示 [44][45][46]
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
36氪· 2025-10-28 10:12
模型性能与排名 - 在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得开源模型第一,总排名第五 [1][7] - 该测试使用了10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等 [7] - 在AIME25测试中得分为78,在MMLU-Pro测试中得分为82,在GPQA-Diamond测试中得分为78 [8] 核心技术特点 - Minimax M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅有10B [4] - 模型采用了交错的思维格式,使其能够规划和验证跨多个对话的操作步骤,这对Agent推理至关重要 [6] - 模型在预训练阶段未采用滑动窗口注意力或线性注意力,而是使用全注意力机制,以避免性能损失 [40][45] 成本与效率优势 - 模型推理速度是Claude 3.5 Sonnet的两倍,API价格仅为Claude 3.5 Sonnet的8% [3] - 定价为0.3美元/2.1人民币每百万输入Token,1.2美元/8.4人民币每百万输出Token [8] - 在线推理服务的速度可达每秒100 Token [12] 应用与开发生态 - 模型专为智能体和编程而生,表现出对复杂、长链工具调用任务的出色规划和稳定执行能力 [3][6] - 支持Shell、浏览器、Python代码解释器和各种MCP工具的调用 [6] - Minimax已将M2部署到Agent平台限时免费使用,平台上展示了许多Agent的现成作品,如网页应用、游戏和PPT生成等 [23][29][30][32][34] 市场定位与竞争对比 - 公司表示,智能水平、速度和成本在过去被视为“不可能三角”,但随着M2的出世,这个三角被打破 [3] - 在工具使用和深度搜索能力上不逊于海外顶尖模型,编程能力在国内名列前茅 [6] - 相比于Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2等模型,M2具有极高的Win+Tie比例,同时成本非常低廉 [14]
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
量子位· 2025-10-28 09:18
模型性能与排名 - 在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得开源模型第一,总排名第五[2][14] - 测试涵盖10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等[15] - 在具体数据集表现上,M2在AIME25得分为78,MMLU-Pro得分为82,GPQA-Diamond得分为78,LiveCodeBench得分为83[16] 技术架构与特点 - M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅为10B,网友称10B激活参数运行起来会非常快[9][10] - 模型采用交错的思维格式,使其能够规划和验证跨多个对话的操作步骤,这对Agent推理至关重要[11] - 技术细节显示M2使用全注意力机制,未采用滑动窗口注意力或Lightning Attention,因测试发现这些会造成性能损失[45][46][51] 成本与效率优势 - M2的推理速度是Claude 3.5 Sonnet的两倍,API价格仅为Claude 3.5 Sonnet的8%[5][6] - 具体定价为输入Token每百万0.3美元/2.1人民币,输出Token每百万1.2美元/8.4人民币[16] - 在线推理服务速度可达每秒100 Token,以速度衡量的性价比表现突出[20] 智能体与编程能力 - 模型专为智能体和编程而生,表现出对复杂、长链工具调用任务的出色规划和稳定执行能力[4][12] - 支持Shell、浏览器、Python代码解释器和各种MCP工具的调用,在工具使用和深度搜索方面不逊于海外顶尖模型[12] - 在智能体、全站开发和Terminal Use三项任务比拼中,M2相对于Claude Sonnet 4.5等模型有极高Win+Tie比例[23][24] 应用生态与平台部署 - Minimax已将M2部署到Agent平台并限时免费使用,免费期直到服务器扛不住为止[7][32] - 平台展示了许多Minimax Agent现成作品,包括网页应用、经典游戏复刻、在线五子棋平台等[35][36][38][40] - 网友实战案例显示,通过三轮反馈即可完成足球小游戏制作,应用效果非常不错[42][43]