Workflow
Open Source Model
icon
搜索文档
MiniMax深夜致歉,开源大模型M2登顶引发全球热潮
第一财经· 2025-10-30 15:47
模型发布与市场反响 - MiniMax发布全新模型MiniMax M2并依据MIT协议全面开源其完整权重 [1] - M2模型发布后访问量远超预期,平台一度因访问过载导致服务成功率降至约90%,经扩容后恢复至约99%的稳定水平 [4] - M2已登上OpenRouter全球调用量第5位及国内模型第1位,并位列Hugging Face Trending榜单第2位 [5] 模型性能与技术特点 - M2在权威测评榜单Artificial Analysis中取得全球第五、开源第一的成绩,其智能水平接近GPT-5(high)与Claude Sonnet 4.5等顶级模型 [7] - M2总参数约2300亿,单次激活约100亿参数,采用全注意力+MoE架构,专注于代码生成、工具调用等可执行型Agent任务 [15] - 在模型性能、推理速度与成本的综合平衡上表现突出,在'性能、速度、成本'的不可能三角中找到了平衡点 [10] 核心能力表现 - 在代理能力方面,M2能够出色地规划并执行复杂的工具链,协同调用Shell、浏览器、Python代码执行器等工具,并具备自我纠错与恢复能力 [10] - 在编程能力方面,M2具备强大的端到端开发能力,包括多代码文件处理、执行"编码-运行-调试"的完整循环 [10] - 在深度搜索能力方面,M2在Xbench-DeepSearch基准上全球前二、仅次于GPT5,在金融搜索基准FinSearchComp-global上全球前二、仅次于Grok4 [11] 产品定位与迭代路径 - 相较于前代模型M1(总参数约4560亿,激活约459亿参数)专注于长文本和复杂推理,M2完全面向Agent时代的执行任务 [12][13][14][15] - M2在设计路线上放弃了M1的混合注意力机制,选择了全注意力+MoE路线,以更好地应对Agent场景中多步骤、长链条的复杂推理 [14][15] - 公司当前将M1和M2视为平衡不同场景的两类模型:M1强调"能想很久、能读很长",M2强调"能执行、且便宜" [15] 商业模式与产品生态 - 公司维持全球范围的限时免费开放策略,为开发者提供高性能的Coding与Agent能力 [5] - M2模型的输入侧费用为每百万Token约0.30美元,输出侧为每百万Token约1.20美元,约为Claude 4.5 Sonnet价格的8% [15] - 公司自研的Agent产品已全面切换到M2模型驱动,并推出专业模式(擅长全栈开发/deep research/PPT制作)和高效模式(擅长chat问答/轻量级搜索/轻量级代码)两种模式 [16]
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
36氪· 2025-10-28 10:12
模型性能与排名 - 在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得开源模型第一,总排名第五 [1][7] - 该测试使用了10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等 [7] - 在AIME25测试中得分为78,在MMLU-Pro测试中得分为82,在GPQA-Diamond测试中得分为78 [8] 核心技术特点 - Minimax M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅有10B [4] - 模型采用了交错的思维格式,使其能够规划和验证跨多个对话的操作步骤,这对Agent推理至关重要 [6] - 模型在预训练阶段未采用滑动窗口注意力或线性注意力,而是使用全注意力机制,以避免性能损失 [40][45] 成本与效率优势 - 模型推理速度是Claude 3.5 Sonnet的两倍,API价格仅为Claude 3.5 Sonnet的8% [3] - 定价为0.3美元/2.1人民币每百万输入Token,1.2美元/8.4人民币每百万输出Token [8] - 在线推理服务的速度可达每秒100 Token [12] 应用与开发生态 - 模型专为智能体和编程而生,表现出对复杂、长链工具调用任务的出色规划和稳定执行能力 [3][6] - 支持Shell、浏览器、Python代码解释器和各种MCP工具的调用 [6] - Minimax已将M2部署到Agent平台限时免费使用,平台上展示了许多Agent的现成作品,如网页应用、游戏和PPT生成等 [23][29][30][32][34] 市场定位与竞争对比 - 公司表示,智能水平、速度和成本在过去被视为“不可能三角”,但随着M2的出世,这个三角被打破 [3] - 在工具使用和深度搜索能力上不逊于海外顶尖模型,编程能力在国内名列前茅 [6] - 相比于Claude Sonnet 4.5、GLM 4.6、Kimi-K2以及DeepSeek V3.2等模型,M2具有极高的Win+Tie比例,同时成本非常低廉 [14]
投资人查马斯:公司已在使用中国开源大模型
环球网· 2025-10-11 19:12
行业趋势:开源与闭源模型路线对比 - 中国开源AI模型(以DeepSeek、Kimi和Qwen为代表)正在挑战美国闭源模型(如OpenAI和Anthropic)的领先地位 [1] - 硅谷知名风险投资公司Social Capital已将大量工作需求转移到中国模型Kimi K2上,因其性能强且成本显著低于美国同类产品 [1] - 美国闭源模型Anthropic被评价为技术确实厉害,但运营成本过高,即“真的太烧钱” [1] 市场影响与行业标杆 - 《All in》播客由查马斯等四位硅谷重量级人物创办,是全球最具影响力的科技与投资类播客之一,被视为全球创业者和投资人的风向标 [3] - 播客主持人查马斯在2020年接连推动维珍银河等明星公司上市,被美国媒体称为“美国SPAC之王” [3]
蚂蚁开源2025全球大模型全景图出炉,AI开发中美路线分化、工具热潮等趋势浮现
搜狐财经· 2025-09-14 22:39
大模型开源开发生态全景 - 报告收录22个技术领域114个最受关注开源项目 分为AI Agent和AI Infra两大技术方向[1] - 62%开源项目诞生于2022年10月之后 平均年龄仅30个月 体现高速迭代特性[1] - 全球36万开发者参与 美国占比24% 中国占比18% 中美合计贡献超四成核心力量[1] 中美开源策略差异 - 中国厂商更倾向开放权重开源模型路线 美国头部厂商多采用闭源模式[1] - 中国在积木共享上的积极性让全球生态更具活力[1] AI编程工具发展 - AI编程工具呈现爆发式增长 主要分为命令行工具和集成开发环境插件两类[1] - 2025年新出现Coding工具平均获得3万以上开发者Star关注[1] - Gemini CLI开源3个月星标数突破6万 成为增长最快项目之一[1] 开发效率提升路径 - 模型厂商从命令行工具切入 注重用户体验团队从集成开发环境入手[2] - 未来程序员将更多重复性工作交给AI工具 聚焦创意设计和复杂问题解决[2] 大模型发展趋势 - 大模型发展呈现中美开源闭源路线分化 MoE架构下参数趋于规模化[4] - 基于强化学习提升Reasoning能力 多模态模型进一步成为主流[4] - 模型评价方式发展出基于主观投票和客观评测的不同模式[4]
阿里“通义千问”成为日本AI开发基础
日经中文网· 2025-05-07 10:45
阿里云通义千问模型在日本市场表现 - 通义千问在日经4月发布的"AI模型评分"榜中位列第6,超过中国DeepSeek模型,在113个模型中表现突出[1][3] - 作为开源模型,通义千问被日本新兴企业广泛采用,包括ABEJA、ELYZA、Lightblue和Axcxept等公司[1][4] - 基于通义千问开发的"ABEJA-Qwen2.5-32B"模型在日本企业中排名最高,总体排名第21位[3] 通义千问技术性能 - "Qwen2.5-Max"模型在逻辑推理和数学方面表现优异,基础语言能力和综合评分位居前列[3] - 开源版本"Qwen2.5-32B"排名第26位,超过谷歌的Gemma-3-27B(第32位)和Meta的Llama-3-70B-Instruct(第57位)[3] - 最新发布的Qwen3模型数据Token数量达36万亿,是Qwen2.5的两倍,支持119种语言和方言[6] 日本市场应用与扩展 - 通义千问因能以较少数据集实现高精度,在日语能力指标上获得高度评价[4] - 阿里云计划在日本提供本地化部署服务,确保数据不转移至海外[5] - 公司目标3年内将在日本使用通义千问的项目增加到1000个以上[6] 全球影响力与行业地位 - 在Hugging Face平台上已有超过10万个通义千问派生模型[5] - 中国开放模型整体性能紧追美国企业如OpenAI,形成持续竞争态势[6] - 深度求索等中国新兴企业的开放模型也在行政、汽车、金融等行业广泛应用[6]