Workflow
混合专家(MoE)架构
icon
搜索文档
谁在消耗5万亿模型算力?
经济观察报· 2026-03-08 11:49
中国大模型调用量跃升与产业重心转移 - 2026年2月第二周,中国大模型在OpenRouter平台的单周调用量达到5.16万亿Token,三周内增长127%,历史上首次超越美国模型的2.94万亿Token [2] - 尽管平台用户中美国占47.17%,中国仅占6.01%,但该数据表明海外开发者对中国模型的使用意愿快速上升,标志着人工智能产业重心正从比拼训练成本转向高频、常态化的应用推理阶段 [2][3] - 当周全球大模型调用量排名前五中,中国模型(MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5与深度求索DeepSeek V3.2)占据四席 [2] 五万亿Token流向与应用模式变革 - Token消耗激增源于AI应用模式从“问答式”向“智能体(Agent)”模式切换,后者需在后台持续执行多步骤任务并携带完整对话历史,导致单次会话Token吞吐量呈几何级数增长 [6] - 根据《2025 AI使用报告》,OpenRouter平台处理的编程任务Token占比从2025年初的11%增至50%以上,成为最大单一使用品类 [6] - 多模态应用落地进一步推高消耗,例如Seedance 2.0视频模型生成一条10秒、1080p视频约消耗35万Token,是传统文本问答的数百倍 [7] - 数万亿Token调用主要由高频、规模化、可持续付费的商业应用支撑,买单领域集中在互联网、金融、跨境电商与娱乐行业 [8] 国产大模型承接需求的技术与成本优势 - 国产模型如MiniMax M2.5、Kimi K2.5普遍采用混合专家(MoE)架构,相比传统稠密模型,推理时显存占用降低约60%,吞吐量显著提升 [9] - MoE架构通过按需激活部分参数,在保持巨量参数的同时大幅降低单次推理所需有效算力 [10] - 中国模型具备显著成本优势:输入价格约为0.3美元/百万Token,而部分海外同类产品价格在5美元左右;中国西部算力节点电力成本约每度0.2元至0.3元,欧美地区则在1元至1.5元之间 [10] - 成本优势与需求爆发推动国产大模型厂商告别价格战,开始获得实打实业务收入,例如智谱AI宣布上调API调用价格,部分涨幅达30%至100%;月之暗面Kimi K2.5发布不到一个月,海外收入便超过国内收入 [12] 算力采购标准转向与国产芯片机遇 - 算力市场核心指标从抢夺计算卡转向核算单位产出成本,企业开始计算每投入一元钱能换取多少吞吐量,每消耗一瓦电能处理多少Token [14] - 行业进入推理阶段后,需求更聚焦能耗、稳定性和供应安全,这为国产AI芯片提供了切入窗口 [14] - 2026年推理型AI服务器在整体出货结构中的比重有望提升至44%,较2025年上升3个百分点 [15] - 推理型服务器对高端封装和高带宽内存的严苛要求有所下调,有利于中国本土企业在HBM受限情况下发展中等规模算力的推理芯片 [16] 国产算力基础设施升级与商业落地 - 企业智算中心预算投入结构改变,从集中于高端训练GPU集群转向更多采用推理优化型GPU、国产AI芯片或异构算力组合,软件平台、算力调度等占比提升 [17] - 行业进入系统级工程交付阶段,万卡集群的网络通信和散热能力比单卡“跑分”更具决定性 [17] - 国家超算互联网郑州核心节点部署了3套中科曙光提供的scaleX万卡超集群,最大可提供超3万张国产加速卡算力,是全国首个实际运营的3万卡国产AI算力池,验证了国产算力基础设施的工程化能力 [18] - 该算力系统已完成千款应用适配,超70%的国产新能源汽车在该平台进行流体和碰撞仿真实验 [19] 国产AI芯片厂商业绩与市场渗透 - 下游应用爆发倒逼上游基建升级,转化为国产芯片厂商业务收入,例如在中国移动总价值超50亿元的AI服务器集采中,华为昇腾系厂商斩获34亿元份额 [20] - 国产算力厂商业绩实现爆发性增长:寒武纪2025年营收增长453.21%至64.97亿元,实现上市以来首次年度盈利;摩尔线程、沐曦股份、海光信息2025年度业绩亦大幅提升 [20] - 根据伯恩斯坦报告,中国本土AI芯片品牌市场渗透率已从2024年的约29%提升至2025年的42%,国产算力正完成从边缘备选向市场首选的跨越 [21]
AI 上游涨价延续,中国大模型调用量首超美国
国金证券· 2026-03-05 08:45
报告行业投资评级 报告未明确给出行业投资评级 报告的核心观点 AI需求旺盛,上游供给紧张,涨价蔓延,硬件、模型、应用端均呈现积极信号,今年或将是国产算力链加速向上的元年 [9] 根据相关目录分别进行总结 一、产业前沿 AI 基础层:高端 GPU供给紧张,存储、云服务等环节涨价 - 美国“星际之门”AI数据中心项目进展缓慢,OpenAI因融资困难转向重度依赖云伙伴合作模式 [13] - 全球高端GPU(如B200、A100、H100)实时可用率持续大幅下滑,创下历史新低或多年最低水平,主因市场需求激增 [14][15] - 云计算定价迎来战略转折点,亚马逊AWS部分服务涨价约15%,谷歌云上调全球数据传输价格,国内厂商优刻得宣布全系云产品与服务价格上浮 [16][17] - 存储芯片市场供给严重短缺,苹果以高价采购NAND Flash和DRAM,后者接受三星报价涨价100% [17] - 中国芯片制造商计划在两年内将尖端工艺(7nm/5nm级)芯片产量提高五倍,以满足国内AI需求,中芯国际是主要参与者 [17] AI 模型层:OpenAI融资1100亿美元,中国模型调用量首次超过美国 - OpenAI宣布获得1100亿美元新投资,公司估值达7300亿美元,投资方包括软银、英伟达和亚马逊 [18] - OpenAI与亚马逊签署战略合作协议,将在现有380亿美元多年期协议基础上,未来8年内追加1000亿美元合作规模,并共同创建有状态运行时环境 [18][19] - 2026年2月9日至15日当周,中国模型的API调用量为4.12万亿Token,首次超过美国模型的2.94万亿Token,2月16日当周中国模型调用量进一步冲高至5.16万亿Token [20] - 全球调用量前五的模型中,中国占据四席,分别为MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5以及DeepSeek V3.2 [20] - 中国模型通过采用“混合专家”架构等技术大幅降低推理成本 [21] - DeepSeek在重大模型更新前,未向英伟达、AMD等美国芯片商提供早期访问,转而与华为等国内供应商合作适配 [21] AI 应用层:Gemini和Claude活跃度上升,Anthropic推出智能体AI工具 - 海外聊天助手应用中,Gemini和Claude活跃度持续上升 [22] - Anthropic推出旨在实现人力资源、投资银行等领域工作自动化的智能体AI工具Claude Cowork [22] 二、资本风向 AI 基础层:英伟达25Q4财报良好,Meta将使用AMD、Google的AI芯片 - 英伟达2025年第四季度营收680亿美元,同比增长73%,数据中心收入620亿美元,同比增长75% [24] - 英伟达第四季度GAAP毛利率为75%,网络业务收入110亿美元,同比增长超过3.5倍 [24][25] - 英伟达给出2026年第一季度营收指引780亿美元,超市场预期 [24] - NVIDIA GTC 2026大会将首次公开下一代Feynman芯片,该芯片将搭载全球首款台积电1.6nm制程工艺 [27] - AMD与Meta签署多年协议,将提供高达6吉瓦的AI算力,协议金额或达数百亿至上千亿美元 [28][35] - Meta已与谷歌达成价值“数十亿美元”的协议,将在未来数年租用谷歌TPU开发新AI模型 [30] - 谷歌正通过金融化方式(如与投资机构成立合资公司)加速TPU外部租赁业务,目标获取相当于英伟达年收入约10%的份额(英伟达过去12个月收入约2000亿美元) [30] - 中芯国际正在研发“类5纳米”的N+3制程,已用于生产华为最新移动处理器和昇腾AI芯片 [31] - 中际旭创2025年全年收入382.40亿元,第四季度收入132.35亿元,同比增长102% [32] AI 模型层:Google推出Nano Banana2,千问位列中国企业模型市场第一 - 谷歌推出基于Gemini 3.1 Flash Image架构的Nano Banana2图像生成模型,输出分辨率提升至4K [33] - 2025年下半年,中国企业级大模型日均调用量中,阿里千问占比32.1%位列第一,较上半年17.7%的占比几乎翻倍 [33] AI 应用层:千问预计将陆续发布AI眼镜、AI指环、AI耳机等产品 - 阿里千问将在2026年世界移动通信大会上发布AI眼镜,并计划在年内陆续发布AI指环、AI耳机等产品 [35] - 阿里云Coding Plan订阅服务新增支持千问3.5、GLM-4.7、Kimi-K2.5等编程模型 [34] 三、 本周观点 - 英伟达第四季度业绩及第一季度指引均超预期 [35] - 全球算力需求持续增长,中国模型调用量首次超过美国,硬件端中国芯片制造商计划大幅扩产 [35] - 今年或将是国产算力链加速向上的元年 [9][35] 四、产业链数据更新 - 覆铜板涨价、拉货紧张程度继续升级,行业保持高景气度 [35] - 台系电子铜箔、电子玻纤布、覆铜板、PCB厂商月度营收同比增速数据更新(具体数据见图表) [36][38]
中文大模型基准测评2025年年度报告-SuperCLUE
搜狐财经· 2026-02-05 15:35
2025年中文大模型年度测评核心结论 - 海外闭源模型在总榜上仍占据领先地位,Anthropic的Claude-Opus-4.5-Reasoning以68.25分位列第一,Google的Gemini-3-Pro-Preview和OpenAI的GPT-5.2(high)紧随其后 [1] - 国产大模型正从“跟跑”向“并跑”跨越,月之暗面的Kimi-K2.5-Thinking(61.50分)和阿里巴巴的Qwen3-Max-Thinking(60.61分)分别位列全球第四和第六 [1] - 技术演进呈现三大阶段特征:从早期百模大战与多模态萌芽,到中期多模态爆发与推理突破,再到2025年智能体崛起与生态重构,混合专家(MoE)架构成为主流 [1] 模型能力格局与任务表现 - 在六大任务测评中,海内外模型的推理能力已高度对齐,国内模型在代码生成(Kimi-K2.5-Thinking全球第一)和智能体任务上整体领先 [2] - 国内模型在精确指令遵循和幻觉控制方面仍是短板,与海外模型相比平均分差距分别超过7分和近2分 [2] - 闭源模型在复杂任务上保持优势,而开源模型在代码生成领域实现了单点突破 [2] - 根据模型象限分析,国产模型如Kimi-K2.5-Thinking、Qwen3-Max-Thinking等位于“卓越领导者”象限,在推理和应用能力上均表现领先 [31][32] 场景应用与垂直领域 - 通用智能体仍处于基础阶段,复杂任务处理能力不足 [2] - 在多模态领域,国内模型在图生视频、中文适配等场景表现突出,字节跳动、快手相关模型领跑细分榜单 [2] - 在垂直领域中,金融、医疗、汽车等行业大模型落地加速,国产模型在本土语境适配中具备天然优势 [2] - 全景图显示,国内大模型生态覆盖通用、视觉、语音及多个垂直行业,如百度的ERNIE-5.0、阿里的Qwen系列、字节的豆包、腾讯的混元等均在列 [14] 性价比与效能分析 - 国内模型在性价比上优势显著,例如Kimi-K2.5-Thinking等位于高性价比区间,价格仅为海外同类模型的1/3 [2] - 海外模型在推理效能上更优,高效能区间均为海外模型,国内模型在速度与质量的协同优化上仍有提升空间 [2] - 海内外大模型对比显示,在数学推理、科学推理等任务上,海外模型平均分领先,但在代码生成和智能体任务上,国内模型平均分更高或差距较小 [44] 技术演进与关键进展 - 自2022年底以来,AI大模型发展经历了三个时期:百模大战与多模态萌芽、多模态爆发与推理突破、2025年的智能体崛起与生态重构 [16] - 2025年,国产开源模型已占据全球半壁江山,DeepSeek、Qwen3等系列主导了开源生态 [1] - 2025年全年测评数据显示,国内模型的头部排名竞争激烈,月之暗面、深度求索、阿里巴巴、字节跳动等公司的模型在不同月份轮番登顶 [18] 代表性模型深度分析 - 在总榜中,排名前四的国内模型为:Kimi-K2.5-Thinking(61.50分,总榜第四)、Qwen3-Max-Thinking(60.61分,总榜第六)、Doubao-Seed-1.8-251228(Thinking)(58.17分)、DeepSeek-V3.2-Thinking(57.55分) [40] - 在开源模型分榜中,排名前三的均为国产模型:Kimi-K2.5-Thinking(61.50分)、DeepSeek-V3.2-Thinking(57.55分)、GLM-4.7(56.22分) [40][42] - 在六大任务的国内Top3排名中,Qwen3-Max-Thinking在数学推理和智能体任务上位列国内第一,Kimi-K2.5-Thinking在代码生成上位列国内第一,DeepSeek-V3.2-Thinking在科学推理上位列国内第一 [36]
豆包日活破亿,接下来应该就要“搞钱”了
搜狐财经· 2025-12-28 03:41
豆包用户规模与成本结构 - 豆包日均活跃用户数已突破1亿大关,成为日活最快破亿的国产AI产品 [1] - 豆包的市场推广费用是字节跳动所有日活破亿产品中花费最低的 [1] - 截至今年12月,豆包大模型日均调用量已突破50万亿Tokens,较去年同期增长超过10倍 [3] - 以对外API服务方式计算,豆包每日仅模型调用成本约250万元 [6] - 通过混合专家架构、稀疏激活及推理优化技术,豆包App的实际运营成本大概率在200万元/天 [6] - 豆包主力模型综合单价约为1元/百万Tokens [5] AI行业商业模式与商业化挑战 - AI技术的边际成本与传统互联网产品相反,用户规模增加会带来更多推理需求,而非摊薄成本 [8] - AI行业当前是“烧钱换技术”,核心目标是追求通用人工智能 [8] - 投资机构对AI行业的“烧钱”意愿正在下降,行业叙事从“仰望星空”转向“脚踏实地” [10] - 当一级市场融资变谨慎,通过IPO从二级市场获得资金成为AI独角兽留在牌桌上的方式 [10] - 主流AI产品变现方式为付费订阅,但以ChatGPT为例,其付费渗透率也仅有5% [10] - 在付费意愿更低的国内市场,付费订阅模式可能面临更大挑战 [12] 豆包未来商业化路径推测 - 实现亿级日活后,豆包的下一步是商业化 [3] - 豆包未来大概率会通过广告方式完成商业化,例如在用户寻求建议时自然地推荐相关品牌 [12] - 这种广告方式被认为既隐蔽又高效 [12]
2025年AI大模型资料汇编
搜狐财经· 2025-12-24 18:45
文章核心观点 2025年AI大模型行业竞争焦点从单纯的能力竞赛转向可持续性比拼,行业在技术范式、市场格局、应用形态与全球治理四大维度发生深刻转变,共同重塑发展轨迹[1] 技术范式演进 - 训练范式发生关键拐点,从依赖主观反馈的RLHF全面转向客观可验证的RLVR,模型通过自我检验实现推理能力飞跃[1][27][28] - 混合专家架构强势回潮,以稀疏激活模式平衡参数规模与计算成本,追求极致性价比[1] - 多智能体自我博弈与合成数据微调成为常态,模型减少对人类标注数据的依赖[1][29] - 检索增强生成成为企业级应用标配,有效解决幻觉与知识时效性问题[1][61][63] - 模型能力呈现“锯齿化”结构,在数学、编程等形式化智力领域突飞猛进,但在常识推理上仍存短板[1][32][33][34] 市场格局变化 - 市场格局呈现集中化与民主化的双重张力,谷歌Gemini 3凭借自研TPU v5芯片与多模态优势,终结了OpenAI的长期领先地位[1][2][10][14] - 中国模型凭借成本效益实现弯道超车,市场向头部集中,Anthropic等顶尖初创企业获巨额融资,二三线玩家面临出清[1][2] - 开源浪潮形成制衡,阿里通义千问、01.ai Yi-34B等开源模型性能逼近闭源产品,中国厂商成为开源生态主力军[1][2][19] - 科技巨头加速构筑全栈生态闭环,通过芯片、模型、平台、应用的垂直整合形成护城河,竞争焦点转向生态控制权[1][2] 应用形态发展 - 应用形态从通用聊天助手进化为专用工具与自主智能体,深度嵌入编程、办公等专业流程,“AI原生应用层”崛起[1][2][53] - “氛围编程”重塑软件开发模式,开发者角色从编码者转向系统设计师与AI驯导师[1][2][57] - 智能体成为生态博弈核心,例如字节跳动豆包手机助手可实现跨应用复杂操作,引发与超级App的流量控制权之争[2][60] - 部署模式呈现“云+端协同”趋势,本地部署因隐私合规需求兴起,开源工具与硬件进步让大模型在个人手机和企业私有服务器上运行成为可能[2][67][68] 全球治理动态 - 全球治理进入差异化竞争阶段,欧盟《AI法案》以安全优先实施严格监管,美国侧重行业自律与国际主导,中国坚持发展与安全并举的审慎包容路径[3] - 全球统一规则难以达成但多边协作萌芽显现,监管竞赛背后是技术标准制定权的争夺[3] - AI安全暗战持续,对齐与越狱的攻防常态化,自动化对抗与长期安全机制建设提上日程[3] - 社会层面初步显现就业结构调整、教育模式变革等震荡,人与AI协作成为新趋势[3]
告别 “专家垄断”!AdaMoE 破解 VLA 模型效率与精度两难问题
具身智能之心· 2025-10-21 08:03
文章核心观点 - 上海交通大学等机构提出的AdaMoE架构通过解耦专家选择与权重分配,解决了视觉-语言-动作模型在机器人操控中面临的计算效率与任务精度难以兼顾的困境 [1] - 该架构在不增加计算负担的前提下,显著提升了任务成功率,仿真任务成功率提升近10%,真实场景操作成功率提升21.5% [1] - AdaMoE证明了机器人操控的精细度与效率并非单选题,为VLA模型的落地应用提供了新路径 [1][24] 传统VLA模型面临的挑战 - 传统模型想提升性能却受限于高昂的训练成本,收集精准的机器人演示数据困难,从头训练需耗费数百至上千GPU时 [2] - 模型在容量与效率间难以平衡,传统的密集模型需全参数激活,导致响应速度慢,而简化模型又会牺牲性能 [3] - 混合专家架构在VLA场景中出现“专家打架”问题,单一路由器同时负责专家选择和权重分配,难以兼顾负载均衡与任务精度 [5][11] AdaMoE的核心架构设计 - 设计直接继承预训练模型权重,无需从头训练,大幅降低了数据与计算成本 [8] - 采用稀疏激活策略,每次仅激活1个共享专家和1个路由专家,计算量仅为传统密集模型的1/5 [12] - 关键创新在于将路由模块与尺度适配器解耦,路由模块专司专家选择以实现负载均衡,尺度适配器独立调整专家贡献权重以保障任务精度 [12][17] - 共享专家负责通用基础动作,路由专家通过权重复制与微调专注于专项技能学习 [10] 实验验证与性能表现 - 在LIBERO和RoboTwin仿真基准上,AdaMoE平均成功率高达96.0%,优于传统密集模型的94.2%和传统MoE的94.9% [18][23] - 专家数量并非越多越好,实验表明4个专家(成功率96.0%)优于8个专家(成功率95.6%),体现了“少而精”的优势 [19] - 在真实世界ALOHA双臂机器人实验中,AdaMoE将平均成功率从50%提升至71.5%,尤其在“放透明杯子”任务中从40%提升至80% [22] - 解耦架构被证明优于耦合架构,AdaMoE(96.0%)在半解耦的CSMoE(95.5%)和传统MoE(94.9%)基础上实现了进一步提升 [18][21] 技术突破与行业意义 - 该研究为VLA模型指明了一条不依赖堆砌资源即可实现高效落地的技术路径 [24] - 架构实现了对预训练知识的有效利用、模型容量与计算效率的平衡以及专家间的协同优化 [26] - 证明了基于明确分工的协作方式是实现机器人高效操控的关键,对未来具身智能发展具有重要启示 [24]
华为盘古大模型与腾AI计算平台,共同构建软硬一体的AI技术体系
国泰海通证券· 2025-08-06 21:52
行业投资评级 - 报告未明确提及行业投资评级 [1] 核心观点 - 华为通过盘古大模型与昇腾AI计算平台构建软硬一体的AI技术体系,从追赶SOTA模型转向为昇腾硬件量身定制模型架构 [2] - 盘古大模型演进的核心是解决大规模分布式系统中的效率难题,特别是混合专家(MoE)架构的负载不均衡问题 [2] - 华为推出Pangu Pro MoE和Pangu Ultra MoE两种创新路径,分别通过架构创新和系统级优化最大化昇腾硬件效率 [2] - CloudMatrix AI基础设施通过统一总线网络等技术创新,为上层软件创新提供物理基础 [4] - 全栈协同是华为AI的核心战略路径,包括模型开放和硬件生态建设 [5] 目录总结 盘古大模型演进 - 盘古大模型从PanGu-α(2000亿参数)起步,基于昇腾910和MindSpore框架 [6] - PanGu-Σ(1.085万亿参数)首次尝试稀疏化架构,采用随机路由专家(RRE)和ECSS异构计算方案 [8][9][11] - 盘古3.0推出"5+N+X"三层架构,面向政务、金融等行业深度优化 [15][16] - 盘古5.5全面拥抱MoE架构,Pangu Ultra MoE(718B参数)和Pangu Pro MoE(72B参数)针对昇腾硬件优化 [20][21] Pangu Pro MoE创新 - 采用分组专家混合(MoGE)架构,通过结构性设计解决负载不均衡问题 [26][28] - 在昇腾800I A2硬件上实现Prefill阶段吞吐量比72B稠密模型高203% [40] - 推理阶段达到平均每卡1148 tokens/s,使用多令牌预测后提升至1528 tokens/s [40] Pangu Ultra MoE优化 - 采用仿真先行设计方法,通过系统仿真确定最优模型架构 [48] - 选择Dropless路由和EP-Group辅助损失,优先保障模型性能 [49][51] - 在6000卡昇腾集群上实现30%模型算力利用率(MFU),相对基线提升58.7% [55] CloudMatrix基础设施 - 采用PDC解耦架构,将Prefill、Decode和Caching分离为独立资源池 [66] - 通过统一总线(UB)网络实现跨节点通信延迟仅1.9µs,带宽164GB/s [88] - 昇腾910C NPU采用双Die封装和异构设计,单芯片提供752 TFLOPS BF16算力 [97] - CANN软件栈连接上层框架与底层硬件,支持算子融合等优化 [102]
专为智能体应用打造,智谱新一代旗舰模型GLM-4.5来了!
硬AI· 2025-07-29 23:50
模型架构与参数 - 采用混合专家(MoE)架构,提供两个版本:GLM-4-5总参数量3550亿,激活参数320亿;GLM-4-5-Air总参数1060亿,激活参数120亿 [1][4][6] - 训练数据覆盖15万亿tokens通用语料,另有8万亿tokens针对代码、推理、Agent任务的精调数据,辅以强化学习增强能力 [7] 性能与排名 - 综合性能全球第三,在MMLU Pro、MATH500等12项评测中位列国产和开源模型首位 [3] - 在真实代码智能体人工评测中表现国内最佳,综合能力达到开源SOTA水平 [4] - 在52个编程任务测试中,任务完成度与工具调用可靠性优于Claude Code、Kimi-K2等模型,接近Claude-4-Sonnet [8] 技术特点 - 支持两种模式:复杂推理的思考模式和即时响应的非思考模式 [4] - 参数效率显著优于DeepSeek-R1和Kimi-K2,SWE-bench榜单中性能/参数比更优 [8] - 高速版生成速率达100 tokens/秒,支持高并发部署 [12] 商业化与成本 - API调用价格低至输入0-8元/百万tokens,输出2元/百万tokens [1][10] 应用场景展示 - 发布多个Agent应用DEMO:模拟搜索引擎、弹幕视频平台模拟器、可玩Flappy Bird游戏、图文自动排版PPT工具 [14]
MiniMax追着DeepSeek打
经济观察网· 2025-06-18 19:32
模型技术规格 - MiniMax M1模型支持100万个token的上下文长度,是DeepSeek R1(12.8万Token)的8倍,仅次于谷歌Gemini 2.5 Pro [1] - MiniMax M1总参数量为4560亿,每个token激活459亿参数,而DeepSeek R1总参数量6710亿但每个token仅激活370亿参数 [1] - 采用混合专家(MoE)架构,与DeepSeek R1相同 [1] 性能与成本优势 - 生成10万个token时仅消耗25%的浮点运算,64000个token推理任务计算能力需求不到DeepSeek R1一半 [2] - 强化学习阶段仅使用512块H800 GPU,耗时3周,成本53.5万美元,比预期低一个数量级 [2] - 核心技术包括线性注意力机制(Lightning Attention)和强化学习算法CISPO,后者通过裁剪采样权重提升效率 [2] 商业化定价策略 - API服务采用分级计费:0-32k Token档输入0.8元/百万Token,输出8元/百万Token;32k-128k档输入1.2元/百万Token,输出16元/百万Token;128k-1M档输入2.4元/百万Token,输出24元/百万Token [3] - 前两档定价低于DeepSeek R1(输入3.95元/百万Token,输出15.4元/百万Token),第三档为独有超长文本服务 [3] 行业动态与开源计划 - 宣布未来5天内每天发布一项新产品或新技术 [1] - 模型代码和权重已在Hugging Face和GitHub开源,支持透明检查与本地部署 [3] - DeepSeek R1曾以500-600万美元GPU成本训练出对标OpenAI o1的模型,引发行业争议 [2]
200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
华尔街见闻· 2025-06-17 19:57
核心观点 - 中国AI独角兽MiniMax推出首款推理模型M1,性能接近海外顶尖模型,部分任务超越DeepSeek、阿里、字节及OpenAI等[1][3] - M1采用混合专家架构和线性注意力机制,支持100万Token上下文输入,与谷歌Gemini 2.5 Pro并列业内最高[3] - 训练成本仅53.74万美元(约380万人民币),比预期少一个数量级[1][6] - 在生成64K token时算力消耗不到DeepSeek R1的50%,100K token时仅为其25%[1][7] 模型性能 - 总参数4560亿,每token激活参数459亿[3] - 在17个评测集中,SWE-bench软件工程能力测试超过55%,长上下文理解任务全球第二[4] - 数学测试AIME 2024得分86.0,接近Gemini 2.5 Pro的91.6[5] - 长上下文任务OpenAI-MRCR(128k)得分73.4,超越Claude 4的76.8[5] 技术架构 - 采用混合专家(MoE)架构和线性注意力机制(Lightning Attention)[3] - 开发新型强化学习算法CISPO,比字节DAPO算法训练效率提升2倍[6] - 使用512块英伟达H800 GPU训练三周完成强化学习[6] 商业策略 - 模型已开源并在MiniMax APP/Web端免费升级[8] - API采用区间定价策略,128k-1M区间价格显著低于DeepSeek-R1[8] - 被开发者评价为"性价比新王",成为继字节豆包后的"价格杀手"[8] 行业定位 - 公司为腾讯和阿里巴巴支持的"AI六小龙"成员[9] - M1是5天发布周的首个产品,后续将推出智能体应用及视频/音乐模型[9] - 创始人称"第一次感觉到大山不是不能翻越",展现技术突破信心[1][9]