混合专家(MoE)架构
搜索文档
豆包日活破亿,接下来应该就要“搞钱”了
搜狐财经· 2025-12-28 03:41
豆包用户规模与成本结构 - 豆包日均活跃用户数已突破1亿大关,成为日活最快破亿的国产AI产品 [1] - 豆包的市场推广费用是字节跳动所有日活破亿产品中花费最低的 [1] - 截至今年12月,豆包大模型日均调用量已突破50万亿Tokens,较去年同期增长超过10倍 [3] - 以对外API服务方式计算,豆包每日仅模型调用成本约250万元 [6] - 通过混合专家架构、稀疏激活及推理优化技术,豆包App的实际运营成本大概率在200万元/天 [6] - 豆包主力模型综合单价约为1元/百万Tokens [5] AI行业商业模式与商业化挑战 - AI技术的边际成本与传统互联网产品相反,用户规模增加会带来更多推理需求,而非摊薄成本 [8] - AI行业当前是“烧钱换技术”,核心目标是追求通用人工智能 [8] - 投资机构对AI行业的“烧钱”意愿正在下降,行业叙事从“仰望星空”转向“脚踏实地” [10] - 当一级市场融资变谨慎,通过IPO从二级市场获得资金成为AI独角兽留在牌桌上的方式 [10] - 主流AI产品变现方式为付费订阅,但以ChatGPT为例,其付费渗透率也仅有5% [10] - 在付费意愿更低的国内市场,付费订阅模式可能面临更大挑战 [12] 豆包未来商业化路径推测 - 实现亿级日活后,豆包的下一步是商业化 [3] - 豆包未来大概率会通过广告方式完成商业化,例如在用户寻求建议时自然地推荐相关品牌 [12] - 这种广告方式被认为既隐蔽又高效 [12]
2025年AI大模型资料汇编
搜狐财经· 2025-12-24 18:45
文章核心观点 2025年AI大模型行业竞争焦点从单纯的能力竞赛转向可持续性比拼,行业在技术范式、市场格局、应用形态与全球治理四大维度发生深刻转变,共同重塑发展轨迹[1] 技术范式演进 - 训练范式发生关键拐点,从依赖主观反馈的RLHF全面转向客观可验证的RLVR,模型通过自我检验实现推理能力飞跃[1][27][28] - 混合专家架构强势回潮,以稀疏激活模式平衡参数规模与计算成本,追求极致性价比[1] - 多智能体自我博弈与合成数据微调成为常态,模型减少对人类标注数据的依赖[1][29] - 检索增强生成成为企业级应用标配,有效解决幻觉与知识时效性问题[1][61][63] - 模型能力呈现“锯齿化”结构,在数学、编程等形式化智力领域突飞猛进,但在常识推理上仍存短板[1][32][33][34] 市场格局变化 - 市场格局呈现集中化与民主化的双重张力,谷歌Gemini 3凭借自研TPU v5芯片与多模态优势,终结了OpenAI的长期领先地位[1][2][10][14] - 中国模型凭借成本效益实现弯道超车,市场向头部集中,Anthropic等顶尖初创企业获巨额融资,二三线玩家面临出清[1][2] - 开源浪潮形成制衡,阿里通义千问、01.ai Yi-34B等开源模型性能逼近闭源产品,中国厂商成为开源生态主力军[1][2][19] - 科技巨头加速构筑全栈生态闭环,通过芯片、模型、平台、应用的垂直整合形成护城河,竞争焦点转向生态控制权[1][2] 应用形态发展 - 应用形态从通用聊天助手进化为专用工具与自主智能体,深度嵌入编程、办公等专业流程,“AI原生应用层”崛起[1][2][53] - “氛围编程”重塑软件开发模式,开发者角色从编码者转向系统设计师与AI驯导师[1][2][57] - 智能体成为生态博弈核心,例如字节跳动豆包手机助手可实现跨应用复杂操作,引发与超级App的流量控制权之争[2][60] - 部署模式呈现“云+端协同”趋势,本地部署因隐私合规需求兴起,开源工具与硬件进步让大模型在个人手机和企业私有服务器上运行成为可能[2][67][68] 全球治理动态 - 全球治理进入差异化竞争阶段,欧盟《AI法案》以安全优先实施严格监管,美国侧重行业自律与国际主导,中国坚持发展与安全并举的审慎包容路径[3] - 全球统一规则难以达成但多边协作萌芽显现,监管竞赛背后是技术标准制定权的争夺[3] - AI安全暗战持续,对齐与越狱的攻防常态化,自动化对抗与长期安全机制建设提上日程[3] - 社会层面初步显现就业结构调整、教育模式变革等震荡,人与AI协作成为新趋势[3]
告别 “专家垄断”!AdaMoE 破解 VLA 模型效率与精度两难问题
具身智能之心· 2025-10-21 08:03
文章核心观点 - 上海交通大学等机构提出的AdaMoE架构通过解耦专家选择与权重分配,解决了视觉-语言-动作模型在机器人操控中面临的计算效率与任务精度难以兼顾的困境 [1] - 该架构在不增加计算负担的前提下,显著提升了任务成功率,仿真任务成功率提升近10%,真实场景操作成功率提升21.5% [1] - AdaMoE证明了机器人操控的精细度与效率并非单选题,为VLA模型的落地应用提供了新路径 [1][24] 传统VLA模型面临的挑战 - 传统模型想提升性能却受限于高昂的训练成本,收集精准的机器人演示数据困难,从头训练需耗费数百至上千GPU时 [2] - 模型在容量与效率间难以平衡,传统的密集模型需全参数激活,导致响应速度慢,而简化模型又会牺牲性能 [3] - 混合专家架构在VLA场景中出现“专家打架”问题,单一路由器同时负责专家选择和权重分配,难以兼顾负载均衡与任务精度 [5][11] AdaMoE的核心架构设计 - 设计直接继承预训练模型权重,无需从头训练,大幅降低了数据与计算成本 [8] - 采用稀疏激活策略,每次仅激活1个共享专家和1个路由专家,计算量仅为传统密集模型的1/5 [12] - 关键创新在于将路由模块与尺度适配器解耦,路由模块专司专家选择以实现负载均衡,尺度适配器独立调整专家贡献权重以保障任务精度 [12][17] - 共享专家负责通用基础动作,路由专家通过权重复制与微调专注于专项技能学习 [10] 实验验证与性能表现 - 在LIBERO和RoboTwin仿真基准上,AdaMoE平均成功率高达96.0%,优于传统密集模型的94.2%和传统MoE的94.9% [18][23] - 专家数量并非越多越好,实验表明4个专家(成功率96.0%)优于8个专家(成功率95.6%),体现了“少而精”的优势 [19] - 在真实世界ALOHA双臂机器人实验中,AdaMoE将平均成功率从50%提升至71.5%,尤其在“放透明杯子”任务中从40%提升至80% [22] - 解耦架构被证明优于耦合架构,AdaMoE(96.0%)在半解耦的CSMoE(95.5%)和传统MoE(94.9%)基础上实现了进一步提升 [18][21] 技术突破与行业意义 - 该研究为VLA模型指明了一条不依赖堆砌资源即可实现高效落地的技术路径 [24] - 架构实现了对预训练知识的有效利用、模型容量与计算效率的平衡以及专家间的协同优化 [26] - 证明了基于明确分工的协作方式是实现机器人高效操控的关键,对未来具身智能发展具有重要启示 [24]
华为盘古大模型与腾AI计算平台,共同构建软硬一体的AI技术体系
国泰海通证券· 2025-08-06 21:52
行业投资评级 - 报告未明确提及行业投资评级 [1] 核心观点 - 华为通过盘古大模型与昇腾AI计算平台构建软硬一体的AI技术体系,从追赶SOTA模型转向为昇腾硬件量身定制模型架构 [2] - 盘古大模型演进的核心是解决大规模分布式系统中的效率难题,特别是混合专家(MoE)架构的负载不均衡问题 [2] - 华为推出Pangu Pro MoE和Pangu Ultra MoE两种创新路径,分别通过架构创新和系统级优化最大化昇腾硬件效率 [2] - CloudMatrix AI基础设施通过统一总线网络等技术创新,为上层软件创新提供物理基础 [4] - 全栈协同是华为AI的核心战略路径,包括模型开放和硬件生态建设 [5] 目录总结 盘古大模型演进 - 盘古大模型从PanGu-α(2000亿参数)起步,基于昇腾910和MindSpore框架 [6] - PanGu-Σ(1.085万亿参数)首次尝试稀疏化架构,采用随机路由专家(RRE)和ECSS异构计算方案 [8][9][11] - 盘古3.0推出"5+N+X"三层架构,面向政务、金融等行业深度优化 [15][16] - 盘古5.5全面拥抱MoE架构,Pangu Ultra MoE(718B参数)和Pangu Pro MoE(72B参数)针对昇腾硬件优化 [20][21] Pangu Pro MoE创新 - 采用分组专家混合(MoGE)架构,通过结构性设计解决负载不均衡问题 [26][28] - 在昇腾800I A2硬件上实现Prefill阶段吞吐量比72B稠密模型高203% [40] - 推理阶段达到平均每卡1148 tokens/s,使用多令牌预测后提升至1528 tokens/s [40] Pangu Ultra MoE优化 - 采用仿真先行设计方法,通过系统仿真确定最优模型架构 [48] - 选择Dropless路由和EP-Group辅助损失,优先保障模型性能 [49][51] - 在6000卡昇腾集群上实现30%模型算力利用率(MFU),相对基线提升58.7% [55] CloudMatrix基础设施 - 采用PDC解耦架构,将Prefill、Decode和Caching分离为独立资源池 [66] - 通过统一总线(UB)网络实现跨节点通信延迟仅1.9µs,带宽164GB/s [88] - 昇腾910C NPU采用双Die封装和异构设计,单芯片提供752 TFLOPS BF16算力 [97] - CANN软件栈连接上层框架与底层硬件,支持算子融合等优化 [102]
专为智能体应用打造,智谱新一代旗舰模型GLM-4.5来了!
硬AI· 2025-07-29 23:50
模型架构与参数 - 采用混合专家(MoE)架构,提供两个版本:GLM-4-5总参数量3550亿,激活参数320亿;GLM-4-5-Air总参数1060亿,激活参数120亿 [1][4][6] - 训练数据覆盖15万亿tokens通用语料,另有8万亿tokens针对代码、推理、Agent任务的精调数据,辅以强化学习增强能力 [7] 性能与排名 - 综合性能全球第三,在MMLU Pro、MATH500等12项评测中位列国产和开源模型首位 [3] - 在真实代码智能体人工评测中表现国内最佳,综合能力达到开源SOTA水平 [4] - 在52个编程任务测试中,任务完成度与工具调用可靠性优于Claude Code、Kimi-K2等模型,接近Claude-4-Sonnet [8] 技术特点 - 支持两种模式:复杂推理的思考模式和即时响应的非思考模式 [4] - 参数效率显著优于DeepSeek-R1和Kimi-K2,SWE-bench榜单中性能/参数比更优 [8] - 高速版生成速率达100 tokens/秒,支持高并发部署 [12] 商业化与成本 - API调用价格低至输入0-8元/百万tokens,输出2元/百万tokens [1][10] 应用场景展示 - 发布多个Agent应用DEMO:模拟搜索引擎、弹幕视频平台模拟器、可玩Flappy Bird游戏、图文自动排版PPT工具 [14]
MiniMax追着DeepSeek打
经济观察网· 2025-06-18 19:32
模型技术规格 - MiniMax M1模型支持100万个token的上下文长度,是DeepSeek R1(12.8万Token)的8倍,仅次于谷歌Gemini 2.5 Pro [1] - MiniMax M1总参数量为4560亿,每个token激活459亿参数,而DeepSeek R1总参数量6710亿但每个token仅激活370亿参数 [1] - 采用混合专家(MoE)架构,与DeepSeek R1相同 [1] 性能与成本优势 - 生成10万个token时仅消耗25%的浮点运算,64000个token推理任务计算能力需求不到DeepSeek R1一半 [2] - 强化学习阶段仅使用512块H800 GPU,耗时3周,成本53.5万美元,比预期低一个数量级 [2] - 核心技术包括线性注意力机制(Lightning Attention)和强化学习算法CISPO,后者通过裁剪采样权重提升效率 [2] 商业化定价策略 - API服务采用分级计费:0-32k Token档输入0.8元/百万Token,输出8元/百万Token;32k-128k档输入1.2元/百万Token,输出16元/百万Token;128k-1M档输入2.4元/百万Token,输出24元/百万Token [3] - 前两档定价低于DeepSeek R1(输入3.95元/百万Token,输出15.4元/百万Token),第三档为独有超长文本服务 [3] 行业动态与开源计划 - 宣布未来5天内每天发布一项新产品或新技术 [1] - 模型代码和权重已在Hugging Face和GitHub开源,支持透明检查与本地部署 [3] - DeepSeek R1曾以500-600万美元GPU成本训练出对标OpenAI o1的模型,引发行业争议 [2]
200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
华尔街见闻· 2025-06-17 19:57
核心观点 - 中国AI独角兽MiniMax推出首款推理模型M1,性能接近海外顶尖模型,部分任务超越DeepSeek、阿里、字节及OpenAI等[1][3] - M1采用混合专家架构和线性注意力机制,支持100万Token上下文输入,与谷歌Gemini 2.5 Pro并列业内最高[3] - 训练成本仅53.74万美元(约380万人民币),比预期少一个数量级[1][6] - 在生成64K token时算力消耗不到DeepSeek R1的50%,100K token时仅为其25%[1][7] 模型性能 - 总参数4560亿,每token激活参数459亿[3] - 在17个评测集中,SWE-bench软件工程能力测试超过55%,长上下文理解任务全球第二[4] - 数学测试AIME 2024得分86.0,接近Gemini 2.5 Pro的91.6[5] - 长上下文任务OpenAI-MRCR(128k)得分73.4,超越Claude 4的76.8[5] 技术架构 - 采用混合专家(MoE)架构和线性注意力机制(Lightning Attention)[3] - 开发新型强化学习算法CISPO,比字节DAPO算法训练效率提升2倍[6] - 使用512块英伟达H800 GPU训练三周完成强化学习[6] 商业策略 - 模型已开源并在MiniMax APP/Web端免费升级[8] - API采用区间定价策略,128k-1M区间价格显著低于DeepSeek-R1[8] - 被开发者评价为"性价比新王",成为继字节豆包后的"价格杀手"[8] 行业定位 - 公司为腾讯和阿里巴巴支持的"AI六小龙"成员[9] - M1是5天发布周的首个产品,后续将推出智能体应用及视频/音乐模型[9] - 创始人称"第一次感觉到大山不是不能翻越",展现技术突破信心[1][9]
速递|Llama 4突袭周末发布!Meta用2万亿参数怪兽硬刚GPT-4.5,却暗禁欧盟用户
Z Finance· 2025-04-06 15:45
文章核心观点 Meta发布新一代AI模型集合Llama 4,该系列模型有新特性和优势,但授权条款或引发争议,且在应答策略上有调整以应对行业问题 [1][2][9] 模型发布情况 - Meta在周六发布Llama 4系列,含Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth四款新模型 [1] - Scout和Maverick已通过Llama.com及Hugging Face等平台开放获取,Behemoth仍在训练阶段 [1] - Meta旗下AI助手Meta AI完成升级,将在40个国家启用Llama 4技术,多模态功能仅限英语版美国用户使用 [1] 研发推动因素 - 中国AI实验室深度求索开源模型成功,性能超Meta前代旗舰Llama模型,推动Llama研发进程加速 [1] - 据传Meta紧急组建战情室,试图破译深度求索降低模型运行和部署成本的技术路径 [1] 授权条款情况 - 欧盟境内注册或主要营业地的用户及企业被禁止使用或分发Llama 4模型,受该地区AI与数据隐私法规合规要求影响 [2] - 月活用户超7亿的企业须向Meta申请特殊授权,Meta拥有绝对审批权 [2] 模型架构特点 - Llama 4是Meta首个采用混合专家(MoE)架构的模型系列,能提升训练及查询应答的算力效率 [4] - MoE架构将数据处理任务分解为子任务,交由小型专业化“专家”模型处理 [4] 模型参数情况 - Maverick总参数量达4000亿,通过128个“专家”模型仅激活170亿参数 [4] - Scout激活170亿参数,包含16个专家模型,总参数量1090亿 [4] - Behemoth激活参数达2880亿,包含16个专家模型,总参数近2万亿 [6] 模型性能表现 - Maverick在编程、推理等测试中超越OpenAI的GPT - 4o和谷歌Gemini 2.0,但逊色于部分最新顶级模型 [5] - Scout在文档摘要和大规模代码库推理任务有优势,拥有1000万token的超大上下文窗口 [5] - Behemoth在数学解题等STEM能力评估中表现优于部分模型,但不及Gemini 2.5 Pro [6] 模型架构差异 - Llama 4全系均未采用类似OpenAI o1和o3 - mini的专用“推理”架构 [9] 模型应答策略调整 - Meta对Llama 4全系模型调优,使其更少拒绝回答“争议性”问题,回应涉及政治社会议题的提问 [9] - Meta表示新模型在拒绝回答的提示词选择上“显著更平衡” [9] 行业相关问题 - AI偏见是行业公认的技术难题,马斯克自创的xAI公司也未能造出完全政治中立的聊天机器人 [9] - OpenAI等公司持续调整模型策略,使其能应答更多过往被规避的问题 [10]