Workflow
Mixture-of-Experts (MoE)
icon
搜索文档
产品未发,7个月估值80亿美金,这家“美国DeepSeek”凭什么?
36氪· 2025-10-13 21:05
公司概况与融资表现 - 公司于2024年3月正式走出隐身模式,在7个月内估值从5.45亿美元飙升15倍至80亿美元 [3] - 最新一轮融资高达20亿美元,吸引了Nvidia、红杉资本、Lightspeed等顶级资本以及LinkedIn联合创始人Reid Hoffman作为天使投资人 [3] - 创始团队来自Google DeepMind,包括曾领导Gemini项目奖励模型核心团队的Misha Laskin和AlphaGo的共同创造者Ioannis Antonoglou [3] 战略定位与市场洞察 - 公司战略定位为成为“西方的DeepSeek”,旨在在高质量的开放模型领域与东方开源力量抗衡 [5][12] - 战略制定的重要背景是来自中国公司如DeepSeek和Qwen的压力,这些公司率先在开源领域打破了大规模混合专家模型的技术垄断 [8][10] - 公司瞄准的市场真空是西方大型企业和主权国家在“闭源不自由,开源不放心”困境下对“安全感”和“控制权”的需求 [13][14] 技术优势与平台能力 - 公司宣称构建了一个能够以最前沿规模训练大规模混合专家模型的大型语言模型和强化学习平台,而不仅仅是一个模型 [16] - 混合专家架构通过将模型分解为多个“专家”子网络,能以更低的计算成本实现更高的性能,被视为通往更强AI能力的关键路径 [8] - 掌握大规模训练MoE模型的能力意味着公司在通往通用人工智能的最被看好的技术路线上与顶级实验室站在同一起跑线 [16] 商业模式与盈利策略 - 公司采用策略性的“开放权重”模式,开放模型权重供下载、使用和修改,但保留完整的数据集、训练代码和基础设施堆栈 [18] - 商业模式构建了清晰的双层客户盈利结构,主要瞄准大型企业和主权AI两类高价值付费客户 [21][28] - 收入模型是金字塔结构:塔基为免费的学术界、开发者和初创公司;塔身为付费的大型企业客户;塔尖为最高价值的主权AI客户 [31][32][33] 目标市场与客户痛点 - 针对大型企业客户,解决其依赖闭源API导致的高昂成本、控制力缺失、数据安全风险和供应商锁定等痛点 [22][23][24][25] - 为主权AI客户提供构建国家级AI战略的基石,使其能够训练国家语言模型、赋能关键领域并培养本土AI生态,确保技术独立 [15][30] - 公司向企业出售的不再是按需取用的API,而是建造“水厂”的能力,即模型的所有权与控制权,实现成本可控和绝对的数据安全 [26][27] 行业竞争格局 - 公司选择的赛道是竞争激烈的红海,需直接面对来自中国的DeepSeek、Qwen,欧洲的Mistral AI以及Meta的Llama系列等开放模型的竞争 [34] - 尽管商业模式不同,公司仍需从OpenAI、Anthropic和Google等闭源模型巨头手中争夺客户,这些闭源模型在性能极限探索和产品易用性上拥有优势 [35]
为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本
机器之心· 2025-10-13 12:21
MoE模型推理挑战 - 现有主流MoE推理框架扩展性差,要求使用大规模同步通信组部署模型,一次性占用大量GPU资源,导致弹性资源伸缩困难,资源供给无法按用户流量精细调整,造成浪费[2] - 传统MoE推理容错性低,采用全局紧耦合架构,各GPU间通过All-to-All等大规模集体通信协同工作,任意节点故障可能导致整个服务集群重启,缺乏容错能力[3] - 负载不均问题突出,MoE专家调用动态稀疏,激活分布随工作负载波动,固定专家映射和资源分配策略难以适应,导致部分GPU过载而其他闲置,资源利用低下[4] EaaS架构创新 - 提出专家即服务架构,将每个专家拆分为独立无状态服务模块,专家不维护会话状态,仅根据请求计算输出,使模型由许多可独立扩展服务组成,支持精细扩展,初始部署可小至16块GPU起步,支持一次增减一块GPU匹配负载需求[7] - 实现Attention层与专家层解耦,二者通过高效通信机制衔接,减少全局同步点,Attention端可异步等待专家结果并处理下一批次计算,提升流水线利用率,且Attention和专家可独立扩展[10] - 研发高性能异步通信库IBGDA,基于InfiniBand GPUDirect Async技术,实现GPU直连网络通信,完全绕过CPU参与,支持单边RDMA操作和灵活缓冲管理,突破NCCL等通信库需整组同步的限制,结合CUDA graph实现CPU-free数据传输[14] - 引入动态负载均衡策略,当监测到某个专家请求频率过高时可动态增添实例分摊流量,对冷门专家减少实例以节省资源[14] 系统性能优势 - 在扩展能力实验中,随GPU节点从32增加到64,EaaS总吞吐量几乎按比例提升,支持任意数量GPU部署组合,打破传统架构对GPU数量整除比要求,实验显示可实现同等性能下最高约37.5%的GPU资源节省[18] - 容错性卓越,模拟故障场景中随机失效GPU节点时,EaaS几乎不中断完成请求处理,吞吐量仅略微下降不到2%,而传统方案任一节点故障都会使整个组停止服务[20] - 实现高吞吐与低延迟兼顾,端到端推理吞吐量与现有最优系统相当,响应延迟稳定,每个token平均生成延迟维持在较低水平,在吞吐-延迟权衡上达到优秀平衡[22] - EaaS通信库通过IBGDA高效通信模式与CPU-free结构支持的CUDA graph带来kernel launch开销overlap,最多将延迟降低49.6%[24] 应用前景 - EaaS细粒度资源调配能力使云服务商可根据实时负载弹性调整MoE模型算力分配,以更低成本提供稳定可靠推理服务,非常契合云计算环境下的多租户和持续交付需求[25] - 服务化架构具有良好的可运营和可演化特性,模块化专家服务便于独立升级维护,通信调度组件可逐步优化迭代,使系统能随模型规模和应用需求变化不断演进[25]
性能暴涨4%!CBDES MoE:MoE焕发BEV第二春,性能直接SOTA(清华&帝国理工)
自动驾驶之心· 2025-08-19 07:32
核心观点 - 提出CBDES MoE框架 在功能模块层面实现分层解耦的专家混合结构 集成四种异构视觉backbone 通过自注意力路由器实现动态专家选择 提升自动驾驶BEV感知性能[2][5][12] - 在nuScenes 3D目标检测任务中 mAP提升1.6个百分点至65.6% NDS提升4.1个百分点至69.8% 超越所有单专家基线模型[3][37] - 采用稀疏激活推理机制 仅激活top-1专家 显著降低计算成本 支持实时应用[25][26] 技术架构 - 集成四种结构异构专家网络:Swin Transformer(擅长全局空间结构) ResNet(强于局部结构编码) ConvNeXt(平衡局部性与可扩展性) PVT(多尺度目标建模)[17][18] - 设计自注意力路由器SAR 包含分层特征提取 自注意力编码和MLP专家评分三阶段 生成图像级路由概率[19][20][21] - 采用软加权特征融合机制 根据路由概率动态加权专家输出 保持训练稳定性[24] - 引入负载均衡正则化 防止专家坍塌 使mAP从63.4%提升至65.6% NDS从65.8%提升至69.8%[42][43][46] 性能表现 - 在nuScenes数据集上全面超越单专家基线:BEVFusion-Swin Transformer(mAP 64.0% NDS 65.6%) BEVFusion-ResNet(mAP 63.3% NDS 65.2%) BEVFusion-ConvNeXt(mAP 61.6% NDS 65.2%) BEVFusion-PVT(mAP 62.4% NDS 65.7%)[37] - 在恶劣条件(雨雾 夜间)下保持检测鲁棒性 显著减少误检和漏检[40] - 训练过程收敛更快 损失更低 显示优化稳定性和学习效率优势[39] 应用前景 - 可无缝集成至BEVFusion等标准框架 保持相机到BEV投影逻辑和下游任务头兼容性[29][30] - 当前支持图像级路由 未来可扩展至图像块级或区域感知路由 实现更细粒度适应[48] - 潜在扩展方向包括多任务学习(分割 跟踪) 跨模态路由(激光雷达信号) 以及自动化架构搜索[48]