Workflow
混合专家模型
icon
搜索文档
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
量子位· 2025-05-20 13:12
混合专家模型(MoE)技术突破 - 混合专家模型(MoE)通过将任务分配给擅长处理的专家网络提升系统性能,但负载均衡问题成为影响推理性能的关键因素 [1][2][3] - MoE模型中专家网络调用频率差异可达一个数量级以上,导致系统推理时间延长、资源利用率受限 [4][5] - 华为团队提出的OmniPlacement技术使DeepSeek-V3推理延迟降低约10%、吞吐量提升约10%,并计划全面开源该方案 [6][7][28] OmniPlacement技术原理 - 采用基于计算均衡的联合优化算法,通过动态优先级调整、通信域优化和层间差异化部署显著降低负载不均 [9][10][11][12] - 针对高频专家实施层间冗余部署策略,通过分配冗余实例降低跨节点通信开销 [14][15][17] - 设计近实时调度与动态监控机制,包含动态资源分配、层间差异化配置和预测性分配功能 [18][19][20] 技术实现框架与效果 - 开发模块化推理优化框架OmniPlacement,核心算法与推理流程分离,支持独立调度和灵活调整 [21][22][30] - 实验验证显示该技术在多节点GPU集群和高并发场景下表现稳定,运算效率和资源利用率显著提升 [24][25][26] - 框架具备高兼容性、低时延开销和可扩展性,支持多种MoE模型架构和动态算法添加 [29][30][31]
零一万物联创戴宗宏离职创业 | 智能涌现独家
36氪· 2025-05-08 18:22
公司动态 - 零一万物联合创始人兼技术副总裁戴宗宏近期离职创业,其负责的AI Infra团队曾解决大模型训练系统瓶颈并提升效率[1][2] - 戴宗宏创业项目获创新工场投资,其背景包括华为云AI CTO、阿里达摩院AI Infra总监,组建的团队核心成员来自阿里、华为等头部企业[2] - 2024年下半年公司经历业务探索阻滞,技术路线判断失误导致未及时跟进MoE架构,2024年10月才发布新旗舰模型Yi-Lightning[4] - 2024年12月底模型预训练和AI Infra团队被裁撤后并入阿里通义和智能云团队,戴宗宏离职与此相关[4] - 2024年下半年以来多名联创及核心成员离职,包括李先刚、黄文灏等,2025年初AI视频项目负责人蓝雨川也离职创业[4] 业务表现 - 零一万物2023年成立时以AI Infra团队为行业稀缺资源,曾两个月内完成千卡GPU集群设计搭建[2] - 通过AI Infra优化使Yi-34B大模型训练成本下降40%[3] - 2024年公司整体收入达数亿级别,业务重心转向To C应用Bigo和To B模型解决方案[2][4] - 新模型Yi-Lightning发布后未获市场预期反响,面临字节跳动豆包、DeepSeek V2等竞品挤压[4] 战略调整 - 公司将根据市场PMF快速调整项目,加强有商业化潜力业务投资并鼓励独立融资,同时关停部分项目[2] - 主动退出大模型竞速,采取断臂求生策略[4] - 当前业务方向对技术人才需求减少,团队调整后技术空间受限[4]
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心· 2025-04-28 09:26
大规模语言模型技术发展 - 大语言模型(LLM)正以前所未有的速度推动科技进步和产业变革,重塑人机交互方式并成为学术研究与产业创新的关键技术[3] - 2023年9月复旦大学团队发布《大规模语言模型:从理论到实践》,两年内该领域在理论研究、预训练方法、后训练技术等方面取得重要进展[6] - 大语言模型展现出惊人泛化性(仅需60条数据即可学习)但存在脆弱性(130亿参数模型中修改1个参数可能导致功能崩溃)[6] 书籍核心升级内容 - 新增40%前沿内容,深度剖析MoE、强化学习、多模态、智能体、RAG、效率优化等技术趋势[8][10] - 知识体系重构后覆盖预训练、微调、强化学习、应用开发、效率优化全流程[9] - 新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,指令微调和强化学习部分大幅修改[11] 技术体系架构 - 理论基础部分涵盖Transformer结构、LLaMA模型实例及混合专家模型(MoE)[15] - 预训练部分详解数据分布/预处理方法及DeepSpeed框架下的分布式训练技术[15] - 指令理解部分包含LoRA等高效微调方法,强化学习章节涉及PPO/RLHF算法及DeepSeek-R1等案例[15] - 能力增强部分探讨多模态架构设计、LangChain智能体实现及RAG系统协作机制[15] - 应用部署部分包含vLLM等推理框架优化技术和本地化部署实践方法[16][21] 作者团队背景 - 复旦大学NLP团队由张奇(发表200+论文)、桂韬(NeurIPS 2023最佳论文)、郑锐(NeurIPS 2024最佳论文)、黄萱菁(8项论文奖)等学者组成[24][25] - 团队在ACL/ICML/NeurIPS等顶会持续产出,研究方向覆盖预训练模型、智能体交互、多模态学习等前沿领域[25] 行业专家评价 - 中国工程院院士蒋昌俊认为该书"恰逢其时",是学术界和产业界探索LLM的必备读物[28] - 上海人工智能实验室主任周伯文指出该书系统覆盖预训练、多模态、智能体等前沿领域,具有重要参考价值[28] - 专家共识认为第二版新增内容(如RAG、智能体章节)显著提升了理论深度与实践指导性[27][28]
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 21:01
核心观点 - DeepSeek-R1 和 Grok-3 代表了AI发展的两种不同路径:前者通过算法创新和高效资源利用实现高性能,后者依赖大规模计算资源投入 [2][8] - 行业趋势正从“原始规模主导”转向“战略效率优先”,算法设计、混合专家模型(MoE)和强化学习成为关键杠杆 [8][10] - 未来AI发展将更注重投资回报率(ROI),平衡规模扩展与算法优化 [8][10] 模型性能与资源对比 - DeepSeek-R1 仅使用约2000块NVIDIA H800 GPU即达到全球前沿推理模型性能,展现高效训练能力 [2] - Grok-3 动用约20万块NVIDIA H100 GPU,性能略优于DeepSeek-R1、GPT-o1和Gemini 2,但资源消耗相差百倍 [2][8] - 两者性能相近,但资源投入差异显著,凸显算法创新可抗衡纯计算规模 [8] 发展路径差异 - Grok-3 采用“蛮力策略”,依赖数十亿美元GPU计算规模,边际性能提升显著但ROI递减 [8] - DeepSeek-R1 通过混合专家模型(MoE)、推理强化学习和高质量数据,以最小硬件代价实现顶尖性能 [8] - 行业可能从“规模法则”转向“算法突破+工程实用主义”的全局发展观 [10] 未来AI趋势 - 集中式训练项目(如Grok-3)成本过高,仅限少数巨头参与,中小机构需转向效率优化策略 [10] - 混合专家模型(MoE)、稀疏化、改进微调和强化学习将成为核心,降低资源消耗 [10] - 新数据训练与强基础模型结合(如RAG或定期微调),可避免持续大规模计算负担 [10]
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
量子位· 2025-04-06 10:33
Llama 4系列模型发布 - Meta发布首个基于MoE架构的Llama 4系列模型,包括Llama 4 Scout、Llama 4 Maverick和尚未推出的Llama 4 Behemoth [3][4] - 前两款被官方称为"最先进的型号"和"最好的多模态型号",其中Llama 4 Scout有16位专家的170亿激活参数,Llama 4 Maverick有128位专家的170亿激活参数 [4][5] - Llama 4 Behemoth为2万亿参数的教师模型,多个基准测试超过GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro [5][50][52] 模型性能与技术特点 - Llama 4 Maverick在大模型竞技场排名中得分1417,超越DeepSeek-V3成为排名第一的开源模型 [8][9] - 系列模型采用MoE架构,Llama 4 Scout和Maverick分别有16和128个专家模型,总参数分别为17B和400B [15][16][17][58] - 提供超长上下文窗口,Llama 4 Scout达100万token,预训练后长度泛化能力达256K [20][27] - 原生多模态设计支持图像理解,在MMMU、ChartQA等基准测试中超越Gemma 3、Gemini 2.0等竞品 [30][31][43] 训练与技术创新 - 预训练使用FP8精度实现390TFLOPs/GPU效率,训练数据达30万亿token是Llama 3的两倍 [63][64] - 采用MetaP新技术设置超参数,在200种语言上训练,词库总量是Llama 3的10倍 [62][63] - 后训练采用轻量级SFT>在线RL>轻量级DPO的课程策略,通过数据过滤提升推理和编码能力 [68][69][70] - 创新iRoPE架构使用交错注意力层无需位置嵌入,支持"无限"上下文长度目标 [70] 商业化与竞争格局 - Llama 4 Maverick推理成本仅$0.19-$0.495/百万token,价格显著低于GPT-4o等竞品 [49] - 行业竞争加剧,OpenAI计划提前发布o3和o4-mini应对,DeepSeek等中国厂商也在加速创新 [80][81] - 模型已在官网和Hugging Face开放下载,支持12种语言方便全球开发者部署 [13][45]
后DeepSeek时代,中国AI初创企业商业模式大调整
硬AI· 2025-03-25 20:41
中国AI初创企业战略调整 - DeepSeek的崛起正在重塑中国AI行业,迫使各家初创企业调整战略,包括尝试多条业务线、削减支出、停止大语言模型预训练并采用DeepSeek模型 [1] - 中国LLM市场正在迅速整合,集中在少数几家领先者手中,DeepSeek促使许多公司将资源重新导向应用而非基础模型开发 [2] - 零一万物停止预训练并转向销售基于DeepSeek模型的定制化AI解决方案,将其在混合专家模型方面的专业知识作为竞争优势 [4] - 月之暗面削减Kimi营销支出,专注于模型训练以复制DeepSeek的成功,并尝试通过虚拟礼物变现,此前已融资超13亿美元 [5] - 百川智能将业务重心转向医疗保健领域,专注于为医院开发AI医生技术 [5] - 智谱AI尝试多条业务线并建立企业销售业务,2024年销售额3亿元人民币但亏损20亿元,员工规模达800人 [6] 行业整合与竞争格局 - 行业呈现整合趋势,资源向DeepSeek等领先企业集中 [2] - 零一万物基础模型团队已转移至阿里巴巴 [4] - 阿里巴巴曾考虑收购月之暗面并获得优先购买权,但未来收购可能性降低 [5] - 智谱AI考虑年底前上市,但DeepSeek发展可能影响其IPO进程 [6] 企业融资与财务状况 - 月之暗面在去年两轮融资中筹集超过13亿美元 [5] - 智谱AI2024年销售额3亿元人民币(4100万美元),亏损20亿元人民币 [6]