混合专家模型

搜索文档
OpenAI掌门人曝GPT-6瓶颈,回答黄仁勋提问,几乎为算力“抵押未来”
36氪· 2025-08-16 12:04
AI技术发展瓶颈 - 随着算力和数据规模快速扩展,算法重要性再次凸显,成为未来AI技术发展的关键瓶颈 [1] - 强化学习成为算法研究新方向之一,但仍存在许多明显能力缺口 [1] - 基础研究正在回归,算法取代数据和算力成为关键制约因素 [21][22] 工程与科研的协同关系 - 工程与科研是驱动AI发展的两大引擎,工程师贡献与研究人员相仿甚至更大 [3][4] - OpenAI坚持工程与研究同等重要,两者需紧密合作解决复杂问题 [5][6] - 工程背景与科研背景人员对系统约束的理解存在根本性差异,需技术谦逊来调和 [6][7] 资源调配与产品化挑战 - 为支撑ChatGPT和ImageGen的海量需求,公司不得不抽调科研算力"抵押未来" [8][9] - 产品上线导致系统崩溃风险增加,需在资源协调中做出取舍 [8][9] - 公司理念是优先满足用户体验,推动技术快速落地 [10] AI编程范式演进 - "氛围编程"正从趣味应用向严肃软件工程转型,可改造遗留代码库 [11][12] - 未来代码库需模块化设计,通过高质量测试让模型填充细节 [13] - 软件工程需回归可维护性实践,最大化模型价值 [13] 训练系统与基础设施 - 长时间训练任务需优化检查点设计,强化学习系统状态保存更复杂 [14][15] - AGI开发需同步建设超级计算机,涉及大规模基础设施投资 [18][19] - 未来AI基础设施需兼顾计算密集型与低延迟两类需求 [16][17] 行业发展趋势 - 多样化模型库正在成形,经济系统将逐步由AI驱动 [24][25] - 特定领域Agent开发需大量定制工作,创造新商业机会 [24][27] - 医疗、教育等垂直领域需专业知识和责任框架 [26]
Kimi K2 不仅抢了开源第一,还抢了自家论文署名:我「夸」我自己
36氪· 2025-07-22 19:07
模型发布与市场地位 - 月之暗面发布全球首个万亿参数开源大模型Kimi K2 参数量达1.04T 激活参数32B 采用混合专家架构[1][12] - 模型在LMSYS开源排行榜位列第一 Arena Score达1420分 超越DeepSeek R1等竞争对手[2] - 前四名开源模型均为国产模型 显示中国在开源大模型领域的技术领先性[2] 技术创新与架构设计 - 采用MuonClip优化器解决超大规模训练稳定性问题 成功抑制logits值超过1000的现象[15][16] - 使用稀疏MoE架构 稀疏度为48 每个token仅激活8位专家[12] - 上下文窗口扩展至128K token 支持长文档处理与多轮工具调用[14] 数据策略与训练成果 - 训练数据规模达15.5T token 覆盖网页、代码、数学和知识领域 采用改写法增强数据多样性[12][17] - 通过合成数据与真实数据混合策略 构建10万条高质量工具使用轨迹 覆盖3000+真实工具与2万+合成工具[20][23] - 在代码任务中表现突出 LiveCodeBench v6达53.7分 SWE-bench Verified达51.8分[29] 性能表现与基准测试 - 在数学任务中MATH-500准确率达97.4% AIME 2024平均分达69.6分[29] - 通用任务MMLU得分92.9分 MMLU-Pro达81.2分 接近闭源模型水平[29] - 工具使用任务Tau2 retail平均分70.6分 AceBench准确率76.5分[29] 应用前景与行业影响 - 模型定位为"智能体时代"基础设施 专注于Agentic Intelligence能力开发[9] - 开源策略包括释放1T参数权重 为开发者提供完整模型访问权限[11] - 预计将推动2025年下半年垂直领域智能体应用发展 从聊天场景延伸至生产环境[31]
华为盘古大模型首次打榜:昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内模型榜首
第一财经· 2025-05-28 21:36
混合专家模型(MoE)技术突破 - 传统MoE架构面临专家激活频次不均衡问题,导致跨设备并行时系统效率瓶颈显著[9][14] - 华为盘古团队创新提出分组混合专家模型(MoGE),通过动态分组机制实现跨设备计算资源均衡调度,突破工程落地瓶颈[10][16] - MoGE架构将专家均匀划分为不重叠组,每组独立进行Top-K路由,确保计算负载均匀分布[17][18] 盘古Pro MoE性能表现 - 模型总参数量720亿(激活参数量160亿),在昇腾300I Duo和800I A2芯片上分别实现321 tokens/s和1528 tokens/s的推理效率[2][22] - 在SuperCLUE榜单以720亿参数量获59分综合评分,千亿参数量内模型并列国内第一,160亿激活参数量媲美更大规模模型性能[2][26] - 对比6710亿参数的DeepSeek-R1等千亿级模型,以1/10参数量实现同级别综合能力[3][29] 昇腾原生架构优势 - 采用分组均衡路由技术,专家负载分布均衡性较传统架构显著提升,各专家处理token占比均约12.5%[19][29] - 深度融合昇腾硬件加速架构并行计算特性,通过算子级编译优化实现软硬协同[10][22] - 架构仿真采用分层策略,通过粗粒度筛选到细粒度调优三阶段确定最优超参数配置[20] 行业应用价值 - 动态负载均衡技术显著降低云端推理成本,使中小企业能够驾驭大模型[31] - 构建"架构-芯片-引擎"闭环,使百亿级模型在工业质检、智能客服等场景实现高效部署[31][32] - 推动AI技术向"高效能、低成本"实用化方向发展,重构产业智能化路径[3][32] 模型能力验证 - 英语能力覆盖通用推理、阅读理解及常识推理,中文评估包含知识问答和阅读理解等[25] - 在BBH、MMLU、C-Eval等基准测试中超越同规模稠密模型(Qwen3-32B、GLM4-Z1-32B)和MoE模型(Llama4 Scout)[26][28] - 复杂推理任务表现突出,在HumanEval、MATH、GSM8K等评测中达到同规模最优[26][28]
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心· 2025-04-28 09:26
大规模语言模型技术发展 - 大语言模型(LLM)正以前所未有的速度推动科技进步和产业变革,重塑人机交互方式并成为学术研究与产业创新的关键技术[3] - 2023年9月复旦大学团队发布《大规模语言模型:从理论到实践》,两年内该领域在理论研究、预训练方法、后训练技术等方面取得重要进展[6] - 大语言模型展现出惊人泛化性(仅需60条数据即可学习)但存在脆弱性(130亿参数模型中修改1个参数可能导致功能崩溃)[6] 书籍核心升级内容 - 新增40%前沿内容,深度剖析MoE、强化学习、多模态、智能体、RAG、效率优化等技术趋势[8][10] - 知识体系重构后覆盖预训练、微调、强化学习、应用开发、效率优化全流程[9] - 新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,指令微调和强化学习部分大幅修改[11] 技术体系架构 - 理论基础部分涵盖Transformer结构、LLaMA模型实例及混合专家模型(MoE)[15] - 预训练部分详解数据分布/预处理方法及DeepSpeed框架下的分布式训练技术[15] - 指令理解部分包含LoRA等高效微调方法,强化学习章节涉及PPO/RLHF算法及DeepSeek-R1等案例[15] - 能力增强部分探讨多模态架构设计、LangChain智能体实现及RAG系统协作机制[15] - 应用部署部分包含vLLM等推理框架优化技术和本地化部署实践方法[16][21] 作者团队背景 - 复旦大学NLP团队由张奇(发表200+论文)、桂韬(NeurIPS 2023最佳论文)、郑锐(NeurIPS 2024最佳论文)、黄萱菁(8项论文奖)等学者组成[24][25] - 团队在ACL/ICML/NeurIPS等顶会持续产出,研究方向覆盖预训练模型、智能体交互、多模态学习等前沿领域[25] 行业专家评价 - 中国工程院院士蒋昌俊认为该书"恰逢其时",是学术界和产业界探索LLM的必备读物[28] - 上海人工智能实验室主任周伯文指出该书系统覆盖预训练、多模态、智能体等前沿领域,具有重要参考价值[28] - 专家共识认为第二版新增内容(如RAG、智能体章节)显著提升了理论深度与实践指导性[27][28]
后DeepSeek时代,中国AI初创企业商业模式大调整
硬AI· 2025-03-25 20:41
中国AI初创企业战略调整 - DeepSeek的崛起正在重塑中国AI行业,迫使各家初创企业调整战略,包括尝试多条业务线、削减支出、停止大语言模型预训练并采用DeepSeek模型 [1] - 中国LLM市场正在迅速整合,集中在少数几家领先者手中,DeepSeek促使许多公司将资源重新导向应用而非基础模型开发 [2] - 零一万物停止预训练并转向销售基于DeepSeek模型的定制化AI解决方案,将其在混合专家模型方面的专业知识作为竞争优势 [4] - 月之暗面削减Kimi营销支出,专注于模型训练以复制DeepSeek的成功,并尝试通过虚拟礼物变现,此前已融资超13亿美元 [5] - 百川智能将业务重心转向医疗保健领域,专注于为医院开发AI医生技术 [5] - 智谱AI尝试多条业务线并建立企业销售业务,2024年销售额3亿元人民币但亏损20亿元,员工规模达800人 [6] 行业整合与竞争格局 - 行业呈现整合趋势,资源向DeepSeek等领先企业集中 [2] - 零一万物基础模型团队已转移至阿里巴巴 [4] - 阿里巴巴曾考虑收购月之暗面并获得优先购买权,但未来收购可能性降低 [5] - 智谱AI考虑年底前上市,但DeepSeek发展可能影响其IPO进程 [6] 企业融资与财务状况 - 月之暗面在去年两轮融资中筹集超过13亿美元 [5] - 智谱AI2024年销售额3亿元人民币(4100万美元),亏损20亿元人民币 [6]