Workflow
稀疏模型
icon
搜索文档
华为,重大发布!
新华网财经· 2025-06-20 20:17
盘古大模型进展 - 盘古大模型5.5发布,在自然语言处理、多模态等5大基础模型全面升级,加速行业智能化[1] - 发布盘古医学、金融、政务、工业、汽车五个行业自然语言大模型,6月底正式上线[1] - 盘古大模型已在30多个行业、500多个场景中落地,覆盖政务、金融、制造、医疗等多个领域[1] - 推出参数规模高达7180亿的盘古Ultra MoE模型,全流程在昇腾AI计算平台训练[1] 盘古Ultra MoE技术突破 - 采用Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现超过18TB数据的长期稳定训练[2] - 使用EP loss负载优化方法,保证专家负载均衡并提升领域特化能力[2] - 采用MLA和MTP架构,使用Dropless训练策略,平衡模型效果与效率[2] - 在昇腾CloudMatrix 384超节点上打通大稀疏比MoE强化学习后训练框架关键技术[3] 训练性能提升 - 预训练系统加速技术迭代升级,万卡集群预训练MFU由30%提升至41%[3] - 盘古Pro MoE大模型参数量720亿,激活160亿,性能媲美千亿级模型[3] - 在SuperCLUE 2025年5月排行榜上,盘古Pro MoE位居千亿参数量以内大模型国内并列第一[3] 鸿蒙6发布 - 鸿蒙6操作系统首次亮相,带来全新互联和智能体验[4] - HMAF鸿蒙智能体框架赋能应用和元服务智能化升级[4] - 鸿蒙生态进入加速阶段,超30000个应用及元服务在开发中,覆盖近20个行业[5] - 注册开发者数量突破800万,生态面临百万级人才缺口[5] 行业影响 - 证明在国产AI算力平台(昇腾)上能高效训练国际顶尖水平的超大规模稀疏模型[4] - 实现从硬件到软件、从训练到优化的全栈国产化和全流程自主可控[4]
面壁小钢炮4.0原生稀疏模型发布:最高220倍提速,开启端侧长文本时代
IPO早知道· 2025-06-10 10:39
模型发布与性能突破 - 面壁智能在2025智源大会上发布新一代端侧模型MiniCPM4.0,包括8B稀疏闪电版和0.5B版本,实现端侧性能创新式跃升[2] - 第四代小钢炮推出首个原生稀疏模型,5%极高稀疏度结合系统级创新技术,实现端侧长文本高效运行,宣告端侧长文本时代到来[2] - MiniCPM 4-8B采用新一代上下文稀疏高效架构,长文本推理速度实现5倍常规加速和最高220倍加速(显存受限场景)[4] 技术参数与性能表现 - MiniCPM 4.0推出8B和0.5B两种参数规模组合,延续"以小博大"特性,实现同级最佳性能[4] - MiniCPM 4.0-8B在MMLU等基准测试中以22%训练开销比肩Qwen-3-8B,超越Gemma-3-12B[4] - MiniCPM 4.0-0.5B以2.7%训练开销实现比Qwen-3-0.6B更优性能,参数减半性能翻倍,推理速度达600 Token/s[4] 存储优化与适配能力 - MiniCPM 4.0在128K长文本场景下仅需Qwen3-8B 1/4的缓存空间,量化版实现90%模型瘦身[5] - 模型已适配Intel、高通、MTK、华为昇腾等主流芯片,可在vLLM、SGLang等开源框架部署[6] - 加强MCP支持,性能超过同尺寸开源模型,拓展模型开发和应用潜力[6] 应用场景与市场表现 - 基于8B版本微调出MCP Client和MiniCPM4-Surve研究报告工具[6] - MiniCPM系列全平台累计下载量突破1000万[8] - 公司将持续基于"大模型密度定律Densing Law"提高知识密度与智能水平,推动端侧智能产业化[8]
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman 只会画饼,Jeff 说的话才致命”
AI前线· 2025-05-28 13:17
作者 | Tina、核子可乐 最近,谷歌传奇工程师 Jeff Dean 在一次访谈中大胆预测:在一年之内,我们将拥有能够 24/7 全天 候运行、具备"初级工程师"能力的 AI 系统。 Jeff Dean 是现代计算领域的传奇人物,曾主导谷歌在大规模分布式系统和人工智能方面的诸多突 破。他不仅是 Google Brain 项目的联合创始人,还先后推动了 MapReduce、Bigtable、Spanner 和 TensorFlow 等关键系统的诞生,自 2018 年起担任 Google AI 负责人,2023 年在 DeepMind 与 Google Brain 合并后出任谷歌首席科学家。从参与 BERT 论文、主导 TPU 研发,到推动谷歌基础 AI 架构的演进,Dean 几乎见证并亲历了谷歌每一个关键的 AI 发展节点。 作为技术界最具影响力的人物之一,Jeff Dean 的这番言论一经发布,迅速在业内引发热议。虽然此 前包括 Sam Altman 在内的不少业内人士也曾表达过类似观点,但 Jeff Dean 的话语分量显然不同。 正如有网友所说:相比那个总在"兜售"某种概念的 Sam Altman,Je ...
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
新浪财经· 2025-05-19 06:46
编译 | 核子可乐、Tina 最近,谷歌传奇工程师 Jeff Dean 在一次访谈中大胆预测:在一年之内,我们将拥有能够 24/7 全天候运 行、具备"初级工程师"能力的 AI 系统。 Jeff Dean 是现代计算领域的传奇人物,曾主导谷歌在大规模分布式系统和人工智能方面的诸多突破。 他不仅是 Google Brain 项目的联合创始人,还先后推动了 MapReduce、Bigtable、Spanner 和 TensorFlow 等关键系统的诞生,自 2018 年起担任 Google AI 负责人,2023 年在 DeepMind 与 Google Brain 合并后 出任谷歌首席科学家。从参与 BERT 论文、主导 TPU 研发,到推动谷歌基础 AI 架构的演进,Dean 几 乎见证并亲历了谷歌每一个关键的 AI 发展节点。 作为技术界最具影响力的人物之一,Jeff Dean 的这番言论一经发布,迅速在业内引发热议。虽然此前 包括 Sam Altman 在内的不少业内人士也曾表达过类似观点,但 Jeff Dean 的话语分量显然不同。正如有 网友所说:相比那个总在"兜售"某种概念的 Sam Altman, ...