Workflow
Scaling law
icon
搜索文档
昇腾+鲲鹏双核暴击!华为打通MoE训练任督二脉再加速20%,内存省70%
雷峰网· 2025-06-04 17:31
华为MoE训练技术突破 - 公司通过昇腾与鲲鹏算力深度协同,实现训练算子计算效率和内存利用率大幅提升,MoE训练吞吐提升20%,内存占用降低70% [6][7] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径,支持千亿至万亿参数规模 [3][4] - 行业面临单节点训练效率挑战,包括算子计算效率低、专家路由机制导致下发中断、NPU内存不足三大难题 [10][13][16] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention/MatMul/Vector三大核心算子,采用"瘦身术/均衡术/搬运术"优化策略,整体训练吞吐提升15% [19][20][21] - FlashAttention算子通过消除冗余计算和优化流水线,前/反向性能分别提升50%/30% [23][25] - MatMul算子通过双级数据流水优化,Cube计算单元利用率提升10% [26][28] - Vector算子融合细粒度小算子并减少数据搬运,性能提升3倍以上 [30][32] 昇腾-鲲鹏协同优化 - 通过Host-Device协同实现算子下发"零等待"(free时间占比<2%),训练吞吐额外提升4% [34][44] - 采用重排下发序技术使单次Host-Bound时间从2.1ms降至0.6ms,降幅超70% [39] - 自定义粗粒度绑核策略(每NPU绑24核)完全消除系统型Host-Bound瓶颈 [43] 内存优化技术创新 - Selective R/S技术实现多维度内存解剖,节省70%激活值内存 [46] - 建立细粒度重计算与Swap策略库,涵盖MLA/RmsNorm/Permute等模块的定制化优化 [50][52] - 采用贪心算法和Swap带宽竞争分析实现自适应内存优化管理,平衡内存节省与额外耗时 [56] 行业影响与成果 - 该方案为Pangu Ultra MoE 718B模型训练扫清障碍,展现公司在AI算力领域的技术积累 [58] - 技术突破包括集群通信优化、算子加速、内存节省三大维度,形成完整解决方案 [17][21][46] - 成果为行业大规模MoE训练提供参考路径,推动AI模型参数规模持续扩展 [4][59]
全球“All in AI” 中国科技巨头生态“攻守”
21世纪经济报道· 2025-05-29 22:12
中国互联网巨头AI布局与云计算发展 核心观点 - AI成为互联网巨头生态攻防的核心战场,2025年将开启军备竞赛[2] - 云计算是AI发展的底层基础,阿里云通过"双十一"脉冲场景积累算力冗余并实现商业化[4][5] - 各大厂商AI战略与其原有生态高度协同:华为侧重政企全栈自主,腾讯聚焦C端社交生态[9][10] - 2024年一季度资本开支显示巨头对AI投入趋于谨慎,主要受开源模型冲击和商业模式闭环难题影响[12][13] 算力基建发展 - 阿里云2013年成为全球首家提供5K云计算服务的企业,2024年以65.13亿美元营收领跑中国市场[4][7] - 云计算商业模式起源于阿里应对"双十一"交易峰值产生的算力冗余[4] - 阿里云已完成智算升级,支持GPU虚拟化等AI基础能力,服务全球400万客户[5][7] 巨头生态差异化布局 - 华为云依托全栈自主技术(昇腾/鲲鹏)和政企经验,重点布局工业、医疗等垂直领域[9][10] - 腾讯云基于社交生态链接麦当劳等国际企业,快速接入DeepSeek并主推微信AI智能体生态[9][10] - 阿里云中小客户占比达80%,通义千问成为性能最强的国产AI模型之一[7][8] 当前AI发展瓶颈 - 一季度腾讯AI资本开支275亿元,环比下降25%,阿里246亿元同比增120%但环比降30%[12] - DeepSeek开源导致训练算力需求减弱,C端免费模式与订阅收费存在根本冲突[13] - 行业尚未建立"用户-模型-算力"的商业闭环,资本回报周期难以测算[13]
清华天才杨植麟的“理想国”,为何败给梁文锋?
凤凰网财经· 2025-05-28 20:51
核心观点 - 文章探讨了90后AI创业者杨植麟及其公司月之暗面在AI2 0时代的创业历程 并与85后创业者梁文锋的DeepSeek进行对比 分析两者在技术路线 商业模式和市场竞争中的差异 [6][10][13][18][24][25][27][28][29] 杨植麟的背景与创业历程 - 杨植麟是90后AI创业者 拥有卡耐基梅隆大学博士学位 师从苹果AI负责人和谷歌首席科学家 博士期间发表Transformer-XL和XLNet两篇里程碑论文 引用量超22000次 [9][10] - 2023年创立月之暗面 主攻AGI领域 公司名称和会议室命名均源自摇滚乐队平克弗洛伊德 体现其文艺青年特质 [10] - 公司成立初期获得红杉中国 真格基金2亿美元融资 后续获美团 阿里 腾讯等战投 [13] 月之暗面的技术路线与商业化尝试 - 杨植麟坚信Scaling law是模型训练的第一性原理 认为扩大用户数据样本能优化模型性能 2024年3-8月投入1 4亿元广告费 月活从400万增至1282万 [16][17] - 商业化尝试包括:推出付费版本(高峰优先使用权) 上线浏览器插件 发布企业级API 与财新传媒合作 自建内容社区等 [23][24][25] - 产品迭代缓慢 团队规模保持在200人以内 2024年下半年多名算法工程师离职 [18] 与DeepSeek的竞争对比 - DeepSeek成立于2023年7月 创始人梁文锋采取非主流策略 拒绝外部投资 保持技术专注 通过多层股权结构掌握84 3%控制权 [16][25] - 技术路线:开源部分代码吸引开发者 保留核心算法封闭性 形成"开源引流-定制收费"模式 API价格仅为行业1/5 与云厂商深度绑定 [24][25] - 2024年1月DeepSeek R1与Kimi1 5同日发布 DeepSeek R1因推理性能突出引发轰动 下载量一个月破亿 Kimi月活从3600万腰斩至1820万 [18][21][25] 行业格局与未来展望 - AI创业窗口期短 巨头入场后竞争白热化 百度 字节 阿里 腾讯频繁迭代模型 微软 谷歌全面押注Agent [28] - 行业观点认为中国市场最终可能仅剩DeepSeek 阿里 字节三家大模型提供商 [28] - 现有Transformer架构存在幻觉问题 未来可能出现新架构 为90后创业者提供机会 [29]
杨植麟,一个90后理想主义者的悬浮
虎嗅· 2025-05-28 14:01
天才的标签之外,杨植麟还是个资深文青。90后一代或多或少都曾迷恋过村上春树,1992年出生的杨植 麟也不例外。在村上春树的一本小说中,杨植麟对一个程序员深夜写代码这件事印象深刻,并充满憧 憬,这为他未来进入AI领域埋下了伏笔。 高中和大学时期,他热爱摇滚,最喜欢的乐队是平克弗洛伊德。在清华读书期间,他创立了摇滚乐队 Splay,曾晋级清华大学校园歌手大赛原创决赛。清华向来有音乐传统,除了走出过高晓松和水木年 华,杨植麟那位大名鼎鼎的学弟姚顺雨(任职于OpenAI),本科时还曾创立了清华大学说唱社。 玩摇滚和说唱属于理科生的叛逆和浪漫。90后一代人的迷茫在于,这个时代留给他们的红利并不多,音 乐恰好能宣泄这种愤懑的情绪。杨植麟的乐队创作过一首歌,讲述了一个关于"做了一个创业成功一夜 暴富的白日梦"的故事。他们对追求理想和获得金钱总是摇摆不定,这正是青春期普遍的状态,渴望一 夜暴富或许是抵挡理想主义破灭的有效手段。 从时间坐标上来看,其实90后赶上过移动互联网红利期的尾巴。戴威是只比杨植麟大一岁的清华校友, 2015年,戴威的ofo共享单车正式上线,并在全球首创"无桩单车共享"模式,成为当之无愧的创业明 星。of ...
Now, Scaling What?
机器之心· 2025-05-24 22:12
机器之心PRO · 会员通讯 Week 21 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. Now, Scaling What? 「Scaling What」的阶段性答案是什么?如何从确定「What to Scale」到搞定「How to Scale」?「Tuning」和 「Inference」在后训练中为何同等重要?Scaling Law 正在继续蔓延到哪些领域?... 2. Meta CEO X 微软 CEO 对话解读:「蒸馏工厂」为何成为开源的魅力之源? 「蒸馏工厂」是什么?为什么「蒸馏工厂」是开源最大的魅力之一?为何说当前 AI 浪潮是新一轮技术平台革命?微软如何在开 源与闭源 AI 模型之间找到战略平衡?... 本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 7 项,国外方面 10 项。 本期通讯总计 22878 字,可免费试读至 9% 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 要事解读① Now, Scaling What? 引言 : 自 2024 年起 ...
2024年中国人工智能产业研究报告
艾瑞咨询· 2025-05-23 17:42
人工智能产业宏观环境 - 2024年国家将人工智能纳入战略重点,各地政府推进科研创新与算力基建,因地制宜出台特色政策 [4] - GDP增速放缓背景下,AI作为新质生产力在效率提升和产业升级方面展现潜力,政府支持提供强劲动能 [4] - 资本市场聚焦语言/多模态模型应用、芯片、算力服务等领域,基础层与应用层协同完善产业生态 [4][12] - 生成式AI普及提升公众接受度,但就业替代和隐私问题引发焦虑 [4] 技术发展与创新 - Transformer架构仍主导大模型发展,研发侧通过强化学习、思维链优化提升推理能力,加速跨模态融合 [4][16] - Scaling Law面临高质量数据与资源限制挑战,厂商转向后训练思维链优化和强化学习推理优化 [18] - DeepSeek开源模型通过多令牌预测(MTP)、多头潜在注意力机制(MLA)等技术降低训练/推理成本达50%以上 [31][83] - 端到端语音大模型架构(如GPT-4o)提升交互流畅度,但级联式架构仍保持可控性优势 [50] 市场规模与商业化 - 2024年中国AI产业规模2697亿元,增速26.2%低于预期,主因大模型场景落地成本高且处于探索阶段 [6][24] - 预计2025-2029年CAGR达32.1%,2029年规模破万亿,DeepSeek开源推动2025年加速增长 [25] - B端以项目制为主(政务、教科、通信、能源领域占60%),C端采用"免费+订阅制" [6][37][39] - 价格战激烈:字节大模型降价99%,阿里云通义千问降价97%,百度部分模型免费 [34] 产业动态与竞争格局 - 算力需求向推理侧转移,开源模型推动智算中心利用率提升 [6] - 分布式框架(DeepSpeed、Colossal-AI)、LLMOps平台及一体机产品降低企业应用门槛 [28] - 大厂主导C端生态(如kimi、豆包),创业公司聚焦垂类B端市场 [66] - 出海集中在图像/视频(占40%)和社交/情感陪伴(占35%)赛道,字节、阿里云、Minimax为主要厂商 [71][73] 产品创新方向 - AI Agent从对话问答向复杂任务代理演进,智谱AutoGLM支持超长任务规划 [45][76] - 具身智能成为战略高地,需解决硬件加速与跨行业协作挑战 [80] - AI硬件端侧落地加速:华为、荣耀等手机集成大模型,豆包推出AI耳机 [47] - 多模态模型分化为生成向(DiT架构)与理解向(MLLM架构),技术融合是未来关键 [63] 技术普惠与生态建设 - DeepSeek开源策略降低中小开发者使用门槛,带动沐曦、阿里云等产业链合作 [7][37][83] - MCP协议连接1100+工具服务,推动Agent生态标准化 [77] - 视觉生成产品商业化提速,Sora验证DiT架构在视频生成的优势 [56][63]
机器人“最强大脑”竞赛白热化:特斯拉、Figure押注空间智能
21世纪经济报道· 2025-05-22 20:54
头部机器人技术进展 - 特斯拉展示机器人完成倒垃圾、搅拌锅、操作吸尘器等家务任务,所有机器人使用同一神经网络模型训练,技能通过真人视频学习而非VR动作捕捉 [1] - Figure机器人在宝马X3生产线完成连续20小时轮班作业,并持续数周进行10小时轮班测试 [1] - 特斯拉采用端到端模型处理机器人三维空间操作,但面临大规模高质量训练数据集获取难题 [4] 行业投融资与合作动态 - 自变量机器人完成数亿元A轮融资,由美团战投领投、美团龙珠跟投 [2] - 华为与优必选签署全面合作协议,聚焦具身智能和人形机器人领域 [2] - 腾讯云与越疆科技深化战略合作,加速具身智能机器人规模化落地 [2] 技术瓶颈与解决方案 - 机器人三维操作依赖物理世界真机数据,但采集成本高,特斯拉使用合成数据辅助训练,行业普遍采用仿真环境迭代(如英伟达Omniverse Isaac平台) [4][5] - 人形机器人面临速度(电机、减速器限制)和精度(传感器力反馈、工厂环境干扰)问题,当前无法完全匹配自动化生产线节拍 [6] - 仿真环境可带入物理属性数据,中国本土平台如松应科技、群核智能提供支持 [5] 商业化落地场景 - 美的"美罗1号"、乐聚机器人(100台交付)、小鹏Iron机器人(2026年量产)已进入工厂实训 [5] - 人形机器人单台成本达50-100万元,交付量突破1000台/工厂被视为关键里程碑 [6] - Figure规划BotQ工厂年产能1.2万台,四年内扩产至10万台/年 [6] 产业链协同与闭环迭代 - 整车厂(赛力斯、长安、奇瑞)和消费制造企业(美的、海尔、追觅)积极布局机器人研发 [6] - 机器人自装配场景可能成为新市场,Figure等公司探索"机器人制造机器人"模式 [6] - 自研机器人投入生产流程可降低人力成本并积累训练数据,形成"研发-制造-反馈"闭环 [7]
博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理内存!
AI前线· 2025-05-21 18:04
整理 | 华卫 提升大语言模型(LLM)的智能水平,通常有两条主流的 Scaling Law 路线。一是扩展参数,用更多 模型参数来更细致地学习,这种方法非常吃显存;二是扩展推理思考的时间,增大思维链长度,这种 方法非常吃时间且依赖于训练数据、训练策略(RL),只适用于部分场景。 | Method | Inference Time | Inference Space | Training Cost | Specialized Strategy | | --- | --- | --- | --- | --- | | Dense Scaling | Moderate | 20 High | Pre-training only | (= No | | MoE Scaling | Low | 60 High | Pre-training only | 69 Load balancing | | Inference-Time Scaling | 6. High | (= Moderate | Post-training | 0 RL / reward data | | Parallel Scaling | (=) Mo ...
虹软科技(688088):视觉界的DeepSeek,技术红利到业绩爆发(智联汽车系列之44)
申万宏源证券· 2025-05-20 16:45
报告公司投资评级 - 报告将虹软科技的投资评级从增持上调至“买入” [8][9] 报告的核心观点 - 虹软科技技术优势被低估,其技术思路与 DeepSeek 相似,有丰富技术层级、跨层耦合技巧、通用化和软硬一体化特征,且同行公司思路不同 [8][11] - 技术优势带来持续上修的市场空间,竞争不算激烈,还使商业模式“波士顿矩阵”动态变化 [8] - 2025 - 2027 年动态展望前景光明,当前布局端侧与 AIGC,智能手机逆势增长,智能驾驶增长加速,AI 眼镜/头显 2025 年为突破元年,智能商拍有 AIGC 新机遇 [8] - 维持公司 2025 - 2027 年收入和归母净利润预测,选取可比公司,基于 PS 估值倍数,目标估值 300 亿元,前景光明,故上调评级 [8][9] 根据相关目录分别进行总结 虹软科技技术:底层优化与工程化 - 技术复杂度起点是技术层次,如智能手机、基础理科等案例,层级堆叠促成技术复杂度,如光刻机、智能手机、智联汽车系统 [27][29][30] - 技术优势包括跨层耦合、通用化、软硬一体化,跨层耦合可提高技术效率,如方舟编译器;通用化中台化可实现能力复用,如阿里巴巴中台战略和英伟达 CUDA;软硬一体化需平衡软硬件和开发环境兼容性 [32][41][42] - DeepSeek 有混合专家模型创新、纯强化学习推理突破、原始稀疏注意力机制、底层指令集优化等思路,虹软科技与 DeepSeek 有丰富技术层次、通用化尝试、跨层耦合和软硬一体化特征 [46][48][57] - 通过 Nerf、Diffusion、SAM 三个大模型算法案例证明虹软科技思路类似且部分特点更好,体现其技术层次、底层优化和工程化能力 [74][75][77] 虹软科技:持续上修的市场空间 - 软件轴与硬件轴持续延展,新领域竞争不激烈,技术、客户和商业口碑可复用,市场空间持续上修 [81][82] - 市场空间上修使虹软科技商业模式“波士顿矩阵”动态变化,若发展顺利,会有更多金牛产品与明细产品滋养问号产品、改善瘦狗产品 [82] 当下布局的重要赛道:端侧和 AIGC - 智能手机业务聚焦头部客户,是安卓智能手机摄像 AI 算法主要提供商,技术方案完善,技术迭代驱动业务逆势增长 [100][102][104] - 智能驾驶业务将手机视觉技术迁移,上市募资重点投向接近收敛,前装纯软件收入增长、毛利率高,形成先软件再软硬一体产品体系,后续增长动力来自纯软件渗透和软硬一体扩散 [109][113][119] - AI 眼镜/头显预计 2025 年为元年,AI 端侧需求上升,轻便舒适加替代常用工具预示未来销量有望大幅提升 [126][129] 盈利预测与估值 - 维持公司 2025 - 2027 年收入预测分别为 10.00、12.57、15.94 亿元,归母净利润分别为 2.33、3.09、4.38 亿元 [8][9] - 选取以技术优势和投入著称、纯软件商业特征的公司作比较,基于 PS 估值倍数,选择 2025 年 30XPS,对应 300 亿元,国际对标公司市值高,前景光明,上调评级 [9]
超过霉霉,她拿下全球最年轻女富豪
创业家· 2025-05-16 17:55
核心观点 - 30岁华裔科技创业者Lucy Guo以12.5亿美元身家取代泰勒·斯威夫特成为全球最年轻白手起家女亿万富翁,财富主要来源于其持有的Scale AI 5%股份及创立的Passes平台 [3][4][10][13] - Scale AI作为AI数据标注领域先驱,最新估值达250亿美元(约1816亿元人民币),较一年前增长80%,预计2024年营收超20亿美元,2025年接近40亿美元 [13][16] - AI行业正以前所未有速度创造财富,科技行业财富格局快速变化,性别壁垒被打破 [17] Lucy Guo创业历程 - 早期经历:高中阶段通过互联网创业积累经验,包括售卖宝可梦卡牌、开发游戏外挂等,大学就读卡内基梅隆大学计算机科学专业,2014年辍学获得蒂尔奖学金 [8] - 职业发展:先后任职于Facebook、Snapchat(首位女性设计师)、Quora,2016年与Alexandr Wang联合创立Scale AI [9] - 后续创业:2018年离开Scale AI后成立Backend Capital风投公司,2022年创办创作者平台Passes,三轮融资5000万美元估值1.5亿美元 [10] Scale AI业务发展 - 商业模式:从自动驾驶数据标注切入,扩展至AIaaS全链条服务,包括数据标记管理、模型训练评估及合成数据生成 [13][14] - 客户拓展:早期服务Tesla、Cruise等车企,后与OpenAI、Meta、微软等建立合作,并渗透政府市场 [15] - 财务表现:2023年收入7.5亿美元同比增长3倍,2024年5月获10亿美元融资估值138亿美元,投资者包括亚马逊、英伟达等产业资本 [16] 行业趋势 - 技术驱动:大模型兴起推动数据需求激增,Scale AI外包全球20万标注员实现成本优化(部分时薪低于1美元) [15] - 资本热度:AI基础设施领域受顶级资本追捧,Scale AI成立五年即达73亿美元估值,现位列美国十大最有价值初创公司 [15][16]