Pangu

搜索文档
套壳、续训、洗水印?如何看待疑似某厂员工的自爆?
虎嗅· 2025-07-07 17:55
事件时间线梳理 - 6月30日华为开源盘古-7B稠密模型和Pangu Pro MoE 72B [2] - 7月4日GitHub账号@HonestAGI发布论文指控Pangu Pro MoE与阿里Qwen-2.5 14B高度相似 [2] - 7月5日华为官方声明否认抄袭并质疑论文方法学 [2] - 7月6日自称盘古四纵成员发布长文爆料内部"续训套壳"等问题 [2] - 7月7日科技媒体跟进报道并展开模型权重实测 [2] 技术争议焦点 - 论文采用参数"指纹"法比对认为模型相似度达可疑程度 [2] - 争议缺乏原始训练日志、算力租用凭证等硬核证据 [3] - 爆料涉及系统性模型套壳造假和高层知情默许等严重指控 [24] 公司治理问题 - 信息通道失灵导致基层负面情绪长期积累 [8] - 经理层未能有效处理不公平评价引发的负能量 [6] - 内部投诉机制失效使技术成果被窃取问题未获解决 [11] - 流程管理存在"只许州官放火"的双重标准现象 [42] 行业类似案例 - 基因测序巨头Illumina工程师举报设备缺陷导致FDA强制召回 [13][15] - 硅谷AI芯片公司Lightmatter CTO爆料创始人造假遭法律反制 [14][16][30] - 医疗AI公司Zebra员工举报数据造假被刑事调查 [17][19][20][21] 爆料内容分析 - 包含大量内部技术细节如模型迭代路径、训练问题等核心信息 [27] - 指控内容涉及管理流程失效、人才流失等系统性问题 [32] - 主观推测成分较多可能引发法律风险如诽谤或商业秘密诉讼 [25] 职场管理启示 - 负能量积累会导致核心人才流失和团队士气崩溃 [32][33] - 汇报能力不足可能导致技术成果被其他团队侵占 [34] - 存在特权通道现象破坏管理公平性 [42] - 流程繁复与研发效率需要平衡 [37][38] 个人风险警示 - 实名举报可能面临民事诉讼索赔和刑事风险 [25] - 匿名性在大数据排查面前非常脆弱 [28] - 建议立即停止信息扩散并清理可追溯痕迹 [29] - 保存证据需在律师指导下隐秘进行 [36]
华为盘古团队:否认抄袭!
程序员的那些事· 2025-07-06 20:33
华为盘古大模型开源事件 - 华为于6月30日宣布开源盘古大模型(Pangu Pro MoE 72B)和基于昇腾的模型推理技术,旨在推动大模型技术研究与创新发展,加速AI在千行百业的应用[1] - 盘古大模型被指与阿里巴巴通义千问Qwen-2.5 14B模型参数结构"惊人一致",引发技术原创性与开源合规性讨论[1] 技术相似性质疑 - 7月4日GitHub研究指出,盘古Pro MoE模型与阿里通义千问Qwen-2.5 14B模型的注意力参数分布存在高度相似性,平均相关性达0.927[2] - 研究在盘古开源代码文件中发现标注"Copyright 2024 The Qwen team, Alibaba Group",质疑复制阿里代码时未删除版权声明[2] 华为技术团队回应 - 盘古团队否认抄袭指控,认为评估方法不科学[3] - 强调技术原创性:盘古Pro MoE是全球首个面向昇腾硬件平台设计的同规格混合专家模型,创新提出分组混合专家模型(MoGE)架构[3] - 说明开源合规性:承认部分基础组件参考了业界开源实践,但严格遵循开源许可证要求,清晰标注版权声明[3] - 重申开源理念:华为坚持开放创新,尊重第三方知识产权,提倡包容、公平、开放的开源理念[3]
网传华为盘古大模型疑似抄袭通义千问,盘古团队否认
快讯· 2025-07-04 20:02
近日,一项发布于GitHub的研究引发业界热议,该研究的作者认为,华为推出的盘古大模型(Pangu Pro MoE)与阿里巴巴发布的通义千问Qwen-2.514B模型在参数结构上存在"惊人一致"。该作者通过实证比 较,发现Pangu Pro MoE模型与Qwen-2.514B模型在注意力参数分布上的平均相关性高达0.927,远超其 他模型对比的正常范围。网友们认为,这可能意味着Pangu Pro MoE存在抄袭。据悉,盘古大模型团队 在GitHub中进行了回应,否认抄袭指控,并且认为该作者的评估方法不科学。针对此事,截止发稿前, 华为官方暂未置评。(新浪科技) ...
三年跃迁中国AI凭什么逆袭美国?
36氪· 2025-06-26 10:29
中国AI技术发展现状 - 中美AI技术差距从2022年显著缩小至2025年不足三个月,中国AI实验室和企业取得巨大进步 [2] - DeepSeek R1模型(2025年5月)与OpenAI o3同获68分评分,阿里巴巴Qwen3 235B A22B评分47分,中美语言模型能力接近 [2] - 中国通过技术创新实现跨越,如DeepSeek R1采用强化学习优化推理能力,参数规模达671B(活跃参数37B),在MMLU-Pro等评测中表现优异 [2] 开放权重战略 - 中国头部实验室采用开放权重策略,与美国闭源形成对比,如阿里巴巴QwQ 32B Preview超越Meta Llama 3.1 405B成为最智能开源模型 [4] - 开放权重降低技术门槛,加速技术扩散并构建生态,如字节跳动Seedream 3.0吸引全球开发者二次开发 [7][8][9] - 阿里巴巴、腾讯、华为等企业2024-2025年陆续推出旗舰开源模型,形成技术共享共识 [9][10] 企业生态协同 - 大科技公司(阿里、腾讯、华为)提供底层模型和平台支持,如阿里ModelScope、华为Pangu系列配套芯片云服务 [16] - AI初创企业专注垂直领域:Moonshot AI专攻长文本处理,MiniMax优化轻量级边缘设备模型 [18] - 跨界玩家(小米、百度、360)将AI融入现有产品,如小米MiMo-7B增强小爱同学,360整合AI至安全软件和办公工具 [19][20] 多模态能力进展 - 中国图像生成模型快速追赶,字节Seedream 3.0(ELO 1111)接近Midjourney V6(ELO 1150),阿里Seedream系列优化中文提示支持 [22] - 视频生成领域中国加速突破,快手Kling 2.0(ELO 1053)和阿里Wan 2.1(ELO 1039)虽落后Google Veo 3(ELO 1247),但本土化应用突出 [25][26] - 大公司整合多模态能力:阿里ModelScope支持图像/视频功能,腾讯Hunyuan提供一站式多模态接口 [28][29] 中美AI竞争与合作 - 基础研究共享仍存空间,如Transformer架构和扩散模型曾依赖全球协作 [33] - 行业标准共建需求显著,中美共同参与联合国教科文组织等国际AI治理框架建设 [34][35] - 商业合作持续存在,中国企业需求英伟达芯片,美国企业寻求中国市场机会 [36]
从开源共建到生态繁荣:昇思MindSpore支持Day0迁移、一键部署
财联社· 2025-06-12 18:59
大模型技术发展趋势 - 大模型参数规模从十亿级跃升至万亿级,模型结构从稠密到稀疏,应用范式走向多模态和Agent [1] - 昇腾开发者核心诉求是如何在昇腾上快速使能和体验多种模型与技术 [1] 昇思MindSpore的核心挑战与解决方案 迁移挑战 - 实现三方框架模型"零成本"迁移,避免重复造轮子,同时模型精度完全对齐 [1] - 通过MindSpeed/Megatron桥接层实现PyTorch模型零代码迁移,训练脚本可直接运行 [4] - 动态图能力重构让PyTorch开发者获得"原生体验",MSAdapter工具自动转换95%以上接口 [4] - 主流模型如DeepSeek、Pangu等迁移损耗逼近于零 [4] 性能优化 - 动态图编译优化:多级流水线+即时编译(JIT),单卡训练效率提升40% [4] - 分布式智能调优:自动负载均衡工具解决万卡训练"木桶效应",线性度突破96% [4] - 逐层精度对齐:在昇腾硬件上实现主流模型逐层0误差 [4] 推理部署优化 - 支持HuggingFace模型半小时部署上线,通过vLLM-MindSpore插件实现分钟级服务化 [6] - 支持业界主流模型开箱即用,DeepSeek、Pangu、Qwen等20+模型已上线 [6] - 权重加载耗时降低80%(百亿模型小于30秒),图编译时延压缩至毫秒级 [6] 开源生态建设 - 昇思MindSpore累计获得1200万次下载,开发者遍布130个国家和地区,覆盖2400座城市 [7] - 超过四万六千名开发者参与,11万+行代码合入请求,1700多篇学术成果 [7] - 提供免费算力平台(MindSpore大模型平台),20+技术SIG组覆盖AI前沿领域 [8] 未来展望 - AI软件基座将属于开源开放与极简高效共舞的时代 [8]
2025 SNEC光伏展火爆如昨“心中的光与热从未熄灭”
证券时报· 2025-06-12 01:22
行业现状与展会概况 - 2025 SNEC光伏展在上海国家会展中心举办,被视为观察行业动向的重要窗口,尽管行业经历深度重构和史上最大规模亏损(2024年及2025年一季度)[1] - 展会规模庞大:吸引全球近100个国家从业者、3600多家参展商,展位面积近40万平方米,国际展商占比30%,预计观众超50万人次[1] - 行业技术路线竞争激烈,厂商集中展示TOPCon、BC及钙钛矿等新技术产品[1][2][4] 技术路线竞争 TOPCon阵营 - 晶科能源展出TigerNeo3.0组件,功率达670W,转换效率24.8%,融合多项创新技术减少光学/电学损耗[2] - 正泰新能展示ASTRO N7组件(最高效率24.1%)和ASTRO N7 Pro组件(功率670W,效率24.8%),TOPCon 5.0电池效率较4.0提升0.4%-0.6%[2] - 正泰新能ASTRO N8 Pro功率突破800W,采用多分片设计和TOPCon 5.0电池技术,但量产节奏取决于市场需求[2] BC阵营 - 爱旭股份重点展示双面率80%±5%的BC组件,解决传统BC组件双面率低的痛点[3] - 隆基绿能推出Hi-MO 9组件,电池效率从26.6%提升至27%,组件功率660W→670W,转换效率24.3%→24.8%,双面率提升至75%-80%[3] 钙钛矿技术 - 天合光能计划建设钙钛矿中试生产线,效率较晶体硅组件提升4个百分点以上[4] - 协鑫集团展示钙钛矿叠层组件优势:理论效率较传统组件高50%,成本低20%,碳足迹降超50%,1GW组件全周期增收至少20亿元[4] - 协鑫科技展出2平方米单结组件(效率19.04%)和1.71平方米叠层组件(效率26.36%),成本仅为晶硅组件的50%,已启动GW级生产基地建设[4][5] - 晶科能源N型TOPCon钙钛矿叠层电池效率达34.22%,Voc超2.01V,可靠性测试中效率衰减<5%[5] 业务多元化转型 - 天合光能战略转型为"光储智慧能源解决方案领导者",推出覆盖分布式/集中式电站、绿色交通、零碳园区等场景的智慧能源解决方案[6] - 晶澳科技拓展晶澳智慧能源业务,提供光伏+、充电桩、零碳园区等工商业解决方案[6] - 隆基绿能推出Hi ROOF S光建产品,适配10余种屋面瓦型,推动光伏与建筑融合[7] - 协鑫科技拓展硅烷气业务(年产60万吨),外售部分国内市占率25%,应用领域延伸至半导体、硅碳负极等[7] AI与能源结合 - 为恒智能推出PANGU3.0智慧能源管理平台,支持十万级点位监控、150+设备协议,集成虚拟电厂等SaaS服务[8] - 天合光能GainCube盈立方AI方案通过智能调度提升光储收益5%-10%,首次亮相虚拟电厂解决方案[9] - 晶澳智慧能源与蚂蚁数科签约AI智能体合作,共同拓展虚拟电厂应用[9]
质变 · 因智变而生 | 为恒智能品牌焕新暨储能新品发布会圆满举行
鑫椤储能· 2025-06-11 10:02
品牌焕新与战略布局 - 公司举办2025为恒智能品牌焕新暨储能新品发布会,主题为"质变・因智变而生",展示其在储能领域的创新实力与战略布局 [2] - 全新品牌LOGO WHES设计理念包含地球责任、能源洞察、行业专家追求及可持续发展理念 [10] - 公司从"双品牌运营"迈向"统一全球品牌、服务全球市场",以"全球领先的数字能源服务商"为愿景 [12] 行业趋势与政策背景 - 2025年和"十五五"时期是我国能源发展关键期,储能在新型电力系统中至关重要 [2] - 政策推动储能参与系统建设,储能商业化进程加快,行业竞争焦点转向长寿命电芯、智能EMS等技术 [8] - 储能正从"被动调节"向"主动支撑电网"转变,迈向全生命周期智能化管理新阶段 [8] 全球市场与技术成果 - 公司产品覆盖全球38个国家和地区,项目规模达数百MWh,应用于工业制造、数据中心等多场景 [8] - 通过eCactus子品牌拓展户用储能市场,构建覆盖中小型企业至地面电站的全场景产品体系 [8][14] - 公司以技术研发为核心驱动力,持续降低储能全周期成本,推动储能升级为开放互联的"生态系统" [8] 新品发布与技术亮点 - TIANWU D系列:418kW/836kWh工业储能标杆,1.4m超薄机身,226kWh/m²高能量密度,55℃高温满功率运行 [16] - PowerCore系列:250kW/509kWh多场景方案,65dB低噪运行,10000次循环寿命,适配全球市场 [17] - PowerAce系列:1.5MW/3MWh大型场景方案,支持3.34MWh灵活减簇,交付周期缩短40% [18] 智能化平台升级 - PANGU 3.0智慧能源管理平台首创动态跟踪需量功能,实现"零反送"并网,节省扩容成本 [21] - 六大AI引擎升级:预测误差降低30%,月度成本降低35%,年度收益提升60%,报价准确率88% [23] - 设备间通信延迟从数百毫秒压缩至<50毫秒,故障自愈时间从数小时缩短至数秒至数分钟 [27] 技术性能对比 - 传统EMS故障诊断时间数分钟,AI系统级控制<10秒 [27] - 传统EMS非计划停机率3%,AI系统级控制<0.5% [27] - 多设备协同效率从85%提升至98% [27]
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 19:25
AI算力集群高可用性技术 核心观点 - AI算力集群需具备"永不罢工"能力,通过高可用性技术保障24小时稳定运行,成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题,包括三大基础能力(故障感知诊断、故障管理、光链路容错)和三大业务支撑能力(集群线性度、训练快恢、推理快恢)[12] 技术方案细节 故障感知与诊断 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天[2] - 华为方案: - 构建全栈可观测能力(集群运行视图/告警视图/网络链路监控等)[2] - 开发四大诊断技术(全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断)[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案: - 首创光链路软件容错技术,容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min,算力损失下降5%[3] 训练效率优化 - 线性度提升技术: - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果: - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%,4K卡线性度96.48%[6] - 训练快恢系统: - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min,在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错:实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破: - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s,较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]
敢说永不掉线、秒级恢复,华为的底气是什么?
虎嗅APP· 2025-06-10 18:18
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现系统效能最优[1] - 以整体视角重构路径,通过复杂系统的极致把控与再组织寻找技术突破可能,有望独立引领前沿技术发展[1] 高可用性核心基础 - 华为构建全栈可观测能力,包括集群运行视图、告警视图、网络链路监控等,提升故障感知能力[5] - 建立AI集群全系统可靠性分析模型,实现CloudMatrix超节点万卡集群MTBF大于24小时的硬件高可靠能力[6] - 提出超节点光链路软件容错方案,光模块闪断故障率容忍度>99%,新增10倍+光模块后闪断率低至电链路水平[6] 高可用性业务支撑 - 训练Pangu Ultra 135B稠密模型时,4K卡集群相比256卡基线线性度达96%;Pangu Ultra MoE 718B稀疏模型8K卡集群线性度95.05%[11] - 万卡集群训练恢复时间优化至10min以内,进程级重调度恢复缩短至3min,进程级在线恢复进一步压缩至30s[14] - 大EP推理架构采用三级容错方案,实例内重启恢复时间压缩至5min内,TOKEN级重试技术使故障影响减少60倍[16] 创新方案与未来方向 - 六大创新方案包括故障感知诊断、故障管理、光链路容错三大基础能力,以及集群线性度、训练快恢、推理快恢三大业务支撑能力[18] - 未来将在场景多元化、异构融合与资源池化、极致可观可测与智能自治免维三个方向持续探索[18]
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位· 2025-06-10 13:16
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认 的顶尖技术挑战。 但是,在 华为 ,昇腾万卡算力集群,已经可以做到近乎 "永不罢工" 了: 或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗? 关于这一切背后的秘密,华为在今天首次把技术给公开了出来。 高可用的核心:三套"智能保险系统" 答案是肯定的,需要,且有必要。 因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成 百上千的CT照片。 这些看似简单的智能应用,其实都离不开如 "超级大脑" 般的AI算力集群,需要它们全天候不停歇地运转着。 而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。 更严格来说,AI推理的可用度甚至还需要 达到99.95%的程度。 那么华为又是如何做到这点的? AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。 要解 ...