KleidiAI软件库
搜索文档
对话Arm邹挺:2026年物理AI加速 芯片将有这些新进展
21世纪经济报道· 2026-01-28 06:54
AI行业发展趋势与展望 - 业界普遍将2026年定义为AI应用大年,AI产业链从基础设施到上层应用均在加速演进,其中“物理AI”被多家头部厂商重点看好[1] - 2026年将迈入智能计算新纪元,计算将具备更高的模块化特性和能效,实现云端、物理终端及边缘AI环境的无缝互联[1] - 下一个价值数万亿美元的AI平台将属于物理智能领域,智能能力将被植入新一代自主设备与机器人[1] - 原生AI应用与AI芯片的协同进化,正指向一个更深层次融合的智能世界,AI将嵌入设备、融入场景、贯穿系统[14] 物理智能 (Physical AI) **核心场景与趋势** - 业界公认的“物理AI”场景主要包括具身智能和自动驾驶,技术路线和商业化进展尚存分野,距离大规模落地仍需时间[2] - 在多模态模型、更高效训练与推理管线技术突破的推动下,2026年物理AI系统将实现规模化部署,催生全新品类的自主设备,帮助医疗健康、制造、交通运输、采矿等多个行业重塑[2] - 面向汽车与机器人自动化场景的通用计算平台将逐步涌现,车载芯片有望通过技术复用与适配,应用于人形机器人或工业机器人领域,以提升规模经济效益,加速研发与落地[2] **技术路线与挑战** - 物理AI面临世界模型和VLA(视觉-语言-动作)模型两条持续演进的技术路线,二者优势互补,业界正探索融合路径[2][3] - VLA模型聚焦解决“理解与执行”的核心需求,世界模型则专注攻克“预测与因果”的关键难题,均对算力提出高要求[2] - 真正的挑战在于如何实现数万甚至数百万台同类设备的可靠部署,而非打造单台高性能设备,软硬件技术栈的碎片化是过去行业发展停滞的原因之一[1][4] - 物理AI需要在严苛的功耗与热管理限制下持续运转,且常部署于安全关键型应用场景,规模化的关键在于将统一架构理念贯穿云端训练、边缘推理及物理系统实时执行的全流程[3] **行业布局与解决方案** - 为应对物理AI发展需求,Arm在2025年11月整合汽车、机器人及各类自主运行设备相关业务,成立“物理AI”事业部[3] - Arm推出分层式解决方案:硬件层面有汽车增强AE IP及Zena CSS;软件层面提供KleidiAI库和优化工具;系统层面推动云-边-端协同,形成“架构+硬件+软件+生态”的整体能效优化路径[4] - 目标是打造一套在算力、安全性与可靠性毫不妥协的前提下,实现“感知-决策-执行”实时闭环的AI方案,并通过“一次开发、多类物理系统部署”的模式破解碎片化痛点[3][4] 端侧AI:智能手机 **发展现状与趋势** - 2025年,高端手机在仅端侧、不联网条件下已具备运行30亿参数规模大模型的能力[4] - 得益于模型压缩、蒸馏及架构设计的技术突破,复杂的推理模型正实现数量级的规模缩减,转化为小语言模型 (SLM),同时不会牺牲计算能力,更易于在边缘侧部署且微调成本更低[5] - 模型蒸馏、量化等超高能效的AI模型训练技术的规模化应用正逐步成为行业标准,训练能效有望成为衡量AI模型的核心指标[5] - 搭载Arm Mali GPU中专用神经加速器的智能手机将在2026年推出,标志着移动端侧图形和AI能力的重大飞跃,支持更高帧率4K游戏、实时视觉计算及更智能的端侧AI助手,且无需依赖云端连接[5] **技术要求与应对** - 小语言模型(SLM)对手机的性能、能效、安全性及软件适配能力提出了更高要求[5] - 需要CPU、GPU、NPU等异构算力芯片无缝配合实现动态负载均衡;突破“性能-功耗-面积”三角以适配低功耗约束;更加强调数据安全性;软件生态需兼容多框架与模型压缩技术以降低部署门槛[6] - Arm通过构建“Lumex CSS计算平台+ KleidiAI软件库+开放生态”来帮助手机承接大算力、多模态能力[6] - Armv9.3 CPU集群使Arm Lumex实现了两位数的性能提升和硬件级安全性;其搭载的第二代可伸缩矩阵扩展 (SME2) 技术,提供更强的AI性能、更低的内存占用,尤其适合对实时性要求严苛的应用[6] - KleidiAI已集成到Llama.cpp、ExecuTorch、MNN和LiteRT等多个主流AI框架,Arm架构CPU在中国市场的主要大模型开源首日便完成适配并深度集成KleidiAI[7] 端侧AI:XR(AR/VR)设备 **发展前景与挑战** - 头显和智能眼镜等AR/VR可穿戴设备,将在物流、运维、医疗和零售等更广泛的工作场景中落地应用,得益于轻量化设计和电池续航能力的进步[8][9] - 随着外形尺寸缩小、AI能力增强、连接体验流畅,AR/VR设备将成为推动职场向更智能、更具辅助价值未来演进的关键一步[9] - 挑战一:需平衡算力与能效,在提供高性能计算支撑复杂功能的同时保障长续航,这是企业级场景落地的关键前提[9] - 挑战二:多种实时交互(如视频、语音、手势识别)对系统时延提出极高要求,尤其在医疗、工业等关键场景[9] - 挑战三:设备需支持从轻量级到高性能的多样化应用,要求具备多功能异构场景适配能力[10] **应对策略** - 高算力、低延时任务优先采用终端侧与边缘侧处理,同时按需调用云端资源拓展算力上限,以减轻设备负荷并保障实时性能[10] - 推动生态系统合作,优化操作系统、中间件和应用算法,以提升整体系统效率,降低时延[10] - Arm C1-Nano CPU非常适合XR、入门级或中端设备等场景,同时公司不断优化CPU、GPU、NPU等异构计算单元以适配不同设备和应用场景[10] AI芯片与计算基础设施 **芯片类型与趋势** - 除了通用计算的GPU和CPU,ASIC、NPU等不同类型AI加速器也备受关注[11] - NPU作为神经网络推理专用处理器,核心优势为AI架构适配、高能效比、轻量化部署、本地闭环处理及多处理器协同,适用于可穿戴设备、智能扬声器、软件定义智能摄像头以及智能家居设备等场景[11] - 行业正朝着系统级协同设计的定制化芯片方向演进,这类芯片将从系统层面与软件栈协同设计,并针对特定AI框架、数据类型及工作负载完成深度优化[13] - 亚马逊云科技 (Graviton)、Google Cloud (Axion) 和Microsoft Azure (Cobalt) 等头部云服务提供商正在引领这一转变,展示了从底层开始将专用CPU、加速器、内存和互连共同设计的紧密集成平台[14] - 这一趋势将推动“融合型AI数据中心”加速落地,这类数据中心可最大化单位面积内的AI算力,从而降低AI运行所需的能耗总量及相关成本[14] **Arm的技术聚焦** - 在推动NPU能力提升方面,Arm核心聚焦两大方向:异构架构协同与全栈软件生态支撑[12] - 异构架构协同方面,Arm NPU与包括CPU、GPU在内的多元化处理器高效协同,针对不同场景提供更优算力支撑,例如通过Arm Ethos-U85这类专用NPU承载边缘场景的神经网络处理任务以释放CPU资源[12] - 生态支撑层面,Arm为全系列AI硬件方案提供全面的开源运行时支持,并通过KleidiAI为PyTorch、ExecuTorch、Llama.cpp、TensorFlow、LiteRT等主流ML框架提供硬件加速适配[12]
Arm发布全新Lumex CSS,破局端侧AI
半导体行业观察· 2025-09-12 09:14
行业趋势与痛点 - AI技术正从云端集中式计算向端侧分布式部署转型 移动终端成为智能体验核心载体[1] - 端侧AI需求日益迫切 已从附加功能跃升为产品竞争力核心底座 要求低延迟 高流畅和长续航[1] - 传统架构难以承载高密度AI任务 存在语音助手延迟 大模型推理卡顿和游戏画质与续航失衡等痛点[1] - 芯片设计复杂度飙升导致开发周期拉长 厂商难以兼顾性能兑现与快速上市[1] Arm Lumex CSS平台概述 - Arm推出全新Lumex计算子系统平台 集成搭载SME2技术的高性能CPU GPU及系统IP[2] - 平台专为旗舰级智能手机及下一代个人电脑打造 旨在全面优化端侧AI性能[7] - 通过硬件架构深度革新与软件生态无缝协同 构建面向下一代智能终端的全栈解决方案[34] - 预计到2030年 SME与SME2技术将为超30亿台设备新增超100亿TOPS计算能力[37] CPU性能突破 - Arm C1 CPU集群采用Armv9.3架构 全系列CPU内置SME2技术[7] - 实现端侧AI性能最高5倍提升 能效最高3倍优化[8] - C1-Ultra单线程峰值性能较Cortex-X925提升25%[10] - C1-Premium实现35%的面积优化[10] - C1-Pro较Cortex-A725能效提升12% 持续性能提升16%[10] - C1-Nano能效较Cortex-A520提升26% 面积极小[10] - 配合C1-DSU实现最高26%功耗降低[12] - 语音类工作负载延迟降低4.7倍 经典大语言模型任务性能提升4.7倍 音频生成速度提升2.8倍[12] GPU性能突破 - Mali G1-Ultra GPU相较前代Immortalis-G925实现多重突破[18] - 光线追踪性能提升两倍 启用硬件光追的游戏帧率提升40%[18] - 主流图形基准测试性能提升20%[18] - AI与机器学习网络推理速度提升20% 能效优化9%[22] - 搭载Arm GPU的芯片出货量已逾120亿颗[16] 软件生态创新 - KleidiAI软件库无缝集成至PyTorch ExecuTorch Google LiteRT 阿里巴巴MNN和微软ONNX Runtime等主流AI框架[26] - 在ONNX Runtime上实现最高2.6倍AI推理提速 在Stable Audio音频生成模型上实现2.8倍速度提升[29] - 开发者无需修改代码即可激活SME2加速能力[29] - 通过libyuv库集成SME2内核 图像处理性能提升3倍[29] 实际应用案例 - vivo计算加速平台VCAP全面支持SME2指令集 在全局离线翻译等场景实现额外20%性能提升[41] - 支付宝在vivo新一代旗舰手机上完成基于SME2技术的大语言模型推理验证 prefill阶段性能超40%提升 decode阶段超25%提升[41] - 谷歌上千款应用 微软365 Copilot等已完成适配[32] 市场前景与战略意义 - 全球端侧AI市场规模预计从2025年3219亿元增长至2029年12230亿元 复合年增长率达39.6%[44] - Arm从传统IP供应商向全栈解决方案提供商跨越[44] - 平台具备从智能手机到平板 笔记本电脑的跨设备扩展性[34] - 合作伙伴可直接采用Arm交付平台或选用RTL形式进行设计配置[44]
WAIC 2025|Arm 邹挺:破局AI产业三大挑战,深拓本土生态伙伴协作
环球网· 2025-07-28 13:25
AI行业发展趋势 - AI模型实现小型化与性能跃升 以更精简的体量达成更强大的思考与决策性能 例如DeepSeek等模型 [3] - 边缘计算爆发式增长 端侧AI算力持续攀升 技术迅速普及与应用 [3] - AI智能体与物理AI加速商用落地 从被动响应转向自主运行 例如救援机器狗、配送机器人等 [3] 中国企业AI投入特征 - 43%中国企业已制定清晰全面的AI策略 远超全球39%的平均水平 100%受访中国企业均制定AI策略 [4] - 62%中国受访者认为企业迫切需要拥抱AI 30%认为"刻不容缓" 95%计划未来三年加大AI预算投入 [4] - AI布局聚焦三大方向 提升客户体验、开发新产品与服务、优化运营效率 [4] AI技术应用现状 - 聊天机器人、自然语言处理、深度学习位列中国企业部署的AI技术前三 均为大语言模型关键支撑 [4] - Arm与本土大语言模型厂商深度协作 例如通义千问、混元、文心大模型 通过Armv9架构和KleidiAI优化性能 [7] 行业核心挑战与解决方案 - 基础设施瓶颈为能耗与算力失衡 数据中心能耗从兆瓦级跃升至吉瓦级 Arm构建全场景计算平台突破能效限制 [5] - 48%全球企业担忧数据隐私泄露 Arm通过Armv9架构MTE、CCA等硬件技术构建芯片级防护体系 [5] - 49%受访者认为AI人才短缺是主要障碍 Arm开发者社区涵盖2200万软件开发者 提供在线教程与KleidiAI工具库 [6] 市场调研数据 - 《AI就绪指数调研报告》覆盖全球8个市场655位企业领导者 其中超100家为中国企业 [3] - 中国AI应用最活跃领域为智能制造、科技、能源 三大行业占比达50% [3]