Workflow
融合型AI数据中心
icon
搜索文档
对话Arm邹挺:2026年物理AI加速 芯片将有这些新进展
21世纪经济报道· 2026-01-28 06:54
AI行业发展趋势与展望 - 业界普遍将2026年定义为AI应用大年,AI产业链从基础设施到上层应用均在加速演进,其中“物理AI”被多家头部厂商重点看好[1] - 2026年将迈入智能计算新纪元,计算将具备更高的模块化特性和能效,实现云端、物理终端及边缘AI环境的无缝互联[1] - 下一个价值数万亿美元的AI平台将属于物理智能领域,智能能力将被植入新一代自主设备与机器人[1] - 原生AI应用与AI芯片的协同进化,正指向一个更深层次融合的智能世界,AI将嵌入设备、融入场景、贯穿系统[14] 物理智能 (Physical AI) **核心场景与趋势** - 业界公认的“物理AI”场景主要包括具身智能和自动驾驶,技术路线和商业化进展尚存分野,距离大规模落地仍需时间[2] - 在多模态模型、更高效训练与推理管线技术突破的推动下,2026年物理AI系统将实现规模化部署,催生全新品类的自主设备,帮助医疗健康、制造、交通运输、采矿等多个行业重塑[2] - 面向汽车与机器人自动化场景的通用计算平台将逐步涌现,车载芯片有望通过技术复用与适配,应用于人形机器人或工业机器人领域,以提升规模经济效益,加速研发与落地[2] **技术路线与挑战** - 物理AI面临世界模型和VLA(视觉-语言-动作)模型两条持续演进的技术路线,二者优势互补,业界正探索融合路径[2][3] - VLA模型聚焦解决“理解与执行”的核心需求,世界模型则专注攻克“预测与因果”的关键难题,均对算力提出高要求[2] - 真正的挑战在于如何实现数万甚至数百万台同类设备的可靠部署,而非打造单台高性能设备,软硬件技术栈的碎片化是过去行业发展停滞的原因之一[1][4] - 物理AI需要在严苛的功耗与热管理限制下持续运转,且常部署于安全关键型应用场景,规模化的关键在于将统一架构理念贯穿云端训练、边缘推理及物理系统实时执行的全流程[3] **行业布局与解决方案** - 为应对物理AI发展需求,Arm在2025年11月整合汽车、机器人及各类自主运行设备相关业务,成立“物理AI”事业部[3] - Arm推出分层式解决方案:硬件层面有汽车增强AE IP及Zena CSS;软件层面提供KleidiAI库和优化工具;系统层面推动云-边-端协同,形成“架构+硬件+软件+生态”的整体能效优化路径[4] - 目标是打造一套在算力、安全性与可靠性毫不妥协的前提下,实现“感知-决策-执行”实时闭环的AI方案,并通过“一次开发、多类物理系统部署”的模式破解碎片化痛点[3][4] 端侧AI:智能手机 **发展现状与趋势** - 2025年,高端手机在仅端侧、不联网条件下已具备运行30亿参数规模大模型的能力[4] - 得益于模型压缩、蒸馏及架构设计的技术突破,复杂的推理模型正实现数量级的规模缩减,转化为小语言模型 (SLM),同时不会牺牲计算能力,更易于在边缘侧部署且微调成本更低[5] - 模型蒸馏、量化等超高能效的AI模型训练技术的规模化应用正逐步成为行业标准,训练能效有望成为衡量AI模型的核心指标[5] - 搭载Arm Mali GPU中专用神经加速器的智能手机将在2026年推出,标志着移动端侧图形和AI能力的重大飞跃,支持更高帧率4K游戏、实时视觉计算及更智能的端侧AI助手,且无需依赖云端连接[5] **技术要求与应对** - 小语言模型(SLM)对手机的性能、能效、安全性及软件适配能力提出了更高要求[5] - 需要CPU、GPU、NPU等异构算力芯片无缝配合实现动态负载均衡;突破“性能-功耗-面积”三角以适配低功耗约束;更加强调数据安全性;软件生态需兼容多框架与模型压缩技术以降低部署门槛[6] - Arm通过构建“Lumex CSS计算平台+ KleidiAI软件库+开放生态”来帮助手机承接大算力、多模态能力[6] - Armv9.3 CPU集群使Arm Lumex实现了两位数的性能提升和硬件级安全性;其搭载的第二代可伸缩矩阵扩展 (SME2) 技术,提供更强的AI性能、更低的内存占用,尤其适合对实时性要求严苛的应用[6] - KleidiAI已集成到Llama.cpp、ExecuTorch、MNN和LiteRT等多个主流AI框架,Arm架构CPU在中国市场的主要大模型开源首日便完成适配并深度集成KleidiAI[7] 端侧AI:XR(AR/VR)设备 **发展前景与挑战** - 头显和智能眼镜等AR/VR可穿戴设备,将在物流、运维、医疗和零售等更广泛的工作场景中落地应用,得益于轻量化设计和电池续航能力的进步[8][9] - 随着外形尺寸缩小、AI能力增强、连接体验流畅,AR/VR设备将成为推动职场向更智能、更具辅助价值未来演进的关键一步[9] - 挑战一:需平衡算力与能效,在提供高性能计算支撑复杂功能的同时保障长续航,这是企业级场景落地的关键前提[9] - 挑战二:多种实时交互(如视频、语音、手势识别)对系统时延提出极高要求,尤其在医疗、工业等关键场景[9] - 挑战三:设备需支持从轻量级到高性能的多样化应用,要求具备多功能异构场景适配能力[10] **应对策略** - 高算力、低延时任务优先采用终端侧与边缘侧处理,同时按需调用云端资源拓展算力上限,以减轻设备负荷并保障实时性能[10] - 推动生态系统合作,优化操作系统、中间件和应用算法,以提升整体系统效率,降低时延[10] - Arm C1-Nano CPU非常适合XR、入门级或中端设备等场景,同时公司不断优化CPU、GPU、NPU等异构计算单元以适配不同设备和应用场景[10] AI芯片与计算基础设施 **芯片类型与趋势** - 除了通用计算的GPU和CPU,ASIC、NPU等不同类型AI加速器也备受关注[11] - NPU作为神经网络推理专用处理器,核心优势为AI架构适配、高能效比、轻量化部署、本地闭环处理及多处理器协同,适用于可穿戴设备、智能扬声器、软件定义智能摄像头以及智能家居设备等场景[11] - 行业正朝着系统级协同设计的定制化芯片方向演进,这类芯片将从系统层面与软件栈协同设计,并针对特定AI框架、数据类型及工作负载完成深度优化[13] - 亚马逊云科技 (Graviton)、Google Cloud (Axion) 和Microsoft Azure (Cobalt) 等头部云服务提供商正在引领这一转变,展示了从底层开始将专用CPU、加速器、内存和互连共同设计的紧密集成平台[14] - 这一趋势将推动“融合型AI数据中心”加速落地,这类数据中心可最大化单位面积内的AI算力,从而降低AI运行所需的能耗总量及相关成本[14] **Arm的技术聚焦** - 在推动NPU能力提升方面,Arm核心聚焦两大方向:异构架构协同与全栈软件生态支撑[12] - 异构架构协同方面,Arm NPU与包括CPU、GPU在内的多元化处理器高效协同,针对不同场景提供更优算力支撑,例如通过Arm Ethos-U85这类专用NPU承载边缘场景的神经网络处理任务以释放CPU资源[12] - 生态支撑层面,Arm为全系列AI硬件方案提供全面的开源运行时支持,并通过KleidiAI为PyTorch、ExecuTorch、Llama.cpp、TensorFlow、LiteRT等主流ML框架提供硬件加速适配[12]
对话Arm邹挺:2026年物理AI加速,芯片将有这些新进展
21世纪经济报道· 2026-01-27 11:53
行业趋势与核心观点 - 2026年被业界定义为AI应用大年,其中“物理AI”被多家头部厂商尤其看中,AI产业链从底层基础设施到上层应用都在加速演进 [1] - Arm预测2026年将迈入智能计算新纪元,计算将具备更高的模块化特性和能效表现,实现云端、物理终端及边缘AI环境的无缝互联 [1] - 下一个价值数万亿美元的AI平台将属于物理智能领域,智能能力将被植入新一代自主设备与机器人 [1] - 原生AI应用与AI芯片的协同进化,正指向一个更深层次融合的智能世界,一个由物理AI、边缘推理与云端协同共同编织的智能新纪元正在展开 [12] 物理AI的发展与挑战 - “物理AI”场景主要包括具身智能和自动驾驶,但距离大规模落地尚需时间 [2] - 物理AI面临世界模型和VLA(视觉-语言-动作)模型两条技术路线的持续演进,二者各有侧重、优势互补,业界也在探索两种路线的融合 [2][3] - 真正的挑战在于如何实现数万甚至数百万台同类设备的可靠部署,而非打造单台高性能设备 [1][4] - 物理AI的发展面临软硬件碎片化问题,需要在严苛的功耗与热管理限制下持续运转,并且往往部署在安全关键型应用场景中 [1][3] - 规模化的关键在于将统一的架构理念贯穿于云端训练、边缘推理及物理系统实时执行的全流程,需要一套能够支撑“从传感器端到中央决策端”分布式智能的平台化方案 [3] 物理AI的行业影响与解决方案 - 在多模态模型、更高效训练与推理管线的技术突破推动下,物理AI系统将实现规模化部署,催生全新品类的自主设备,帮助医疗健康、制造、交通运输、采矿等多个行业重塑 [2] - 面向汽车与机器人自动化场景的通用计算平台将逐步涌现,车载芯片有望通过技术复用与适配,应用于人形机器人或工业机器人领域,以提升规模经济效益 [2] - 为应对物理AI发展需求,Arm在2025年11月整合了汽车、机器人及各类自主运行设备相关业务,成立“物理AI”事业部 [3] - Arm推出分层式解决方案应对物理AI挑战:硬件层面有汽车增强AEIP及Zena CSS产品组合;软件层面提供KleidiAI库和优化工具;系统层面推动云-边-端协同,形成“架构+硬件+软件+生态”的整体能效优化路径 [4] 端侧AI:AI手机与SLM - 2025年,AI手机的核心特征是仅在端侧、不联网条件下,高端手机已经具备运行30亿参数规模大模型的能力 [5] - 得益于模型压缩、蒸馏及架构设计的技术突破,复杂的推理模型正在实现数量级的规模缩减,转化为小语言模型(SLM),同时不会牺牲计算能力 [5] - 模型蒸馏、量化等超高能效的AI模型训练技术的规模化应用正逐步成为行业标准,训练能效有望成为衡量AI模型的核心指标 [5] - 搭载Arm Mali GPU中专用神经加速器的智能手机将在2026年推出,支持更高帧率的4K游戏、实时视觉计算及更智能的端侧AI助手等功能,且无需依赖云端连接 [5] - SLM对手机的性能、能效、安全性及软件适配能力提出了更高要求,需要CPU、GPU、NPU等异构算力芯片的无缝配合与动态负载均衡 [6] - Arm通过构建“Lumex CSS计算平台+ KleidiAI软件库+开放生态”来帮助手机承接大算力、多模态能力 [6] - Armv9.3 CPU集群实现了两位数的性能提升和硬件级安全性,第二代可伸缩矩阵扩展(SME2)技术提供了更强的AI性能、更低的内存占用 [6] - KleidiAI已集成到多个主流AI框架,包括 Llama.cpp、ExecuTorch、MNN和LiteRT,Arm架构CPU在中国市场的主要大模型开源首日便完成适配 [7] 端侧AI:XR设备 - 头显和智能眼镜等AR与VR可穿戴设备,将在物流、运维、医疗和零售等更广泛的工作场景中落地应用 [7] - AR/VR设备在企业应用中的普及,要求设备持续满足更严苛的形态规格与能耗限制要求,不同行业场景对实时渲染、数据处理和交互响应速度的要求差异明显 [8] - XR可穿戴设备面临三大挑战:需平衡算力与能效以保障长续航;多种实时交互对系统时延提出极高要求;需有多功能异构场景适配能力以支持多样化应用 [8] - Arm认为需要从架构、计算能力、软硬协同等方面应对,例如Arm C1-Nano非常适合XR设备,同时不断优化CPU、GPU、NPU等异构计算单元 [9] - 高算力、低延时任务优先采用终端侧与边缘侧处理,同时按需调用云端资源拓展算力上限,以减轻设备负荷并保障实时性能 [9] AI芯片与基础设施演进 - 除了通用计算的GPU和CPU,ASIC、NPU等不同类型芯片也备受关注,需结合具体应用场景与工作负载特性进行选择 [9] - NPU作为神经网络推理专用处理器,核心优势为AI架构适配、高能效比、轻量化部署、本地闭环处理及多处理器协同,适用于可穿戴设备、智能家居设备等低功耗、实时响应场景 [9] - 在推动NPU能力提升方面,Arm核心聚焦异构架构协同与全栈软件生态支撑两大方向 [10] - 行业正朝着系统级协同设计的定制化芯片方向演进,这类芯片将从系统层面与软件栈协同设计,并针对特定AI框架、数据类型及工作负载完成深度优化 [11] - 亚马逊云科技(Graviton)、Google Cloud(Axion)和Microsoft Azure(Cobalt)等头部云服务提供商正在引领这一转变,展示了从底层开始将专用CPU、加速器、内存和互连共同设计的紧密集成平台 [11] - 这一趋势将推动“融合型AI数据中心”加速落地,这类数据中心可最大化单位面积内的AI算力,从而降低AI运行所需的能耗总量及相关成本 [11][12]