Workflow
极致量化
icon
搜索文档
当千亿参数撞上5毫米芯片
钛媒体APP· 2025-12-10 11:19
文章核心观点 - 全球AI技术发展重点正从追求云端大模型的参数规模,转向解决端侧AI的工程化难题,以实现高智商、低延迟、低功耗的智能应用[4][16] - 端侧AI面临“不可能三角”的物理极限挑战,行业通过“云-边-端”三级分层架构、算法模型压缩、芯片架构创新以及从通用走向专用等路径寻求突破[7][8][11][15] - 中国AI产业出现集体觉醒,不再盲目追求参数之“大”,而是转向追求应用落地之“实”,致力于将AI嵌入万物,实现真正的万物智能[16][18] 技术风向与行业共识 - 2025年技术风向逆转,工程界开始重点攻克“端侧AI”命题,目标是将大模型能力塞进面积数平方毫米、功耗仅几瓦的端侧芯片中[4] - 行业普遍共识是未来AI架构必须是“人格分裂”的“云-边-端”三级分层架构:云端处理复杂长尾问题,端侧负责高频、实时、隐私敏感任务[7] - 端侧AI面临“不可能三角”挑战:高智商、低延迟、低功耗三者难以兼得[7] - 端侧物理条件严苛,主流车载芯片、智能家居SoC或旗舰手机的NPU专用内存仅几GB甚至几百MB,而运行一个700亿参数模型仅加载权重就需约140GB显存[6] 算法层面的优化路径 - 行业主要通过三把“手术刀”对模型进行压缩与优化:知识蒸馏、极致量化、结构剪枝[8][10] - **知识蒸馏**:让云端超大模型(Teacher)将核心逻辑“传授”给端侧小模型(Student),使0.5B参数的小模型在特定垂直场景表现能逼近百亿参数通用模型[8] - **极致量化**:通过训练后量化或量化感知训练,将模型权重从FP16压缩至INT8甚至INT4,使模型体积压缩4倍以上,推理速度成倍提升[10] - **结构剪枝**:剔除神经网络中对输出影响微乎其微的冗余参数,从物理层面减少计算量[10] 芯片架构的创新突破 - 端侧大模型推理的主要瓶颈在于“访存”,传统冯·诺依曼架构下,超过80%的功耗消耗在数据搬运上,即“内存墙”危机[11] - 行业通过DSA领域专用架构来突破瓶颈,核心思路包括存算一体化、异构计算调度和算子硬化[13][14] - **存算一体化**:拉近存储与计算单元的物理距离,甚至在SRAM中直接计算,减少数据搬运开销[13] - **异构计算调度**:在SoC内精细分工,CPU负责流程控制,DSP负责信号处理,定制NPU负责繁重的矩阵乘法运算[14] - **算子硬化**:针对Transformer核心的Attention机制,在硅片上直接“刻死”加速电路,牺牲通用性以换取极高效率,实现毫秒级响应[14] - 云知声、地平线等硬科技企业通过上述架构创新,已将芯片出货量做到上亿颗[13] 应用策略的务实转变 - 行业路径从追求“通用”走向深耕“专用”,承认AI局限性,打造专精的垂直智能体[15] - 商汤医疗采用“平台化”策略,搭建模型生产平台,让医院基于自身高质量数据训练针对特定病种的专用模型,将AI变为“熟练技工”[15] - 云知声的产业路径是避开通用大模型红海,通过在医疗、家居等垂直领域深耕来打磨端侧技术与芯片,赚取数据反馈反哺基础研究[15] - 这种转变旨在让AI更务实,需要的算力更少,但在专业领域给出的建议更靠谱[15] 产业影响与未来展望 - 中国AI产业集体觉醒,转向追求应用落地的“实”[16] - 成千上万的工程师致力于将AI的价格打下来,体积缩下去,使其嵌入生活的每一块玻璃、每一颗芯片[17] - 真正的“万物智能”是让万物拥有一颗微小、聪明且独立的“芯”,不再依赖脆弱的网络连接[18] - 当一颗几十块钱的芯片能跑通拥有逻辑推理能力的大模型且不依赖网络时,智能时代的奇点才算真正到来[18]