文章核心观点 - 研究团队提出了首个专为十亿参数级三维重建Transformer模型VGGT设计的训练后量化框架QuantVGGT [4][5][8] - QuantVGGT通过创新的双平滑细粒度量化与噪声过滤多样采样技术,成功解决了VGGT量化时面临的重尾激活分布与校准不稳定性两大挑战 [5][9][11] - 该框架在4比特量化下,实现了2.5倍推理加速、3.7倍内存压缩,同时保持了98%的重建精度,使大型三维重建模型在手机等资源受限设备上的部署成为可能 [2][5][7] 技术背景与挑战 - 基于学习的视觉几何基础Transformer模型VGGT拥有12亿参数,能统一完成多个三维任务,但极高的计算和内存成本阻碍了其实际部署 [8][17] - 对VGGT进行训练后量化面临独特挑战:数据无关的特殊令牌导致激活值呈重尾分布,而三维数据的多视图特性使校准样本选择极不稳定 [4][11] 量化框架QuantVGGT的技术贡献 - 双平滑细粒度量化:通过预全局哈达玛旋转分散异常值平滑重尾分布,再通过后局部通道平滑归一化方差,显著降低量化误差 [5][9][27][30] - 噪声过滤多样采样:利用深层统计信息过滤异常值,并基于VGGT的帧相对归纳偏置构建帧感知聚类,确保校准集具有代表性与稳定性 [5][9][34][41][43] 实验性能与结果 - 相机姿态估计:在Co3Dv2数据集上,4比特量化的QuantVGGT在20帧设置下的AUC@30达到88.2,保持了全精度模型98%的性能,显著优于其他量化方法 [47][48] - 点云图估计:在DTU数据集上,4比特量化的QuantVGGT精度达到1.282,非常接近全精度模型的1.185,展现了强大的跨数据集泛化能力 [49][50] - 效率提升:4比特量化的QuantVGGT在真实硬件推理中实现了3.7倍内存减少和2.5倍加速,且双平滑技术仅增加0.2%的延迟 [5][7][57] 行业意义与影响 - 该研究填补了针对十亿参数级三维重建Transformer模型量化技术的空白,为将大型AI模型高效部署至边缘设备提供了可行的技术路径 [8][19][58] - QuantVGGT框架的成功验证了通过定制化量化方案,能在几乎不损失性能的前提下,大幅降低模型对计算和内存资源的需求,具有显著的实用价值 [5][13][57]
首次将十亿参数三维模型塞进手机!4比特量化,速度2.5倍、内存降3.7倍、精度98%|ICLR'26
量子位·2026-03-08 12:26