Model Quantization - 财报，业绩电话会，研报，新闻

Model Quantization

搜索文档

首次将十亿参数三维模型塞进手机！4比特量化，速度2.5倍、内存降3.7倍、精度98%｜ICLR'26

量子位· 2026-03-08 12:26

文章核心观点 - 研究团队提出了首个专为十亿参数级三维重建Transformer模型VGGT设计的训练后量化框架QuantVGGT [4][5][8] - QuantVGGT通过创新的双平滑细粒度量化与噪声过滤多样采样技术，成功解决了VGGT量化时面临的重尾激活分布与校准不稳定性两大挑战 [5][9][11] - 该框架在4比特量化下，实现了2.5倍推理加速、3.7倍内存压缩，同时保持了98%的重建精度，使大型三维重建模型在手机等资源受限设备上的部署成为可能 [2][5][7] 技术背景与挑战 - 基于学习的视觉几何基础Transformer模型VGGT拥有12亿参数，能统一完成多个三维任务，但极高的计算和内存成本阻碍了其实际部署 [8][17] - 对VGGT进行训练后量化面临独特挑战：数据无关的特殊令牌导致激活值呈重尾分布，而三维数据的多视图特性使校准样本选择极不稳定 [4][11] 量化框架QuantVGGT的技术贡献 - **双平滑细粒度量化**：通过预全局哈达玛旋转分散异常值平滑重尾分布，再通过后局部通道平滑归一化方差，显著降低量化误差 [5][9][27][30] - **噪声过滤多样采样**：利用深层统计信息过滤异常值，并基于VGGT的帧相对归纳偏置构建帧感知聚类，确保校准集具有代表性与稳定性 [5][9][34][41][43] 实验性能与结果 - **相机姿态估计**：在Co3Dv2数据集上，4比特量化的QuantVGGT在20帧设置下的AUC@30达到88.2，保持了全精度模型98%的性能，显著优于其他量化方法 [47][48] - **点云图估计**：在DTU数据集上，4比特量化的QuantVGGT精度达到1.282，非常接近全精度模型的1.185，展现了强大的跨数据集泛化能力 [49][50] - **效率提升**：4比特量化的QuantVGGT在真实硬件推理中实现了3.7倍内存减少和2.5倍加速，且双平滑技术仅增加0.2%的延迟 [5][7][57] 行业意义与影响 - 该研究填补了针对十亿参数级三维重建Transformer模型量化技术的空白，为将大型AI模型高效部署至边缘设备提供了可行的技术路径 [8][19][58] - QuantVGGT框架的成功验证了通过定制化量化方案，能在几乎不损失性能的前提下，大幅降低模型对计算和内存资源的需求，具有显著的实用价值 [5][13][57]

Model Quantization

3D Reconstruction

Artificial Intelligence

Artificial Intelligence

QuantVGGT

VGGT

五年，终于等来Transformers v5

自动驾驶之心· 2025-12-04 11:03

Transformers v5版本发布 - Hugging Face发布了其核心开源项目Transformers库的v5.0.0rc0候选版本，标志着该库结束了长达五年的v4技术周期，正式进入v5时代 [1][3] - 自2020年11月v4发布以来，该库的日下载量从2万次激增至超过300万次，总安装量突破12亿次 [3] - 该库支持的模型架构从最初的40个扩展至超过400个，社区贡献的模型权重超过75万个，覆盖文本、视觉、音频及多模态领域 [3] 核心进化维度 - v5版本确立了PyTorch为唯一核心后端，并聚焦于四大维度的进化：极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性，以及将量化提升为核心功能 [3] 简洁性与模块化 - 团队的首要关注点是简洁性，旨在通过干净、清晰的模型集成方式带来更广泛的标准化、更强的通用性和更全面的生态支持 [5][6] - 在过去5年里，平均每周新增1-3个新模型，目标是收录所有最新模型架构，成为模型定义的唯一可信来源 [7][8] - 大力推进模块化设计，使维护更简单、集成速度更快，并促进社区协作，例如引入了AttentionInterface作为注意力机制的集中抽象层 [10][12] - 正在构建基于机器学习的模型转换工具，以自动化模型转换流程，减少手动工作并确保一致性 [13][14] 代码重构与后端聚焦 - 对建模文件和标注/处理文件进行了大规模重构，使建模代码只保留模型前向/反向传播所需的核心部分 [15] - 简化tokenization & processing文件，未来将只关注tokenizers后端，并移除Fast和Slow tokenizer的概念 [16] - 图像处理器今后将只保留依赖torchvision后端的fast版本 [17] - 将逐步停止对Flax/TensorFlow的支持，专注于PyTorch作为唯一后端，同时与JAX生态合作伙伴协作确保兼容性 [17][18] 训练能力扩展 - v5版本加大了对大规模预训练以及完整训练的支持，而不仅仅是微调 [19] - 为支持预训练，重新设计了模型初始化方式，并加入了对前向与反向传播优化算子的支持，已与torchtitan、megatron、nanotron等工具实现更广泛的兼容 [20] - 继续与Python生态系统中的所有微调工具保持紧密合作，并与JAX生态中的MaxText等工具兼容，确保良好的互操作性 [21] 推理优化与生产部署 - v5带来了多项推理范式级更新，包括专用内核、更干净的默认设置、新的API，以及优化对推理引擎的支持 [22][23] - 定位并非取代vLLM、SGLang、TensorRT-LLM等专业推理引擎，而是目标与这些引擎实现兼容 [25] - 与最流行的推理引擎紧密合作，使得添加到Transformers的模型能立即在这些引擎中可用，并充分利用其优化优势 [27] - 与ONNXRuntime、llama.cpp和MLX密切合作以确保互操作性，例如可轻松在Transformers中加载GGUF文件进行微调，或将其模型转换为GGUF文件 [27] - 推动本地推理边界，与executorch团队合作让Transformers模型能够在设备端直接运行，并快速扩展对多模态模型的支持 [28] 量化与新增功能 - 量化正迅速成为前沿模型开发的标准，许多SOTA模型以8-bit和4-bit等低精度格式发布 [29] - 引入了连续批处理和paged attention机制，这些功能已在内部开始使用 [30] - 推出了全新的transformers serve服务系统，可用于部署一个兼容OpenAI API的服务器来部署Transformers模型 [30]

Artificial Intelligence

Model Integration

Model Standardization

Model Quantization

Artificial Intelligence

Transformers

Artificial Intelligence

Model Integration

Model Standardization

Model Quantization

Artificial Intelligence

Transformers