研究核心与技术创新 - 提出Fairy2i框架,通过广义线性表示将预训练的实数大模型(如LLaMA)无损转换为复数形式,无需从头训练,完美继承权重,为超低比特量化提供起点 [3][4] - 采用相位感知量化,利用复数域单位圆上的四个四次单位根{+1, -1, +i, -i}作为2比特码本,相比实数域量化具有更高信息密度和对称性 [6][7] - 引入递归残差量化机制,将权重表示为几个低比特项的和,仅需T=2的递归阶段即可大幅消除量化误差,实现性能逼近全精度模型 [8] - 推理时具备“无乘法”特性,矩阵乘法转化为加法、减法和数据交换操作,且递归残差计算数据独立,可并行处理,几乎不增加推理延迟 [10] 性能表现与实验结果 - 在LLaMA-2 7B模型上,Fairy2i (2-bit)在C4数据集的困惑度仅为7.85,显著优于现有2-bit方法,并超越部分3-bit模型,直逼全精度FP16水平(6.63) [11][12] - 在下游零样本任务平均准确率评测中,Fairy2i (2-bit)达到62.00%,接近全精度模型的64.72%,在极低比特下实现了性能飞跃 [12][13] - 性能对比显示,Fairy2i (2-bit)在多项基准测试(如ARC-e, ARC-c, HellaSwag, PIQA, Winogrande)上均大幅领先其他2-bit和3-bit量化方法 [12] 行业影响与未来展望 - 该技术解决了预训练实数大模型难以高效量化的难题,让大模型在手机、汽车等边缘设备上的流畅运行成为可能,或将成为边缘普及的关键推手 [3][13][14] - 目前研究仅使用300亿token进行训练,团队认为复数表示拥有尚未挖掘的容量,未来在更大规模数据集上训练,精度有望反超原始全精度基座模型 [13] - 相关论文与模型已在arXiv、HuggingFace、GitHub及ModelScope等平台公开 [15]
2比特复数模型媲美全精度,北大通用框架让大模型在手机上也能流畅运行
36氪·2025-12-10 14:55