Fairy2i
搜索文档
2比特复数模型媲美全精度,北大通用框架让大模型在手机上也能流畅运行
36氪· 2025-12-10 14:55
研究核心与技术创新 - 提出Fairy2i框架,通过广义线性表示将预训练的实数大模型(如LLaMA)无损转换为复数形式,无需从头训练,完美继承权重,为超低比特量化提供起点 [3][4] - 采用相位感知量化,利用复数域单位圆上的四个四次单位根{+1, -1, +i, -i}作为2比特码本,相比实数域量化具有更高信息密度和对称性 [6][7] - 引入递归残差量化机制,将权重表示为几个低比特项的和,仅需T=2的递归阶段即可大幅消除量化误差,实现性能逼近全精度模型 [8] - 推理时具备“无乘法”特性,矩阵乘法转化为加法、减法和数据交换操作,且递归残差计算数据独立,可并行处理,几乎不增加推理延迟 [10] 性能表现与实验结果 - 在LLaMA-2 7B模型上,Fairy2i (2-bit)在C4数据集的困惑度仅为7.85,显著优于现有2-bit方法,并超越部分3-bit模型,直逼全精度FP16水平(6.63) [11][12] - 在下游零样本任务平均准确率评测中,Fairy2i (2-bit)达到62.00%,接近全精度模型的64.72%,在极低比特下实现了性能飞跃 [12][13] - 性能对比显示,Fairy2i (2-bit)在多项基准测试(如ARC-e, ARC-c, HellaSwag, PIQA, Winogrande)上均大幅领先其他2-bit和3-bit量化方法 [12] 行业影响与未来展望 - 该技术解决了预训练实数大模型难以高效量化的难题,让大模型在手机、汽车等边缘设备上的流畅运行成为可能,或将成为边缘普及的关键推手 [3][13][14] - 目前研究仅使用300亿token进行训练,团队认为复数表示拥有尚未挖掘的容量,未来在更大规模数据集上训练,精度有望反超原始全精度基座模型 [13] - 相关论文与模型已在arXiv、HuggingFace、GitHub及ModelScope等平台公开 [15]
2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行
量子位· 2025-12-10 12:26
研究核心与框架概述 - 北京大学团队提出名为Fairy2i的通用框架,可直接基于已有预训练模型进行极低比特量化,无需重新训练[2] - 该框架通过广义线性表示将实数模型无损转换为复数形式,再结合相位感知量化与递归残差量化,实现了在仅2比特情况下性能接近全精度(FP16)模型的突破性进展[3][5] 技术原理与方法 - **广义线性表示**:通过数学等价性证明,任何偶数维的实数线性层都可无损重参数化为广义线性复数形式,从而可直接加载LLaMA等模型的预训练权重进行转换,无需改变参数规模,也避免了从头预训练的高昂算力消耗[6][7][8] - **相位感知量化**:利用单位圆上的四个四次单位根{+1, -1, +i, -i}作为2比特码本,相比实数域的二值或三值量化,复数域的这四个点具有更高的信息密度和更好的对称性[10] - **递归残差量化**:通过将权重表示为几个低比特项的和来逼近全精度,对量化误差进行再次量化,实验表明仅需T=2的递归阶段(等效2比特)就能大幅消除量化噪声[11][12][13] - **推理优势**:权重被量化为{±1, ±i}的组合,使得推理时的矩阵乘法转化为简单的加法、减法和数据交换操作,具备“无乘法”特性,且递归残差计算是数据独立的,支持并行处理,在提升精度的同时几乎不增加推理延迟[15][16] 性能表现与实验数据 - 在LLaMA-2 7B模型的语言建模能力测试中,Fairy2i (2-bit)在C4数据集上取得了7.85的极低困惑度(PPL),显著优于现有2-bit量化方法,甚至超越部分3-bit量化模型,性能直逼全精度FP16水平(6.63)[17][18][19] - 在下游零样本任务评测中,Fairy2i的平均准确率达到62.00%,与全精度模型(64.72%)差距微小,几乎填平了超低比特量化带来的性能鸿沟[20][21] - 具体数据对比显示,Fairy2i在多项基准测试(如ARC-e, ARC-c, HellaSwag, PIQA, Winogrande)中的表现均大幅领先于其他2-bit和3-bit量化方法,并接近FP16基准[20] 潜在影响与未来展望 - 该技术解决了预训练实数大模型难以高效量化的难题,通过复数域技术挖掘超低比特量化潜力,有望推动大模型在手机、汽车等边缘设备上的流畅运行与普及[5][21][23] - 目前研究仅使用了300亿token进行训练,团队认为复数表示拥有尚未被完全挖掘的卓越容量,未来在更大规模数据集上持续训练后,Fairy2i的精度不仅有望匹敌,甚至可能彻底反超原始的全精度基座模型[22]