2比特复数模型媲美全精度，北大通用框架让大模型在手机上也能流畅运行

研究核心与技术创新 - 提出Fairy2i框架，通过广义线性表示将预训练的实数大模型（如LLaMA）无损转换为复数形式，无需从头训练，完美继承权重，为超低比特量化提供起点 [3][4] - 采用相位感知量化，利用复数域单位圆上的四个四次单位根{+1, -1, +i, -i}作为2比特码本，相比实数域量化具有更高信息密度和对称性 [6][7] - 引入递归残差量化机制，将权重表示为几个低比特项的和，仅需T=2的递归阶段即可大幅消除量化误差，实现性能逼近全精度模型 [8] - 推理时具备“无乘法”特性，矩阵乘法转化为加法、减法和数据交换操作，且递归残差计算数据独立，可并行处理，几乎不增加推理延迟 [10] 性能表现与实验结果 - 在LLaMA-2 7B模型上，Fairy2i (2-bit)在C4数据集的困惑度仅为7.85，显著优于现有2-bit方法，并超越部分3-bit模型，直逼全精度FP16水平（6.63） [11][12] - 在下游零样本任务平均准确率评测中，Fairy2i (2-bit)达到62.00%，接近全精度模型的64.72%，在极低比特下实现了性能飞跃 [12][13] - 性能对比显示，Fairy2i (2-bit)在多项基准测试（如ARC-e, ARC-c, HellaSwag, PIQA, Winogrande）上均大幅领先其他2-bit和3-bit量化方法 [12] 行业影响与未来展望 - 该技术解决了预训练实数大模型难以高效量化的难题，让大模型在手机、汽车等边缘设备上的流畅运行成为可能，或将成为边缘普及的关键推手 [3][13][14] - 目前研究仅使用300亿token进行训练，团队认为复数表示拥有尚未挖掘的容量，未来在更大规模数据集上训练，精度有望反超原始全精度基座模型 [13] - 相关论文与模型已在arXiv、HuggingFace、GitHub及ModelScope等平台公开 [15]