Workflow
大语言模型端侧部署
icon
搜索文档
0.3B参数,600MB内存!腾讯混元实现产业级2Bit量化,端侧模型小如手机App
量子位· 2026-02-10 11:00
腾讯混元推出端侧极小模型HY-1.8B-2Bit - 公司推出面向消费级硬件的“极小”模型HY-1.8B-2Bit,基于产业级2Bit端侧量化方案产出 [1][2] - 该模型通过对HY-1.8B-Instruct进行2比特量化感知训练(QAT)产出,等效参数量对比原始精度模型降低了6倍 [2] - 模型在真实端侧设备上对比原始精度模型生成速度提升2—3倍,可大幅提升使用体验 [2] - 模型实际大小仅有300MB,内存占用仅600MB,比常用的一些手机应用还小,更适合端侧部署 [1][2][13] 模型技术方案与性能 - 模型采用量化感知训练(QAT)策略,显著提升了量化后模型的性能,避免了极低比特下PTQ量化带来的巨大损失 [6] - 通过数据优化、弹性拉伸量化(SEQ)以及训练策略创新三个方法来最大限度提升模型的全科能力 [7] - 数据优化方面,提高理科数据占比和加入适当的长文数据能够明显提高QAT后模型的全面能力 [8] - 弹性拉伸量化(SEQ)策略采用{-1.5, -0.5, 0.5, 1.5}的对称映射方案,以解决2-bit下有效能级受限的问题,最大化动态范围覆盖能力 [9] - 训练策略上,选定Instruct模型而非预训练权重作为QAT初始化,以节省训练token使模型更快收敛 [11] - 训练HY-1.8B-2Bit所消耗的token数量仅为Bitnet-2B的10%,意味着使用更少的训练成本即可获得极低比特版本模型 [12] - 模型能力方面,对比4比特PTQ模型版本,在数学、代码、科学等指标上表现相当 [6] - 模型沿用了Hunyuan-1.8B-Instruct的全思考能力,为简单查询提供简洁思维链,为复杂任务提供详细长思维链 [6] 部署与实测表现 - 模型提供了gguf-int2格式的模型权重与bf16伪量化权重,已在Arm等计算平台上完成适配,可部署于启用Arm SME2技术的移动设备 [13] - 在MacBook M4芯片上测试,首字时延在1024输入内能够保持3~8倍的加速,生成速度在常用窗口下对比原始模型精度能够实现至少2倍稳定加速 [13] - 在天玑9500上测试,对比HY-1.8B-Q4格式,首字时延能够加速1.5~2倍,生成速度加速约1.5倍 [14] 行业背景与未来方向 - 随着大语言模型普及,如何将模型在手机、耳机或智能家居设备应用成为业界难题,端侧部署对离线部署、私密性有更高需求 [2] - 端侧部署的展开是一条在“小而精,快而准”的艰难探索之路,需要在有限硬件资源内实现快速推理 [4] - 当前模型能力仍受限于监督微调(SFT)流程及基础模型本身的性能,未来将重点转向强化学习与模型蒸馏等技术路径,以缩小低比特量化模型与全精度模型的能力差距 [15]