Workflow
极低比特量化技术
icon
搜索文档
腾讯混元开源0.3B端侧模型 内存占用仅600MB
智通财经网· 2026-02-10 15:25
模型发布与技术规格 - 腾讯混元于2月10日正式推出一款面向消费级硬件场景的“极小”模型HY-1.8B-2Bit [1] - 该模型等效参数量仅有0.3B,内存占用仅600MB,比一些常用手机应用还小 [1] - 模型通过2比特量化感知训练产出,对比原始精度模型等效参数量降低了6倍,实际模型大小直降6倍,仅有300MB [1][2] 性能与效率提升 - 在真实端侧设备上,HY-1.8B-2Bit对比原始精度模型生成速度提升2—3倍,首字时延在1024输入内能够保持3~8倍的加速 [1][2] - 在MacBook M4芯片上测试,生成速度在常用窗口下对比原始模型精度,能够实现至少2倍稳定加速 [2] - 在天玑9500上测试,对比HY-1.8B-Q4格式,首字时延能够加速1.5~2倍,生成速度加速约1.5倍 [4] 技术特点与部署 - 这是首个实现2bit产业级量化的端侧模型实践,可在边缘设备上无压力部署 [1] - 模型提供了gguf-int2格式的模型权重与bf16伪量化权重,已在Arm等计算平台上完成适配,可部署于启用Arm SME2技术的移动设备上 [2] - 模型采用了极低比特量化技术,在保持与INT4-PTQ方法相当模型性能的同时,实现了在端侧设备上的高效稳定推理 [7] 模型能力与未来方向 - HY-1.8B-2Bit模型沿用了Hunyuan-1.8B-Instruct的全思考能力,可为简单查询提供简洁思维链,为复杂任务提供详细长思维链 [1] - 公司通过数据优化、弹性拉伸量化以及训练策略创新三个方法来最大限度提升模型的全科能力 [1] - 当前模型能力受限于监督微调的训练流程以及基础模型本身的性能与抗压能力 [7] - 未来团队将重点转向强化学习与模型蒸馏等技术路径,以缩小低比特量化模型与全精度模型之间的能力差距 [7]