大语言模型端侧部署 - 财报，业绩电话会，研报，新闻

大语言模型端侧部署

搜索文档

0.3B参数，600MB内存！腾讯混元实现产业级2Bit量化，端侧模型小如手机App

量子位· 2026-02-10 11:00

腾讯混元推出端侧极小模型HY-1.8B-2Bit - 公司推出面向消费级硬件的“极小”模型HY-1.8B-2Bit，基于产业级2Bit端侧量化方案产出 [1][2] - 该模型通过对HY-1.8B-Instruct进行2比特量化感知训练（QAT）产出，等效参数量对比原始精度模型降低了6倍 [2] - 模型在真实端侧设备上对比原始精度模型生成速度提升2—3倍，可大幅提升使用体验 [2] - 模型实际大小仅有300MB，内存占用仅600MB，比常用的一些手机应用还小，更适合端侧部署 [1][2][13] 模型技术方案与性能 - 模型采用量化感知训练（QAT）策略，显著提升了量化后模型的性能，避免了极低比特下PTQ量化带来的巨大损失 [6] - 通过数据优化、弹性拉伸量化（SEQ）以及训练策略创新三个方法来最大限度提升模型的全科能力 [7] - 数据优化方面，提高理科数据占比和加入适当的长文数据能够明显提高QAT后模型的全面能力 [8] - 弹性拉伸量化（SEQ）策略采用{-1.5, -0.5, 0.5, 1.5}的对称映射方案，以解决2-bit下有效能级受限的问题，最大化动态范围覆盖能力 [9] - 训练策略上，选定Instruct模型而非预训练权重作为QAT初始化，以节省训练token使模型更快收敛 [11] - 训练HY-1.8B-2Bit所消耗的token数量仅为Bitnet-2B的10%，意味着使用更少的训练成本即可获得极低比特版本模型 [12] - 模型能力方面，对比4比特PTQ模型版本，在数学、代码、科学等指标上表现相当 [6] - 模型沿用了Hunyuan-1.8B-Instruct的全思考能力，为简单查询提供简洁思维链，为复杂任务提供详细长思维链 [6] 部署与实测表现 - 模型提供了gguf-int2格式的模型权重与bf16伪量化权重，已在Arm等计算平台上完成适配，可部署于启用Arm SME2技术的移动设备 [13] - 在MacBook M4芯片上测试，首字时延在1024输入内能够保持3~8倍的加速，生成速度在常用窗口下对比原始模型精度能够实现至少2倍稳定加速 [13] - 在天玑9500上测试，对比HY-1.8B-Q4格式，首字时延能够加速1.5~2倍，生成速度加速约1.5倍 [14] 行业背景与未来方向 - 随着大语言模型普及，如何将模型在手机、耳机或智能家居设备应用成为业界难题，端侧部署对离线部署、私密性有更高需求 [2] - 端侧部署的展开是一条在“小而精，快而准”的艰难探索之路，需要在有限硬件资源内实现快速推理 [4] - 当前模型能力仍受限于监督微调（SFT）流程及基础模型本身的性能，未来将重点转向强化学习与模型蒸馏等技术路径，以缩小低比特量化模型与全精度模型的能力差距 [15]

腾讯控股(HK:00700)

大语言模型端侧部署

2比特量化

Artificial Intelligence

HY-1.8B-2Bit

大语言模型端侧部署

2比特量化

Artificial Intelligence

HY-1.8B-2Bit