腾讯混元最新开源：440M翻译模型手机离线就能用，翻译质量超谷歌

公司技术发布 - 腾讯混元团队开源了极致量化压缩版本的翻译大模型 Hy-MT1.5-1.8B-1.25bit，将支持33种语言的翻译大模型压缩至440MB，使其能在手机本地运行[4] - 该离线翻译模型无需联网，官方测试显示其翻译质量优于谷歌翻译[5] - 团队还制作了实际可用的腾讯混元翻译Demo版，特别适配“后台取词模式”，支持在本地查看邮件或浏览网页时随叫随到，完全本地处理且不涉及个人信息采集和上传[23] 模型核心能力 - Hy-MT1.5是专业翻译大模型，原生支持33种语言、5种方言/民汉及1056个翻译方向，能处理从常见的中英互译到藏语、蒙古语等少数民族语言[8] - 1.8B版本的Hy-MT1.5实现了比肩商业翻译API和235B级大模型的翻译效果，在评测基准中其翻译质量超越了谷歌翻译、百度翻译等主流系统[9] 量化压缩技术 - 原始的1.8B模型在FP16精度下占用3.3GB内存，对于手机应用而言过大过慢，因此需要进行量化压缩[11] - 量化压缩通过将模型参数从16位表示改用更低位数字储存来减小模型体积，类似于压缩高清照片[12][13] - 公司推出了两种极致的量化压缩方案：2-bit模型和1.25-bit模型[14] - 2-bit模型采用拉伸弹性量化（SEQ）技术，将模型体积压缩至574MB，实现了几乎无损的翻译质量，效果超越上百GB的大模型，并在支持Arm SME2技术的设备上能实现更快速高效的推理[16] - 1.25-bit模型采用基于Sherry（稀疏高效三值量化）技术的压缩方案，该方案已被NLP顶级学术会议ACL 2026录用[17] - Sherry方案采用“细粒度稀疏”策略，每4个模型参数中3个最重要的用1-bit储存，1个用0储存，平均每个参数仅需1.25-bit[18] - 配合公司专门为手机CPU设计的STQ内核，最终将3.3GB的原始模型压缩至440MB，使其能轻松常驻手机后台[20] 性能与适用性 - 2-bit模型适用于中高端机型，在性能与质量间取得平衡[16] - 1.25-bit模型（Sherry极致压缩）适用于全系机型，实现了极致的轻量化[16] - 在演示中，1.25-bit模型相比FP16精度模型展示了速度优势（八倍速）[21] - 模型已在高通骁龙865（8GB内存）和高通骁龙888（8GB内存）设备上成功演示[7][23] 开源与获取 - 所有模型权重、代码及技术报告均已全面开源[25] - 目前Demo版仅支持安卓体验，后续正式版将添加对iOS等平台的支持[25] - 模型及Demo可通过Hugging Face（海外用户）和魔搭社区（国内用户）获取[26][27] - 相关的技术报告和论文地址也已公开[28]