公司技术发布 - 腾讯混元团队开源了极致量化压缩版本的翻译大模型 Hy-MT1.5-1.8B-1.25bit,将支持33种语言的翻译大模型压缩至440MB,使其能在手机本地运行[4] - 该离线翻译模型无需联网,官方测试显示其翻译质量优于谷歌翻译[5] - 团队还制作了实际可用的腾讯混元翻译Demo版,特别适配“后台取词模式”,支持在本地查看邮件或浏览网页时随叫随到,完全本地处理且不涉及个人信息采集和上传[23] 模型核心能力 - Hy-MT1.5是专业翻译大模型,原生支持33种语言、5种方言/民汉及1056个翻译方向,能处理从常见的中英互译到藏语、蒙古语等少数民族语言[8] - 1.8B版本的Hy-MT1.5实现了比肩商业翻译API和235B级大模型的翻译效果,在评测基准中其翻译质量超越了谷歌翻译、百度翻译等主流系统[9] 量化压缩技术 - 原始的1.8B模型在FP16精度下占用3.3GB内存,对于手机应用而言过大过慢,因此需要进行量化压缩[11] - 量化压缩通过将模型参数从16位表示改用更低位数字储存来减小模型体积,类似于压缩高清照片[12][13] - 公司推出了两种极致的量化压缩方案:2-bit模型和1.25-bit模型[14] - 2-bit模型采用拉伸弹性量化(SEQ)技术,将模型体积压缩至574MB,实现了几乎无损的翻译质量,效果超越上百GB的大模型,并在支持Arm SME2技术的设备上能实现更快速高效的推理[16] - 1.25-bit模型采用基于Sherry(稀疏高效三值量化)技术的压缩方案,该方案已被NLP顶级学术会议ACL 2026录用[17] - Sherry方案采用“细粒度稀疏”策略,每4个模型参数中3个最重要的用1-bit储存,1个用0储存,平均每个参数仅需1.25-bit[18] - 配合公司专门为手机CPU设计的STQ内核,最终将3.3GB的原始模型压缩至440MB,使其能轻松常驻手机后台[20] 性能与适用性 - 2-bit模型适用于中高端机型,在性能与质量间取得平衡[16] - 1.25-bit模型(Sherry极致压缩)适用于全系机型,实现了极致的轻量化[16] - 在演示中,1.25-bit模型相比FP16精度模型展示了速度优势(八倍速)[21] - 模型已在高通骁龙865(8GB内存)和高通骁龙888(8GB内存)设备上成功演示[7][23] 开源与获取 - 所有模型权重、代码及技术报告均已全面开源[25] - 目前Demo版仅支持安卓体验,后续正式版将添加对iOS等平台的支持[25] - 模型及Demo可通过Hugging Face(海外用户)和魔搭社区(国内用户)获取[26][27] - 相关的技术报告和论文地址也已公开[28]
腾讯混元最新开源:440M翻译模型手机离线就能用,翻译质量超谷歌