Workflow
端侧AI语音技术
icon
搜索文档
荣耀阿尔法战略深化,端侧AI技术获国际语音顶会认可
观察者网· 2025-08-23 23:00
学术认可与技术突破 - 公司两篇聚焦端侧多语种任务的论文入选国际音频领域顶级会议INTERSPEECH 2025录用论文并作技术发表[1][2] - 论文针对移动设备有限算力与存储资源下实现媲美云端的多语种实时语音识别与通话翻译体验的核心难题[2] - 研发团队与上海交通大学联合攻关提出独创性解决方案并成功转化为可落地的端侧多语种通话翻译功能[5] 技术方案与性能表现 - 通过创新注意力机制与决策策略实现流式语音识别能力 打破传统延迟瓶颈 做到边说边识别[6] - 采用投机采样推理模块与主模型协同工作 高效预测后续词汇 提升推理速度[6] - 技术方案将传统方案3-4GB内存占用压缩至800MB 节省75%存储空间 翻译准确率提升16% 推理速度提升38%[7] 产品应用与行业地位 - 构建全球首个端侧语音大模型 嵌入中英德法西意6个语种包于0.8B参数量模型中 支持离线多语种互译[7] - 纯端侧实现媲美云端的通话翻译体验 从源头保障隐私安全 解决云端方案隐私泄露风险与端侧方案实时性准确性难以兼顾的行业困境[6][7] 战略布局与技术体系 - 端侧AI语音技术突破是公司长期深耕AI战略的必然结果 投入具有持续性与前瞻性[9] - 此前发布自研多模态感知大模型MagicGUI 以7B参数规模支撑底层AI智能体的多模态感知与自动执行规划能力 达到行业领先水平[9]