技术突破 - Seed LiveInterpret 2.0在中英互译任务中达到业界最优水平(SOTA),在译文质量、响应速度与音色还原能力上表现突出 [2] - 系统采用全双工语音理解与生成框架,支持"边听边说"的实时传译,语音延迟最低可至2到3秒 [2] - 具备0样本声音复刻能力,无需预录音即可用说话者的音色"说出"外语 [2] 系统架构 - 引入双通路(duplex)语音理解与生成架构,端到端方案减少中间环节,提升处理效率和翻译准确率 [4] - 系统能边接收源语言语音输入边生成目标语言语音输出,可实时处理多人说话场景 [4] - 相比传统同传系统,可在听音过程中同步生成目标语音,实现平均约2.5秒内完成首个译句输出 [6] 性能表现 - 语音翻译延迟低至2到3秒,相比传统机器同传系统平均减少超过60%等待时间 [7] - 在语音到文本的中英互译任务中,平均翻译质量得分为74.8(满分100),相比第二名系统高出58% [13] - 语音到文本场景中平均输出首字延迟仅为2.21秒,语音到语音场景延迟为2.53秒 [16] 技术创新 - 引入强化学习机制,在延迟、译文准确率和节奏控制上进行联合建模优化 [8] - 采用两阶段训练流程:先通过单步奖励预热模型,再利用全局奖励机制优化模型 [8] - 在长文本中译英任务中,语音输出延迟从3.90秒降至2.37秒,翻译质量得分从75.1提升至79.5 [8][9] 应用场景 - 已通过火山引擎开放试用,用户可体验语音模型"Doubao-同声传译2.0" [2][3] - Ola Friend耳机计划于8月底接入该系统,成为首个支持其语音同传能力的硬件设备 [2] - 具备跨语言实时演讲、跨境会议、教育直播等落地能力 [19]
刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了
36氪·2025-07-24 18:18