Workflow
语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%
量子位·2025-04-02 15:40

技术升级 - 百度推出行业首个基于Cross-Attention的端到端语音语言大模型,实现跨模态语音语言处理[5][16] - 该模型采用自蒸馏方式训练,结合文本和语音合成数据,采用MoE结构[17] - 创新提出高效全查询注意力技术(EALLQA),将KV cache降至原来的几十分之一,Cross-Attention的KV计算降至十分之一[18][19][26] 性能提升 - 语音合成延迟显著降低,语音问答场景调用成本最高降低90%[7][31] - 实现流式逐字合成,支持17种情感覆盖,提升语音交互响应速度[25][29][30] - 模型在L20卡上即可部署,双L20卡并发可达数百以上[32] 应用场景 - 文小言新增实时语音对话功能,支持多垂类助手能力(38个垂类)和DeepQA问答[43] - 语音交互支持结合当前季节等现实因素提供更合理建议[1][43] - 技术直接瞄准应用场景,实现技术与产品同步对齐[45] 行业影响 - 百度通过技术创新降低大模型落地语音场景的成本,推动工业级应用[10][34] - 成本成为模型厂商竞争关键,百度在语音领域迈出重要一步[33][42] - 公司计划分享核心技术以推动整个语音领域发展[37][38] 市场趋势 - 2025年大模型竞争焦点转向应用速度和国计民生落地[35] - 国内外厂商纷纷以价格为突破口争夺语音应用市场[39][40] - 大模型技术从探索阶段进入应用为王的新阶段[46][47]