Workflow
豆包语音识别模型2.0
icon
搜索文档
火山引擎发布豆包语音识别模型2.0
智通财经网· 2025-12-05 16:24
产品发布与核心升级 - 火山引擎于12月5日正式发布豆包语音识别模型2.0 (Doubao-Seed-ASR-2.0) [1] - 模型基于Seed混合专家大语言模型架构构建,延续了1.0版本中20亿参数高性能音频编码器的优势 [1] 技术性能提升 - 模型推理能力提升,通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20% [1] - 重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行优化升级 [1] 功能扩展 - 支持多模态视觉识别,不仅能“听懂字”还能“看懂图”,通过单图和多图等视觉信息输入让文字识别更精准 [1] - 支持日语、韩语、德语、法语等13种海外语种的精准识别,具备混合语言精准识别能力 [1]