豆包语音大模型升级核心 - 火山引擎对豆包语音大模型进行升级,核心在于使语音学会思考,更能理解台词,情感表达更有张力[5] - 升级旨在推动AI语音从“像人”走向“懂人”,实现理解后的精准情感表达[11][23] 语音模型具体升级内容 - 主要升级两个模型:豆包语音合成模型2.0和豆包声音复刻模型2.0[7] - 豆包语音合成模型2.0提供三种操作模式:默认模式、语音指令模式和引入上文模式[9][12] - 豆包声音复刻模型2.0可在几秒内快速复刻指定声音[8] 语音模型升级效果实测 - 通过模仿《甄嬛传》角色华妃与甄嬛的对话,以及单依纯的声音对比,展示语音指令对情绪表达的显著提升[14][15][16][17][18][19][20] - 引入上文模式能有效改善AI对复杂台词停顿的处理,使表达更连贯自然[21][22][23] - 在复杂公式朗读方面,豆包语音大模型2.0版本准确率达到约90%,显著高于同类模型普遍低于50%的水平[24][25] 豆包大模型及多模态技术升级 - 豆包大模型1.6升级为国内首个原生支持分档调节思考长度的Thinking模型,提供四种思考模式[29][30][33] - 在低思考长度模型下,总输出tokens下降77.5%,深度思考时间大幅缩短84.6%[34] - 首次推出轻量化豆包大模型1.6 Lite,并发布智能模型路由,可根据任务复杂度自动匹配最优模型,在成本优先模式下综合成本最高可降71%[36][38][39] 技术应用与商业化落地 - 技术演进聚焦三大趋势:更强的思考与理解能力、更丰富的多模态交互、更实用的Agent智能体[41][43][44] - 小米小爱同学接入豆包大模型1.6后,终端设备具备结合现实场景进行对话和处理信息的能力[45] - 懂车帝应用“AI选车”功能,复杂需求搜索占比从10%大幅提升至79.4%[45] - OPPO、Keep、美图、洋葱学园等企业已应用火山引擎语音技术提升用户体验[45] 算力支撑与规模增长 - 豆包大模型日均tokens调用量在一年多内从1200亿增长至超过30万亿,实现253倍增长[47] - 增长背后依赖火山引擎AI云提供的稳定高效基础设施支撑[48]
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
量子位·2025-10-16 14:11