豆包语音合成模型2.0 - 财报，业绩电话会，研报，新闻

豆包语音合成模型2.0

搜索文档

新浪财经· 2026-02-18 21:07

核心观点 - 2026年央视春晚标志着生成式AI技术首次大规模应用于国家级晚会的内容创作与大众互动，从舞台特效到用户手机互动，AI已从后台工具转变为艺术创作的核心部分和大众日常新年俗 [1][3] 技术应用与舞台创新 - 字节跳动通过豆包大模型家族及火山引擎，在多个春晚节目中驱动AI进行内容创作，包括让静态画作动态化、生成真人3D数字分身以及处理机器人对话语气 [1] - 在《驭风歌》节目中，视频生成模型Seedance 2.0结合图像创作模型Seedream 4.5，成功将徐悲鸿的《六骏图》以保持水墨风韵的方式动态呈现，解决了此前AI难以理解中国水墨画逻辑导致视频变形的问题 [5][7] - 在《贺花神》节目中，Seedance 2.0精准控制了蜀葵花绽放时纹理、层次、光影的微观细节变化，使AI视频从“能看”进化到“经得起特写” [7][9] - 在《梦底》节目中，采用空间视频技术，通过70台高分辨率相机捕捉演员动作，云端重建4D模型后导入游戏引擎实时渲染，实现了多个“数字分身”与现场灯光实时同步的“虚实难辨”效果 [9][11] - 豆包3D模型通过为数字人生成“几何外壳”专门计算影子，大幅降低渲染压力，使得十几个高精度数字人同台表演不卡顿 [11] 用户互动与模式变革 - 春晚互动形式从过往的“摇一摇抢红包”转变为让用户通过豆包App使用AI生成新春头像和拜年文案，标志着生成式AI真正走进大众日常 [2] - 除夕当天，豆包AI互动总次数达到19亿次，“豆包过年”活动生成了超过5000万张新春主题头像和超过1亿条新春祝福 [2] - 互动模式从“I/O密集型”（如抢红包）转变为“计算密集型”，每次请求都需要AI模型实时理解并生成独一无二的内容，对模型推理能力和算力调度提出更高要求 [13][14] - 除夕晚21时46分，在主持人宣布第二轮互动后的一分钟内，豆包大模型的推理吞吐量峰值达到633亿tokens，体现了其应对瞬时超高并发AI请求的能力 [15] 技术普惠与体验优化 - 抖音春晚直播间首次上线全程实时无障碍字幕，通过豆包语音识别模型2.0（Seed ASR 2.0）在复杂环境（掌声、笑声、方言、谐音梗）下保持高准确率，提升了听障群体及在嘈杂环境观看者的体验 [16] - 在节目《奶奶的最爱》中，松延动力的Bumi机器人搭载豆包语音合成模型2.0，实现了有语气、有停顿并能理解上下文对话的“对话式合成”，使交互更自然 [18] - 这些细节优化体现了技术向善的理念，旨在让更多人平等地享受娱乐内容 [18] 基础设施与行业意义 - 海量AI互动（19亿次）背后，字节跳动旗下的火山引擎方舟平台通过跨机房调度、秒级扩容、分布式缓存加速等技术，支撑了洪峰般的算力需求 [19] - 此次春晚成为AI技术全面融入大型文娱活动和大众生活的标志性节点，AI正在成为数字时代新的“年俗催化剂” [19]

春晚张杰《驭风歌》背后的马，是Seedance 2.0做的！

量子位· 2026-02-17 11:58

豆包大模型及火山引擎技术在春晚的应用与展示 - 豆包大模型家族的多项技术（包括豆包Seedance 2.0、Seedream、豆包语音识别模型、豆包TTS 2.0、字节Seed 3D模型、DA3模型等）在2025年央视春晚的多个节目中成功落地应用，从舞台视觉特效、机器人表演到直播互动与无障碍字幕，实现了全面覆盖 [6][38][43] - 火山引擎的视频云团队与方舟平台为春晚提供了关键的画质增强、高并发支持与空间视频技术，确保了8K高清、50FPS高帧率等超高规格节目的稳定呈现与流畅互动 [15][29][31] 视频生成与动态控制技术（Seedance 2.0） - **核心能力突破**：豆包Seedance 2.0视频生成模型实现了从“能生成”到“能控制”的进化，具备精细的微观控制能力、超强的指令遵循能力和多模态素材参考能力 [8][10][11] - **国风美学理解**：该模型成功处理了极具挑战的“中国水墨风”，在张杰《驭风歌》节目中生成了气势磅礴、奔腾的骏马动态水墨画卷，通过了春晚超级严格的审核 [4] - **复杂场景应用**：在《贺花神》节目中，为十几位明星定制了“一人一景”的中式视觉奇观，精准控制了植物缓慢绽放及纹理、层次、光影的细微变化 [7] - **视频动作迁移**：在《快乐小马》节目中，利用该技术将真人舞蹈动作一键迁移至卡通小马形象上，解决了不同拓扑结构间的适配难题，并保持了原图在剧烈运动时的稳定性 [13][14] 画质增强与空间视频技术（火山引擎） - **智能画质增强框架（MIPP）**：针对AIGC内容，火山引擎利用超分算法将720P视频提升至8K，并通过插帧技术将24帧补至50帧，同时结合视频理解技术进行针对性去噪、锐化等处理，抹平微小瑕疵 [16][17] - **空间视频技术（4D高斯泼溅/4DGS）**：在《梦底》节目中，通过70台工业级相机阵列采集演员数据，重建为4D数字资产，实现了与现场灯光实时互动的多个高精度虚拟分身同台表演，创造了虚实难辨的沉浸感 [18][20][21][23] - **性能与细节优化**：技术团队利用字节Seed 3D模型预制“影子几何”提升渲染效率，并引入DA3模型从单图推断高精度深度信息，确保了近景皮肤质感等细节的逼真度 [25] 机器人赋能与具身智能 - **多模态模型赋能**：豆包大模型全家桶为宇树机器人等春晚登台机器人提供了“眼”（视觉理解模型用于环境识别与避障）、“脑”（大语言模型用于理解自然语言指令）、“嘴”（TTS 2.0用于富有情感的语音合成）的能力，使机器人能看懂环境、听懂人话并带感情说话 [24][27][30] - **行业应用广泛**：豆包大模型在具身智能圈已服务宇树、银河通用、智元机器人等40多家公司 [40] 高并发AI互动与平台支撑（火山引擎方舟平台） - **首次AI互动**：今年春晚首次实现由大模型驱动的AI互动（如生成新春头像、定制祝福语），其本质是计算密集型的Agent过程，相比以往事务型互动算力消耗巨大 [28] - **抗洪峰解决方案**：火山引擎方舟平台通过跨机房联邦集群弹性伸缩、推理层硬件极限优化（如算子手写优化、Prefill/Decode分离）以及秒级权重复制加载等技术，成功顶住了亿万流量瞬间涌入的挑战 [29][31] 语音识别与无障碍字幕 - **复杂场景识别**：豆包语音识别模型在春晚直播的复杂噪声环境（含快语速、多梗、方言、掌声、背景音乐）下，展现了多方言鲁棒性、上下文感知（召回率提升15%以上）和低时延流式识别的能力，为抖音直播间提供了AI无障碍直播字幕 [36][37][39] 行业生态与合作伙伴 - **广泛的朋友圈**：豆包大模型通过火山引擎已渗透至多个行业，在车圈服务了超9成主流车企（包括奔驰、特斯拉、比亚迪、蔚小理等），在手机/PC圈与全球Top10手机厂商中的9家（如小米、OPPO、vivo、荣耀、三星）及联想等公司合作 [40] - **技术整合价值**：春晚作为一次大型“买家秀”，证明了豆包大模型及相关技术能够扛住顶级压力、真正落地并创造价值，其对中国文化的深刻理解与强大的工程化能力是关键 [41][42][45]

大模型

AI互动

元宇宙

Artificial Intelligence

Artificial Intelligence

Seedance 2.0

火山引擎方舟平台

火山引擎升级豆包系列模型

科技日报· 2025-10-21 07:28

公司产品更新 - 火山引擎发布豆包大模型系列更新，包括原生支持多种思考长度的豆包大模型1.6、更轻量的豆包大模型1.6lite、豆包语音合成模型2.0及豆包声音复刻模型2.0 [1] - 豆包大模型1.6是国内首个原生支持“分档调节思考长度”的模型，提供最低、低、中、高四种思考长度以平衡不同场景下对模型效果、时延和成本的需求 [2] - 以低思考长度为例，升级后的豆包1.6模型总输出tokens下降77.5%、思考时间下降84.6%，同时模型效果保持不变 [2] - 推出的豆包大模型1.6lite相比旗舰版本更轻量、推理速度更快，在企业级场景测评中较豆包1.5pro提升14%，在0—32k输入区间综合使用成本降低53.3% [2] - 公司发布智能模型路由，这是国内首个针对模型智能选择的解决方案，可自动为任务请求选择最合适的模型，目前已支持豆包大模型、DeepSeek等多种主流模型 [2] 市场表现与行业地位 - 截至今年9月底，豆包大模型日均tokens调用量已突破30万亿，相比5月底增长超80% [1] - IDC报告显示，在2025年上半年中国公有云大模型服务市场，火山引擎以49.2%的份额占比位居中国第一 [1] 行业发展趋势 - 全球AI大模型正朝三个方向发展：深度思考模型与多模态理解能力融合、视频图像语音模型逐步实现生产级水平、企业级复杂智能体正在走向成熟 [1] - 在服务企业用户过程中发现，开启深度思考模式可使模型效果平均提升31%，但会提高延迟和成本，导致其在实际应用中的使用占比仅有18% [2]

Artificial Intelligence

Artificial Intelligence

北京商报· 2025-10-16 21:48

公司产品发布 - 火山引擎于10月16日发布豆包大模型的系列更新，包括豆包大模型1.6原生支持多种思考长度 [1] - 公司同时推出了豆包大模型1.6 lite、豆包语音合成模型2.0、豆包声音复刻模型2.0等全新模型 [1] 公司运营数据 - 截至2025年9月底，豆包大模型日均tokens调用量超过30万亿 [1] - 该调用量相比2024年5月底增长超过80% [1]

大模型

Artificial Intelligence

Artificial Intelligence

火山引擎发布豆包系列模型升级，披露日均tokens超30万亿

21世纪经济报道· 2025-10-16 18:01

豆包大模型系列更新 - 火山引擎发布豆包大模型1 6 原生支持多种思考长度并推出豆包大模型1 6 lite、豆包语音合成模型2 0、豆包声音复刻模型2 0等全新模型 [1] - 截至2025年9月底豆包大模型日均tokens调用量已突破30万亿相比2025年5月底增长超80% [1] - 2025年上半年中国公有云大模型服务市场火山引擎以49 2%的份额占比位居中国第一 [1] 豆包大模型1 6核心升级 - 豆包大模型1 6是国内首个原生支持"分档调节思考长度"的大模型提供Minimal、Low、Medium、High四种思考长度以平衡效果、时延和成本需求 [2][3] - 开启深度思考模式可使模型效果平均提升31% 但实际应用中使用占比仅有18% [3] - 以低思考长度为例升级后模型总输出tokens下降77 5% 思考时间下降84 6% 模型效果保持不变 [3] - 豆包大模型1 6 lite相比旗舰版更轻量、推理速度更快效果超越豆包大模型1 5 pro 在企业级场景测评中提升14% [3] - 在0-32k输入区间豆包大模型1 6 lite的综合使用成本较豆包1 5 pro降低53 3% [3] 语音模型升级 - 豆包语音合成模型2 0和声音复刻模型2 0具备更强情感表现力和精准指令遵循能力能准确朗读复杂公式 [7][8] - 新语音模型基于大语言模型研发新架构使声音能进行深度语义理解和上下文推理 [8] - 在小学至高中阶段全学科的复杂公式朗读中新模型准确率可达90% 而市面上同类模型准确率普遍低于50% [8] - 豆包语音模型家族已覆盖7大领域覆盖超过4 6亿台智能终端 [8] 智能模型路由解决方案 - 火山引擎发布国内首个模型智能选择解决方案"智能模型路由" 支持平衡模式、效果优先模式和成本优先模式 [9][10] - 智能模型路由已支持豆包大模型、DeepSeek、Qwen、Kimi等多种主流模型 [10] - 以DeepSeek为例在效果优先模式下智能路由后模型效果相比直接使用DeepSeek-V3 1提升14% [10] - 在成本优先模式下实现相似效果条件下模型综合成本最高下降超过70% [10] 行业发展趋势 - 全球AI大模型正朝三个方向发展：深度思考模型与多模态理解能力融合、视频图像语音模型实现生产级水平、企业级复杂Agent走向成熟 [1]

Artificial Intelligence

Artificial Intelligence

新豆包模型让郭德纲喊出发疯文学：(这班)不上了！不上了！不上了！！！

量子位· 2025-10-16 14:11

豆包语音大模型升级核心 - 火山引擎对豆包语音大模型进行升级，核心在于使语音学会思考，更能理解台词，情感表达更有张力[5] - 升级旨在推动AI语音从“像人”走向“懂人”，实现理解后的精准情感表达[11][23] 语音模型具体升级内容 - 主要升级两个模型：豆包语音合成模型2.0和豆包声音复刻模型2.0[7] - 豆包语音合成模型2.0提供三种操作模式：默认模式、语音指令模式和引入上文模式[9][12] - 豆包声音复刻模型2.0可在几秒内快速复刻指定声音[8] 语音模型升级效果实测 - 通过模仿《甄嬛传》角色华妃与甄嬛的对话，以及单依纯的声音对比，展示语音指令对情绪表达的显著提升[14][15][16][17][18][19][20] - 引入上文模式能有效改善AI对复杂台词停顿的处理，使表达更连贯自然[21][22][23] - 在复杂公式朗读方面，豆包语音大模型2.0版本准确率达到约90%，显著高于同类模型普遍低于50%的水平[24][25] 豆包大模型及多模态技术升级 - 豆包大模型1.6升级为国内首个原生支持分档调节思考长度的Thinking模型，提供四种思考模式[29][30][33] - 在低思考长度模型下，总输出tokens下降77.5%，深度思考时间大幅缩短84.6%[34] - 首次推出轻量化豆包大模型1.6 Lite，并发布智能模型路由，可根据任务复杂度自动匹配最优模型，在成本优先模式下综合成本最高可降71%[36][38][39] 技术应用与商业化落地 - 技术演进聚焦三大趋势：更强的思考与理解能力、更丰富的多模态交互、更实用的Agent智能体[41][43][44] - 小米小爱同学接入豆包大模型1.6后，终端设备具备结合现实场景进行对话和处理信息的能力[45] - 懂车帝应用“AI选车”功能，复杂需求搜索占比从10%大幅提升至79.4%[45] - OPPO、Keep、美图、洋葱学园等企业已应用火山引擎语音技术提升用户体验[45] 算力支撑与规模增长 - 豆包大模型日均tokens调用量在一年多内从1200亿增长至超过30万亿，实现253倍增长[47] - 增长背后依赖火山引擎AI云提供的稳定高效基础设施支撑[48]