豆包语音合成模型2.0
搜索文档
19亿次互动背后:AI如何成为春晚“新主角”?
新浪财经· 2026-02-18 21:07
核心观点 - 2026年央视春晚标志着生成式AI技术首次大规模应用于国家级晚会的内容创作与大众互动,从舞台特效到用户手机互动,AI已从后台工具转变为艺术创作的核心部分和大众日常新年俗 [1][3] 技术应用与舞台创新 - 字节跳动通过豆包大模型家族及火山引擎,在多个春晚节目中驱动AI进行内容创作,包括让静态画作动态化、生成真人3D数字分身以及处理机器人对话语气 [1] - 在《驭风歌》节目中,视频生成模型Seedance 2.0结合图像创作模型Seedream 4.5,成功将徐悲鸿的《六骏图》以保持水墨风韵的方式动态呈现,解决了此前AI难以理解中国水墨画逻辑导致视频变形的问题 [5][7] - 在《贺花神》节目中,Seedance 2.0精准控制了蜀葵花绽放时纹理、层次、光影的微观细节变化,使AI视频从“能看”进化到“经得起特写” [7][9] - 在《梦底》节目中,采用空间视频技术,通过70台高分辨率相机捕捉演员动作,云端重建4D模型后导入游戏引擎实时渲染,实现了多个“数字分身”与现场灯光实时同步的“虚实难辨”效果 [9][11] - 豆包3D模型通过为数字人生成“几何外壳”专门计算影子,大幅降低渲染压力,使得十几个高精度数字人同台表演不卡顿 [11] 用户互动与模式变革 - 春晚互动形式从过往的“摇一摇抢红包”转变为让用户通过豆包App使用AI生成新春头像和拜年文案,标志着生成式AI真正走进大众日常 [2] - 除夕当天,豆包AI互动总次数达到19亿次,“豆包过年”活动生成了超过5000万张新春主题头像和超过1亿条新春祝福 [2] - 互动模式从“I/O密集型”(如抢红包)转变为“计算密集型”,每次请求都需要AI模型实时理解并生成独一无二的内容,对模型推理能力和算力调度提出更高要求 [13][14] - 除夕晚21时46分,在主持人宣布第二轮互动后的一分钟内,豆包大模型的推理吞吐量峰值达到633亿tokens,体现了其应对瞬时超高并发AI请求的能力 [15] 技术普惠与体验优化 - 抖音春晚直播间首次上线全程实时无障碍字幕,通过豆包语音识别模型2.0(Seed ASR 2.0)在复杂环境(掌声、笑声、方言、谐音梗)下保持高准确率,提升了听障群体及在嘈杂环境观看者的体验 [16] - 在节目《奶奶的最爱》中,松延动力的Bumi机器人搭载豆包语音合成模型2.0,实现了有语气、有停顿并能理解上下文对话的“对话式合成”,使交互更自然 [18] - 这些细节优化体现了技术向善的理念,旨在让更多人平等地享受娱乐内容 [18] 基础设施与行业意义 - 海量AI互动(19亿次)背后,字节跳动旗下的火山引擎方舟平台通过跨机房调度、秒级扩容、分布式缓存加速等技术,支撑了洪峰般的算力需求 [19] - 此次春晚成为AI技术全面融入大型文娱活动和大众生活的标志性节点,AI正在成为数字时代新的“年俗催化剂” [19]
春晚张杰《驭风歌》背后的马,是Seedance 2.0做的!
量子位· 2026-02-17 11:58
豆包大模型及火山引擎技术在春晚的应用与展示 - 豆包大模型家族的多项技术(包括豆包Seedance 2.0、Seedream、豆包语音识别模型、豆包TTS 2.0、字节Seed 3D模型、DA3模型等)在2025年央视春晚的多个节目中成功落地应用,从舞台视觉特效、机器人表演到直播互动与无障碍字幕,实现了全面覆盖 [6][38][43] - 火山引擎的视频云团队与方舟平台为春晚提供了关键的画质增强、高并发支持与空间视频技术,确保了8K高清、50FPS高帧率等超高规格节目的稳定呈现与流畅互动 [15][29][31] 视频生成与动态控制技术(Seedance 2.0) - **核心能力突破**:豆包Seedance 2.0视频生成模型实现了从“能生成”到“能控制”的进化,具备精细的微观控制能力、超强的指令遵循能力和多模态素材参考能力 [8][10][11] - **国风美学理解**:该模型成功处理了极具挑战的“中国水墨风”,在张杰《驭风歌》节目中生成了气势磅礴、奔腾的骏马动态水墨画卷,通过了春晚超级严格的审核 [4] - **复杂场景应用**:在《贺花神》节目中,为十几位明星定制了“一人一景”的中式视觉奇观,精准控制了植物缓慢绽放及纹理、层次、光影的细微变化 [7] - **视频动作迁移**:在《快乐小马》节目中,利用该技术将真人舞蹈动作一键迁移至卡通小马形象上,解决了不同拓扑结构间的适配难题,并保持了原图在剧烈运动时的稳定性 [13][14] 画质增强与空间视频技术(火山引擎) - **智能画质增强框架(MIPP)**:针对AIGC内容,火山引擎利用超分算法将720P视频提升至8K,并通过插帧技术将24帧补至50帧,同时结合视频理解技术进行针对性去噪、锐化等处理,抹平微小瑕疵 [16][17] - **空间视频技术(4D高斯泼溅/4DGS)**:在《梦底》节目中,通过70台工业级相机阵列采集演员数据,重建为4D数字资产,实现了与现场灯光实时互动的多个高精度虚拟分身同台表演,创造了虚实难辨的沉浸感 [18][20][21][23] - **性能与细节优化**:技术团队利用字节Seed 3D模型预制“影子几何”提升渲染效率,并引入DA3模型从单图推断高精度深度信息,确保了近景皮肤质感等细节的逼真度 [25] 机器人赋能与具身智能 - **多模态模型赋能**:豆包大模型全家桶为宇树机器人等春晚登台机器人提供了“眼”(视觉理解模型用于环境识别与避障)、“脑”(大语言模型用于理解自然语言指令)、“嘴”(TTS 2.0用于富有情感的语音合成)的能力,使机器人能看懂环境、听懂人话并带感情说话 [24][27][30] - **行业应用广泛**:豆包大模型在具身智能圈已服务宇树、银河通用、智元机器人等40多家公司 [40] 高并发AI互动与平台支撑(火山引擎方舟平台) - **首次AI互动**:今年春晚首次实现由大模型驱动的AI互动(如生成新春头像、定制祝福语),其本质是计算密集型的Agent过程,相比以往事务型互动算力消耗巨大 [28] - **抗洪峰解决方案**:火山引擎方舟平台通过跨机房联邦集群弹性伸缩、推理层硬件极限优化(如算子手写优化、Prefill/Decode分离)以及秒级权重复制加载等技术,成功顶住了亿万流量瞬间涌入的挑战 [29][31] 语音识别与无障碍字幕 - **复杂场景识别**:豆包语音识别模型在春晚直播的复杂噪声环境(含快语速、多梗、方言、掌声、背景音乐)下,展现了多方言鲁棒性、上下文感知(召回率提升15%以上)和低时延流式识别的能力,为抖音直播间提供了AI无障碍直播字幕 [36][37][39] 行业生态与合作伙伴 - **广泛的朋友圈**:豆包大模型通过火山引擎已渗透至多个行业,在车圈服务了超9成主流车企(包括奔驰、特斯拉、比亚迪、蔚小理等),在手机/PC圈与全球Top10手机厂商中的9家(如小米、OPPO、vivo、荣耀、三星)及联想等公司合作 [40] - **技术整合价值**:春晚作为一次大型“买家秀”,证明了豆包大模型及相关技术能够扛住顶级压力、真正落地并创造价值,其对中国文化的深刻理解与强大的工程化能力是关键 [41][42][45]
火山引擎升级豆包系列模型
科技日报· 2025-10-21 07:28
公司产品更新 - 火山引擎发布豆包大模型系列更新,包括原生支持多种思考长度的豆包大模型1.6、更轻量的豆包大模型1.6lite、豆包语音合成模型2.0及豆包声音复刻模型2.0 [1] - 豆包大模型1.6是国内首个原生支持“分档调节思考长度”的模型,提供最低、低、中、高四种思考长度以平衡不同场景下对模型效果、时延和成本的需求 [2] - 以低思考长度为例,升级后的豆包1.6模型总输出tokens下降77.5%、思考时间下降84.6%,同时模型效果保持不变 [2] - 推出的豆包大模型1.6lite相比旗舰版本更轻量、推理速度更快,在企业级场景测评中较豆包1.5pro提升14%,在0—32k输入区间综合使用成本降低53.3% [2] - 公司发布智能模型路由,这是国内首个针对模型智能选择的解决方案,可自动为任务请求选择最合适的模型,目前已支持豆包大模型、DeepSeek等多种主流模型 [2] 市场表现与行业地位 - 截至今年9月底,豆包大模型日均tokens调用量已突破30万亿,相比5月底增长超80% [1] - IDC报告显示,在2025年上半年中国公有云大模型服务市场,火山引擎以49.2%的份额占比位居中国第一 [1] 行业发展趋势 - 全球AI大模型正朝三个方向发展:深度思考模型与多模态理解能力融合、视频图像语音模型逐步实现生产级水平、企业级复杂智能体正在走向成熟 [1] - 在服务企业用户过程中发现,开启深度思考模式可使模型效果平均提升31%,但会提高延迟和成本,导致其在实际应用中的使用占比仅有18% [2]
火山引擎:日均tokens超30万亿
北京商报· 2025-10-16 21:48
公司产品发布 - 火山引擎于10月16日发布豆包大模型的系列更新,包括豆包大模型1.6原生支持多种思考长度 [1] - 公司同时推出了豆包大模型1.6 lite、豆包语音合成模型2.0、豆包声音复刻模型2.0等全新模型 [1] 公司运营数据 - 截至2025年9月底,豆包大模型日均tokens调用量超过30万亿 [1] - 该调用量相比2024年5月底增长超过80% [1]
火山引擎发布豆包系列模型升级,披露日均tokens超30万亿
21世纪经济报道· 2025-10-16 18:01
豆包大模型系列更新 - 火山引擎发布豆包大模型1 6 原生支持多种思考长度 并推出豆包大模型1 6 lite、豆包语音合成模型2 0、豆包声音复刻模型2 0等全新模型 [1] - 截至2025年9月底 豆包大模型日均tokens调用量已突破30万亿 相比2025年5月底增长超80% [1] - 2025年上半年中国公有云大模型服务市场 火山引擎以49 2%的份额占比位居中国第一 [1] 豆包大模型1 6核心升级 - 豆包大模型1 6是国内首个原生支持"分档调节思考长度"的大模型 提供Minimal、Low、Medium、High四种思考长度以平衡效果、时延和成本需求 [2][3] - 开启深度思考模式可使模型效果平均提升31% 但实际应用中使用占比仅有18% [3] - 以低思考长度为例 升级后模型总输出tokens下降77 5% 思考时间下降84 6% 模型效果保持不变 [3] - 豆包大模型1 6 lite相比旗舰版更轻量、推理速度更快 效果超越豆包大模型1 5 pro 在企业级场景测评中提升14% [3] - 在0-32k输入区间 豆包大模型1 6 lite的综合使用成本较豆包1 5 pro降低53 3% [3] 语音模型升级 - 豆包语音合成模型2 0和声音复刻模型2 0具备更强情感表现力和精准指令遵循能力 能准确朗读复杂公式 [7][8] - 新语音模型基于大语言模型研发新架构 使声音能进行深度语义理解和上下文推理 [8] - 在小学至高中阶段全学科的复杂公式朗读中 新模型准确率可达90% 而市面上同类模型准确率普遍低于50% [8] - 豆包语音模型家族已覆盖7大领域 覆盖超过4 6亿台智能终端 [8] 智能模型路由解决方案 - 火山引擎发布国内首个模型智能选择解决方案"智能模型路由" 支持平衡模式、效果优先模式和成本优先模式 [9][10] - 智能模型路由已支持豆包大模型、DeepSeek、Qwen、Kimi等多种主流模型 [10] - 以DeepSeek为例 在效果优先模式下 智能路由后模型效果相比直接使用DeepSeek-V3 1提升14% [10] - 在成本优先模式下 实现相似效果条件下 模型综合成本最高下降超过70% [10] 行业发展趋势 - 全球AI大模型正朝三个方向发展:深度思考模型与多模态理解能力融合、视频图像语音模型实现生产级水平、企业级复杂Agent走向成熟 [1]
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
量子位· 2025-10-16 14:11
豆包语音大模型升级核心 - 火山引擎对豆包语音大模型进行升级,核心在于使语音学会思考,更能理解台词,情感表达更有张力[5] - 升级旨在推动AI语音从“像人”走向“懂人”,实现理解后的精准情感表达[11][23] 语音模型具体升级内容 - 主要升级两个模型:豆包语音合成模型2.0和豆包声音复刻模型2.0[7] - 豆包语音合成模型2.0提供三种操作模式:默认模式、语音指令模式和引入上文模式[9][12] - 豆包声音复刻模型2.0可在几秒内快速复刻指定声音[8] 语音模型升级效果实测 - 通过模仿《甄嬛传》角色华妃与甄嬛的对话,以及单依纯的声音对比,展示语音指令对情绪表达的显著提升[14][15][16][17][18][19][20] - 引入上文模式能有效改善AI对复杂台词停顿的处理,使表达更连贯自然[21][22][23] - 在复杂公式朗读方面,豆包语音大模型2.0版本准确率达到约90%,显著高于同类模型普遍低于50%的水平[24][25] 豆包大模型及多模态技术升级 - 豆包大模型1.6升级为国内首个原生支持分档调节思考长度的Thinking模型,提供四种思考模式[29][30][33] - 在低思考长度模型下,总输出tokens下降77.5%,深度思考时间大幅缩短84.6%[34] - 首次推出轻量化豆包大模型1.6 Lite,并发布智能模型路由,可根据任务复杂度自动匹配最优模型,在成本优先模式下综合成本最高可降71%[36][38][39] 技术应用与商业化落地 - 技术演进聚焦三大趋势:更强的思考与理解能力、更丰富的多模态交互、更实用的Agent智能体[41][43][44] - 小米小爱同学接入豆包大模型1.6后,终端设备具备结合现实场景进行对话和处理信息的能力[45] - 懂车帝应用“AI选车”功能,复杂需求搜索占比从10%大幅提升至79.4%[45] - OPPO、Keep、美图、洋葱学园等企业已应用火山引擎语音技术提升用户体验[45] 算力支撑与规模增长 - 豆包大模型日均tokens调用量在一年多内从1200亿增长至超过30万亿,实现253倍增长[47] - 增长背后依赖火山引擎AI云提供的稳定高效基础设施支撑[48]