从“抖音同款”到“豆包同款”:视频云正在进入 Agent 时代
搜狐财经·2025-12-25 01:22

火山引擎视频云的战略进化:从“抖音同款”到“豆包同款” - 公司音视频技术战略发生根本性转变,从提供移动互联网时代“看得清、看得爽”的经典能力,进化为AI时代打造“豆包同款”的生成式智能 [1][2][17] - 此次进化旨在满足用户对音视频能力的新要求,即视频不仅能“看”,还要能“听”、“理解”并与人“对话” [2] - 技术升级覆盖从底层传输、核心引擎到顶层应用的全栈重构,旨在为下一个十年的交互方式做准备 [14][17] 底层技术支撑:AIGC传输系统 - 推出支撑豆包等大规模AI应用的AIGC传输系统,以处理视频、音频、图像、文字等多模态信息,满足AI理解与互动需求 [4] - 该系统支持实时、长连接的多模态数据传输,覆盖从实时音视频到Push-to-Talk半实时语音等多种交互场景 [4] - 内置弱网对抗机制,以保障复杂网络环境下用户与智能体互动的流畅性 [4] - 该系统能支撑大规模、高并发和突发业务场景下的AIGC多模态数据实时传输,提供稳定、实时、可扩展的能力 [5] 核心引擎升级:AI MediaKit与MIPP - 将传统媒体工具套件升级为AI MediaKit,作为面向AI云原生时代的效率工具 [6] - AI MediaKit将抖音、豆包业务中打磨成熟的媒体处理技术,封装成更细粒度的原子能力,并引入大模型的多模态理解与AIGC生成能力 [6] - 该引擎能提升内容生产效率和体验,通过预设可配置的AI工作流,优化数据预处理、后处理及并发任务,降低延时 [9] - 结合分布式多媒体智能处理平台MIPP,实现对底层原子能力的统一编排与调用 [5] - 以“声影智译”为例,结合豆包大模型与视频云能力,实现包括文本、声音、面容翻译在内的视频多模态翻译,达到业务生产水平 [9] 顶层应用:音视频互动智能体 - 提供完整的音视频互动智能体解决方案,降低企业构建门槛,企业可直接调用以快速搭建 [10] - 智能体关键升级在于感官体验更接近真人,并拥有特定场景的知识和技能 [10] - 通过模型精调,使智能体回复更口语化,覆盖20多种情绪状态及多种表达方式,并能根据上下文动态调整语速、音调甚至方言 [10] - 强化长期记忆功能,通过持续记录历史交流内容,使交互个性化,智能体可主动提供信息与建议 [11] - 在教育场景,通过声音复刻等技术,AI老师能与线上真人老师高度一致 [11] - 在游戏场景,如TapTap游戏陪玩Agent,能感知游戏进程并提供专业攻略指导 [12] - 在创作场景,能通过多轮对话理解用户意图,提升视频生成等创作的可控性与效率 [13] 智能硬件与未来趋势 - 联合乐鑫推出“喵伴”硬件开发套件,支持开箱即用,5分钟跑通业务链路,并兼容多硬件设备以降低适配成本 [13] - 未来趋势包括多智能体协作的多人群聊,为视频会议、AI教学、游戏等带来更复杂的互动体验 [13] 服务侧拓展:助力中国AI应用出海 - 国产AI应用出海已成浪潮,2025年Q1中国AI应用全球市场份额跃升至7.9%且持续增长 [14] - 公司通过体系化出海解决方案,帮助企业解决体验差、不稳定、成本高等挑战 [15] - 推出智能全球加速方案,优化大模型请求、训练数据传输等场景的全球访问速度与稳定性 [15] - 推出支持超100种语言的Conversational AI解决方案,支持音视频、图像等多模态交互 [15] - 已助力多个中国AI应用出海,例如麦芽短剧依托“声影智译”实现高效AI视频翻译与无障碍全球化传播 [15] - 从内容生产、分发到变现,公司构建了完整的出海价值链条,将技术优势转化为可规模化的业务价值 [16]