Workflow
百度用50天将视频价格打到行业70%!内部负责人:成本优化还有空间
AI前线·2025-08-28 15:31

产品升级与发布 - 百度蒸汽机音视频一体化模型完成重大升级 在行业内首次实现多人有声视频一体化生成 [2] - Turbo版、Lite版、Pro版及有声版全面开放 用户可通过百度搜索或登录绘想平台体验 企业用户可在千帆平台享受高性能视频生成服务 [2] - 生成视频时长为5秒 Turbo版、Lite版、Pro版支持5秒 有声版支持5秒或10秒 [3] 技术突破与创新 - 全球首个中文音视频一体化生成的I2V模型 支持环境音效和多角色语音一体化生成 [3] - 五大核心技术突破包括:行业首次实现多人有声音视频一体化生成 语音与唇形、表情、动作毫秒级精准对齐 复杂场景下稳定 [10] - 首创多模态潜在空间规划技术 自主协调多角色身份、情感与互动逻辑 保障电影级叙事连贯性 [10] - 中文场景深度适配 以超98%的还原度精准呈现中文语音细节与情感表达 [10] - 端到端电影级画质生成 通过精准主体动态刻画打造真实细腻的人物表现力 [10] - 大师级运镜控制 内置数十种专业镜头语言 精准响应文本指令 [10] - 采用端到端训练实现一体化生成 通过统一的潜在空间规划让模型自主决定人物对话逻辑与互动情绪 [5] - 研发核心难点在于实现形、声、音容一体化生成效果 尤其是在多角色场景中保持画面连续自然、声音真实可信、口型表情动作与语音节奏完全匹配 [4] 成本优势与定价策略 - 价格低至行业同类产品的70% 刊例价之外还面向B端和C端用户提供各类优惠定价 所有价格均控制在市场水平的七折或更低 [8] - 国际知名视效指导使用百度蒸汽机2.0制作科幻短片 共有40多个镜头 每个镜头生成3次 共用AI生成超120个片段素材 成本低至百元 [8] - 成本控制得益于团队多年来在GPU算力和工程优化上的积累 能够精准优化训练过程包括调整训练集、优化算子等多项工作显著提升效率 [9] - 依托策略工程架构与底层蒜粒相结合 以及百度智能云百舸平台与自研昆仑芯片的专业适配共同推动成本下降 [9] 商业模式与生态价值 - 不依赖调用次数的商业模式 收益源于生态价值的整体增强而非单次调用费用 [13] - 搜索流量中已有超过60%融入了AIGC生成的内容 视频质量显著提升分发量迅猛增长 [13] - 百家号日更达数百万条 其中AIGC应用占比不断扩大 甚至出现完全由AIGC生成的高热度视频 [13] - 这类收益相比于仅依靠调用量产生的收入大约高出两个数量级 [14] 未来发展方向 - 视频生成技术将朝着更长时长、实时生成与交互方向发展 [6] - 当前生成内容以短片段为主限制在5秒到10秒 实际应用需无限时长生成能力但受限于扩散模型架构导致成本呈平方级增长 [6] - 团队在结合扩散模型和自回归模型优点的基础上进行创新 目前已取得内部突破既保持生成一致性也提升流畅度和叙事合理性同时减少误差累积 [6] - 成本优化仍是未来的重点方向 团队将持续优化以降低用户创作门槛 [11]