Workflow
对话百度蒸汽机团队:国内视频生成模型赛道非常“卷” Sora2发布后团队都没休假
中国经营报·2025-10-21 22:35

行业竞争态势 - 视频生成大模型赛道竞争进入白热化阶段 [2] - OpenAI推出Sora2模型,凭借10秒有声一体化视频及社交化玩法引爆网络,加剧国内技术竞赛压力 [2] - 国内视频模型团队迅速响应,百度蒸汽机团队与快手AI团队在国庆中秋期间无休投入工作 [2] - 国内赛道竞争激烈程度远超国外,呈现百花齐放状态 [4] 百度蒸汽机技术进展 - 百度蒸汽机在10月15日完成升级,打破传统AI视频生成10秒左右时长限制,首次实现AI长视频实时交互生成 [4] - 用户可支持无限时长视频生成,并能在生成过程中实时交互,随时改写内容或扩写续集 [4] - 团队创新性地将自回归流式生成与扩散模型结合构建新型混合架构,使生成成本呈线性增长,适合长视频生成 [5][6] - 通过训推一致、关键参考帧注意力、历史帧扰动等技术缓解自回归带来的累计误差与一致性问题 [6] 产品特性与市场定位 - 百度蒸汽机实现实时交互能力,用户可在视频生成过程中随时暂停、修改段落或插入新情节,告别盲盒式生成 [6] - 产品致力于让创作过程符合创作者边写边改的思维习惯,目标是让用户想到可编辑、可打断的长视频时第一个想到蒸汽机 [6] - 在Sora2因定价高昂被开发者吐槽的背景下,百度蒸汽机升级后仍坚持原有定价策略,未来通过技术降本为用户释放红利而非陷入价格战 [6] 技术发展瓶颈与路径 - 视频生成技术面临瓶颈,DiT架构初期表现好但随需求深化,成本、生成时间、算力需求呈几何级数增长 [5] - 行业高门槛体现在生成技术复杂性及对及时满足的要求,用户无法接受延时等待 [5] - Sora2底层模型有提升,但在内容一致性、大动作呈现等方面基础模型升级幅度远不如从GPT到GPT-3.5显著 [5] - 多模态领域竞争焦灼,没有团队能拥有绝对长期技术优势,当前核心是比拼执行力,看谁能更快推进 [4]