核心观点 - 字节跳动提前发布其多模态视频生成模型Seedance 2.0,正式加入春节期间的AI模型竞争,该模型在多项基准测试中表现领先,并增强了在影视、广告等领域的应用潜力 [1][2][16] 产品发布与规划 - 公司原计划于2月14日发布Seedance 2.0、图像创作模型Seedream 5.0 Preview及豆包大模型2.0,但Seedance 2.0已提前亮相 [2] - 模型已整合至即梦APP端和PC端,但两端功能存在差异,移动端“出镜”功能默认采用Seedance 2.0,而PC端用户可在“全能参考”和“首尾帧”入口使用该模型 [10][11][14] 技术架构与核心能力 - Seedance 2.0采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入 [2] - 模型支持混合模态输入,允许用户同时输入多达9张图片、3段视频、3段音频以及自然语言指令 [3] - 核心能力包括解决物理规律遵循和长效一致性难题,依靠海量世界知识、稀疏架构效能优势及多模态联合训练的泛化能力 [6] - 模型具备视频编辑能力,支持对指定片段、角色、动作或剧情进行定向修改 [8] 性能表现与行业对比 - 在文生视频和图生视频覆盖的运动稳定性、指令遵循、音画同步等基准测试维度上,大幅领先于OpenAI的Sora 2 Pro、快手可灵3.0等产品 [16] - 在多模态任务方面,与生数的Vidu Q2 Pro、快手的可灵3.0相比,Seedance 2.0在提示词指令遵循、多模态遵循两个维度表现最为突出,在编辑一致性、参考对齐和动态质量上也处于行业第一梯队 [17] - 模型在多模态任务处理上指令响应更完整,生成画面更真实,在主体形象与声音还原方面表现较好 [18] 产品功能与应用 - 模型集成了业界最全面的多模态内容参考和编辑能力,用户可在交互界面选择“全能参考”生成模式,并使用@符号在提示词中标记参考图以保证生成一致性 [2][4] - 模型最长支持15秒的多镜头视频生成,旨在增加在影视、广告等领域的可用性,以降低内容制作成本 [9] - 移动端创作功能提供了Seedance 2.0 fast以及之前的模型,其中S2.0 Fast被描述为高性价比,支持音、视、文、图参考(暂不支持真人人脸) [11][12] 用户体验与现状 - 根据实测,生成一段5秒钟的视频需要扣除40个点数,由于大量用户排队,预计生成时间为2小时,系统提供免费加速2次的机会 [4] - 受限于版权等原因,一些名人相关的图片已无法用于生成内容 [4] - 公司承认模型仍需持续改善细节稳定性、拟真度以及多人口型匹配等问题,并在多主体一致性、文字还原精度及复杂编辑效果上有优化空间 [16][18]
Seedance 2.0全量上线,字节正式加入春节模型大战
36氪·2026-02-12 17:53