Seedance 2.0全量上线，字节正式加入春节模型大战

核心观点 - 字节跳动提前发布其多模态视频生成模型Seedance 2.0，正式加入春节期间的AI模型竞争，该模型在多项基准测试中表现领先，并增强了在影视、广告等领域的应用潜力 [1][2][16] 产品发布与规划 - 公司原计划于2月14日发布Seedance 2.0、图像创作模型Seedream 5.0 Preview及豆包大模型2.0，但Seedance 2.0已提前亮相 [2] - 模型已整合至即梦APP端和PC端，但两端功能存在差异，移动端“出镜”功能默认采用Seedance 2.0，而PC端用户可在“全能参考”和“首尾帧”入口使用该模型 [10][11][14] 技术架构与核心能力 - Seedance 2.0采用统一的多模态音视频联合生成架构，支持文字、图片、音频、视频四种模态输入 [2] - 模型支持混合模态输入，允许用户同时输入多达9张图片、3段视频、3段音频以及自然语言指令 [3] - 核心能力包括解决物理规律遵循和长效一致性难题，依靠海量世界知识、稀疏架构效能优势及多模态联合训练的泛化能力 [6] - 模型具备视频编辑能力，支持对指定片段、角色、动作或剧情进行定向修改 [8] 性能表现与行业对比 - 在文生视频和图生视频覆盖的运动稳定性、指令遵循、音画同步等基准测试维度上，大幅领先于OpenAI的Sora 2 Pro、快手可灵3.0等产品 [16] - 在多模态任务方面，与生数的Vidu Q2 Pro、快手的可灵3.0相比，Seedance 2.0在提示词指令遵循、多模态遵循两个维度表现最为突出，在编辑一致性、参考对齐和动态质量上也处于行业第一梯队 [17] - 模型在多模态任务处理上指令响应更完整，生成画面更真实，在主体形象与声音还原方面表现较好 [18] 产品功能与应用 - 模型集成了业界最全面的多模态内容参考和编辑能力，用户可在交互界面选择“全能参考”生成模式，并使用@符号在提示词中标记参考图以保证生成一致性 [2][4] - 模型最长支持15秒的多镜头视频生成，旨在增加在影视、广告等领域的可用性，以降低内容制作成本 [9] - 移动端创作功能提供了Seedance 2.0 fast以及之前的模型，其中S2.0 Fast被描述为高性价比，支持音、视、文、图参考（暂不支持真人人脸） [11][12] 用户体验与现状 - 根据实测，生成一段5秒钟的视频需要扣除40个点数，由于大量用户排队，预计生成时间为2小时，系统提供免费加速2次的机会 [4] - 受限于版权等原因，一些名人相关的图片已无法用于生成内容 [4] - 公司承认模型仍需持续改善细节稳定性、拟真度以及多人口型匹配等问题，并在多主体一致性、文字还原精度及复杂编辑效果上有优化空间 [16][18]