Workflow
视频生成模型
icon
搜索文档
春节AI大战落幕,45亿砸出了什么?
搜狐财经· 2026-02-24 01:32
2026年春节AI大战核心观点 - 2026年春节AI大战是行业从技术竞赛转向生态卡位的里程碑事件,总投入超45亿元,其核心意义在于抢占用户心智、培养使用习惯,并将流量沉淀为生态入口,而非单纯的短期营销[1][3][6] 各大厂商战略与投入 - **腾讯**:投入10亿元现金红包,策略核心为“社交路权”,通过“元宝派”等功能让AI以“数字成员”身份融入微信社交场景,在21天内完成159项功能迭代,日活突破5000万[3] - **阿里巴巴**:投入30亿元启动“春节请客计划”,以免单形式覆盖其生态内多个业务,将红包活动转化为“AI+生活服务”实战,活动期间全国超1.3亿人首次体验AI购物,累计发出50亿次“千问帮我”,千问DAU飙升至7352万[4] - **字节跳动**:作为央视春晚独家AI云合作伙伴,以“豆包”为核心提供AI互动,除夕当天AI互动总数达19亿次;节前上线视频生成模型Seedance 2.0,定位AI为内容生产力工具[6] - **百度**:投入5亿元现金红包,通过互动引导用户体验文心大模型核心能力,旨在打破AI“小众工具”定位,其文心助手月活用户数已突破2亿[6] 行业影响与生态格局重塑 - **用户普及与教育**:春节成为史上最大规模AI用户启蒙,近400万60岁以上用户首次体验AI点单,超3400万人在元宝中领取分享红包,其中近一半来自三四线及以下城市,快速提升了用户接受度并降低了行业教育成本[7] - **使用习惯转变**:红包激励大幅降低尝试门槛,推动AI工具向全年龄层普及,加速用户习惯从“被动检索”转向“主动对话”[7] - **竞争维度升级**:大模型市场竞争已由单一产品竞争升级为“模型+场景+生态”的综合较量,春节活动积累的真实交互数据将反哺模型迭代[7][8] 技术发展方向校准 - **场景优先原则**:各大厂商战略凸显“场景优先”,围绕解决春节实际需求展开,如腾讯适配社交、阿里适配消费、字节适配内容,这倒逼行业从“参数内卷”转向“场景适配”[9] - **本土化研发加强**:春节场景的本土化特征(如方言、习俗)促使厂商重视AI的本土化研发,例如字节Seedance 2.0的中文提示词理解和腾讯的方言接梗能力,这有助于打造中国特色AI技术体系[9] 视频生成模型成为新焦点 - **技术突破**:字节跳动Seedance 2.0的核心突破在于“可控性”,具备分镜规划和叙事理解能力,实现了多镜头间的角色与灯光一致性,标志着AIGC从“玩具”进入“生产力工具”阶段[10] - **驱动因素**:视频生成成为焦点是“需求爆发”与“技术成熟”双重驱动,春节期间视频创作需求集中,而技术已进入“高清化、可控化、多模态融合”新阶段[11] - **行业格局与意义**:截至2026年2月,全球形成国际四大与国产第一梯队(如Seedance 2.0、Kling 3.0)的格局,国产模型在本土化适配、成本控制上有优势;视频生成因其复杂性被视为世界模型的必经之路,将驱动深刻的内容革命[11][12]
ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型,打破闭源技术壁垒
机器之心· 2026-02-15 11:44
研究背景与挑战 - 视频生成模型在画面质量、条件控制和美学表现上已达到影视级效果,但影视级长视频通常是由具有转场的多镜头序列构成,而非单个镜头的无限延续 [2] - 闭源模型如Sora2、Veo3已能生成效果惊艳的多镜头视频,但如何生成带有自然转场、指定转场位置以及形成丰富语义流的视频,是视频生成模型面临的新挑战 [2][3] 核心方法与创新 - 研究团队提出了一种基于掩码机制的全新方法CineTrans,该方法基于对注意力机制的观察,提出了块对角掩码的通用机制,使视频生成模型能高效自动化转场 [4] - CineTrans是首个时间级可控的自动化转场模型,其核心创新在于利用扩散模型本身对多镜头序列的理解构建掩码,实现了符合模型先验的时间级转场控制 [4][14] - 该方法在未经训练的情况下,仅通过将掩码应用在部分注意力层,就能在保持视觉质量的同时实现较强的时间级控制效果 [14] - 与以往工作相比,CineTrans在逐镜头生成和端到端生成两个维度间实现了平衡,通过选择性掩码策略,既保证了镜头间的转场,又维持了全局一致性 [16][17] 数据集构建 - 为提升模型效果,研究团队构建了一个高质量、多镜头的数据集Cine250K,该数据集包含约25万个经过精细处理的多镜头视频-文本对 [4][21] - Cine250K的构建过程包括分割缝合、筛选和多层级标注三个阶段,提供了精确的镜头标签和丰富的剪辑艺术先验信息,对多镜头生成任务具有重要意义 [21][25] 实验结果与性能 - 在转场控制效果上,CineTrans大幅超过基线方法,其CineTrans-Unet版本的转场控制得分达到0.8598,CineTrans-DiT版本为0.7003,远高于其他对比方法 [24] - 在镜头间一致性方面,CineTrans-DiT的语义一致性得分为0.7858,视觉一致性得分为0.7874,表现优异 [24] - 在镜头内一致性方面,CineTrans-DiT在主体和背景一致性上分别达到0.9673和0.9775 [24] - 在美学质量和语义一致性上,CineTrans-DiT分别获得0.6508和0.2109的得分 [24] - 通过基于JS散度的新指标衡量,CineTrans生成的视频在一致性分布上最接近人类剪辑的视频数据,表现出贴近人类剪辑习惯的多镜头生成能力 [24] 技术细节与机制 - 研究观测发现,在大规模预训练模型中,某些注意力层表现出较强的镜头内关联和较弱的镜头间关联,注意力图矩阵呈现块对角结构,量化数据显示镜头内与镜头间关联概率比为26.88,相关系数r=0.71 [10] - 某些注意力层中所有视觉标记对第一帧信息高度关注,这启发了利用注意力内部隐式理解达成外部条件显式转场控制的方法设计 [12] - CineTrans的块对角掩码架构将第一帧作为锚点,在不破坏模型本身结构和先验知识的前提下实现预定义的转场时间控制 [14] - 该方法通过第一帧的锚点与未经掩码的全局注意力实现全局信息交互,同时在块对角掩码作用下限制镜头间交互,使相邻镜头间像素信息自然形成跳变,从而在保持全局一致性的前提下形成稳定转场 [18] 总结与影响 - CineTrans在转场与一致性之间的权衡问题上给出了行之有效的答案,为未来针对镜头设计、更多剪辑艺术先验的多镜头视频探索打下了坚实基础 [28] - 该研究是从逐镜头生成转向端到端生成的重要工作,其代码、模型权重和数据集已在GitHub开源 [29]
迪士尼控诉!要求字节跳动“停止侵权”
新浪财经· 2026-02-14 09:54
事件概述 - 华特迪士尼公司于当地时间2月13日向字节跳动发函,指控其在训练和开发Seedance 2.0模型时未经许可使用迪士尼作品,要求“停止侵权且不得再犯” [1][5] 迪士尼的指控内容 - 迪士尼指控字节跳动的Seedance服务“预置”了一个包含迪士尼版权角色的盗版素材库,涉及《星球大战》与漫威等多个IP [2][6] - 迪士尼称字节跳动的做法仿佛这些高度商业化的IP是“免费的公共领域剪贴画” [2][6] - 迪士尼表示,在其公开反对的情况下,字节跳动仍在通过复制、分发以及创作衍生作品等方式“劫持”迪士尼角色 [2][7] - 迪士尼将字节跳动的行为形容为“虚拟的打砸抢”,并称其“蓄意、广泛且完全不可接受” [2][7] - 迪士尼律师在信中强调,Seedance上的侵权现象可能只是“冰山一角”,而这一判断之所以令人震惊,是因为Seedance上线仅仅只有两天而已 [2][7] Seedance 2.0产品信息 - 2月12日,豆包宣布其视频生成模型Seedance 2.0正式接入豆包APP、电脑端和网页版 [2][7] - Seedance 2.0模型支持原声音画同步、多镜头长叙事、多模态可控生成 [2][7] - 相比1.5版本,Seedance 2.0的生成质量大幅提升,在复杂交互和运动场景下的可用率更高,物理准确度、逼真度、可控性显著增强,更加贴合工业级创作场景的需求 [2][8] - 目前,豆包Seedance2.0暂不支持上传真人图片作为主体参考,经实测暂时无法生成明星相关视频 [3][8] 豆包对真人内容生成的限制 - 豆包表示,对于涉及真人明星+特定品牌的合成内容,平台有严格规范 [3][9] - 限制的主要目的包括:1、避免肖像权、代言关系相关的侵权风险;2、防止被误解为官方代言,引发不实信息 [3][9][12] - 实际测试中,尝试生成“刘亦菲使用华为手机的视频”失败,平台提示无法生成对应内容 [10][11]
字节Seedance 2.0全面上线豆包和即梦,马斯克转发直呼"发展速度太快"
搜狐财经· 2026-02-14 03:52
产品发布与接入 - 字节跳动于2月12日宣布其最新视频生成模型Seedance 2.0正式接入豆包App、电脑端及网页版,并同时上线即梦App和即梦网页版 [1] - 该模型在小范围测试期间已在全球引发广泛关注,埃隆·马斯克在社交平台X上转发相关推文并评论称发展速度太快 [1] 产品功能与技术特性 - Seedance 2.0支持原声音画同步、多镜头长叙事及多模态可控生成 [3] - 用户输入提示词和参考图,即可生成带有完整原生音轨的多镜头视频,模型能自动解析叙事逻辑,在角色、光影、风格与氛围上保持高度统一 [3] - 网页端支持图像、视频、音频、文本四种模态输入,创作者可通过图片指定风格、用视频参考动作与运镜、以音频传达节奏与氛围 [3] 用户体验与使用限制 - 实测显示,在豆包App输入指令后,约2分钟可生成一段10秒左右的视频 [3] - 豆包App端目前仅支持文生视频,图生视频功能尚未开放,每个账号每天拥有10个免费额度,生成一段10秒视频需消耗2个额度 [3] - 即梦App端需消耗积分,生成5秒视频需20积分 [3] - 豆包App和即梦App支持用户通过录音录像完成真人校验后生成本人数字分身,但平台明确限制上传他人真人图片或视频作为主体参考 [4] - 即梦平台运营人员曾表示,为保障创作环境,目前暂不支持输入真人图片或视频作为主体参考 [4] 产品现状与行业影响 - 公司官方坦言,Seedance 2.0还远不完美,在细节稳定性、多人口型匹配、文字还原精度等方面仍有优化空间 [4] - 该模型的发布与快速迭代,反映了人工智能视频生成领域的技术发展速度,并已引起全球科技行业领袖的关注 [1]
字节发布Seedance 2.0,豆包、即梦官宣接入
环球网· 2026-02-12 16:45
产品发布与接入 - 字节跳动于2月12日发布最新视频生成模型Seedance2.0,并宣布其AI产品豆包和即梦接入该模型 [1] - 用户可通过豆包APP、电脑端、网页版以及即梦APP、即梦网页版体验Seedance2.0 [1] - 在豆包APP和即梦APP中,用户可通过录音录像完成真人校验,生成本人形象的数字人分身并用于生成AI视频 [1] - 豆包电脑端、网页版及即梦网页版目前暂不支持上传真人人脸素材 [1] 技术能力与特性 - Seedance 2.0支持图像、视频、音频、文本四种模态输入,使表达方式更丰富,生成更可控 [1] - 用户可用图片定义画面风格,用视频指定角色动作和镜头变化,用音频表达节奏氛围,突破了文字提示词的局限 [1] - 模型采用极致的稀疏架构提升训练和推理效率,并基于统一的多模态视频生成架构,具备强大的泛化能力 [5] - 模型能生成音画同步的高质量音视频,并支持组合的多模态参考、视频编辑、视频延长等复杂功能 [5] - 在多模态参考生成、复杂音视频指令遵循、复杂运动稳定性、专业镜头语言、音视频表现力及视听一体化协同等多维度测评中,表现均处于业内领先水平 [5] - 其在运动稳定性、指令遵循及画面美感维度有显著提升,生成的复杂动作流畅细腻,并支持专业级组合运镜与叙事节奏控制 [5] 市场反响与评价 - 此前Seedance 2.0已进行小范围内测,凭借多模态参考、精准可控性等亮点在全球范围内引发关注 [2] - 海外创作者使用该模型制作的短片,与数月前海外模型效果对比,画面更真实丰富,埃隆·马斯克对此感慨“这发生的也太快了” [2] - 海外社交平台上,有国外用户为使用Seedance 2.0而研究如何申请中国手机号 [2] - 游戏科学CEO、《黑神话:悟空》制作人冯骥评价其为“当前地表最强的视频生成模型”,认为其在多模态信息理解与整合能力上实现了飞跃 [5]
豆包视频生成模型Seedance 2.0 上线
证券时报· 2026-02-12 16:10
豆包视频生成模型Seedance 2.0发布 - 豆包于2月12日宣布,其视频生成模型Seedance 2.0正式接入豆包App、电脑端和网页版 [1] - Seedance 2.0模型支持原声音画同步、多镜头长叙事、多模态可控生成 [1] - 目前,该模型暂不支持上传真人图片作为主体参考 [1]
豆包视频生成模型Seedance 2.0 上线
新华网财经· 2026-02-12 12:57
豆包视频生成模型升级 - 豆包于2月12日宣布其视频生成模型Seedance 2.0正式接入豆包App、电脑端和网页版 [1] - Seedance 2.0模型支持原声音画同步、多镜头长叙事以及多模态可控生成 [1] - 目前该模型暂不支持上传真人图片作为主体参考 [1] 小米汽车服务政策 - 小米公司创始人雷军宣布,春节期间小米汽车若因自身故障抛锚,公司将报销1500元高铁或机票费以及500元住宿费 [4]
豆包视频生成模型Seedance 2.0上线
第一财经· 2026-02-12 12:55
公司产品发布 - 豆包于2月12日正式宣布其视频生成模型Seedance 2.0接入豆包App、电脑端和网页版 [1] - Seedance 2.0模型支持原声音画同步、多镜头长叙事、多模态可控生成 [1] - 用户输入一段提示词和参考图,即可生成带有完整原生音轨的多镜头视频内容 [1] - 该模型能够自动解析叙事逻辑,确保生成的镜头序列在角色、光影、风格与氛围上保持高度统一 [1] 产品功能与限制 - 目前豆包Seedance 2.0暂不支持上传真人图片作为主体参考 [2]
字节跳动豆包视频生成模型Seedance 2.0 上线
新浪财经· 2026-02-12 12:39
产品发布与功能更新 - 字节跳动旗下豆包App于2月12日正式宣布,其视频生成模型Seedance 2.0已接入豆包App、电脑端和网页版 [1][5] - 用户可通过App对话框选择新增的“Seedance 2.0”入口,输入提示词即可生成5秒或10秒视频 [1][5] - 用户可选择“分身视频”功能,经过真人验证后创建自己的视频分身以体验更多创意玩法 [1][5] 模型技术特性 - Seedance 2.0模型支持原声音画同步、多镜头长叙事以及多模态可控生成 [1][5] - 输入一段提示词和参考图,模型能生成带有完整原生音轨的多镜头视频内容 [1][5] - 该模型可自动解析叙事逻辑,确保生成的镜头序列在角色、光影、风格与氛围上保持高度统一 [1][5] 当前功能限制 - 目前豆包Seedance 2.0暂不支持上传真人图片作为主体参考 [4][8]
万兴科技:旗下万兴剧厂率先接入Kling 3.0
新浪财经· 2026-02-12 11:43
公司动态 - 万兴科技旗下产品万兴剧厂于2月11日率先接入Kling3.0视频生成模型 [1] - 万兴剧厂成为首批接入Seedance2.0长视频模型的应用产品 [1] 技术合作与布局 - 公司积极与前沿AI视频生成模型进行技术整合,接入了Kling3.0和Seedance2.0两款模型 [1] - 此次接入行动体现了公司在AI视频生成应用领域的快速布局和行业领先地位 [1]