Workflow
音画同出
icon
搜索文档
所想即所见,所言即所闻,可灵AI打开全民创作新入口
北京商报· 2025-12-30 14:51
核心观点 - 可灵AI通过发布大一统多模态模型“可灵O1”和2.6版本的“音画同出”能力,实现了视频创作流程的革命性简化,将视频创作从专业技能转变为人人可及的日常表达 [1][3][9] 技术突破:大一统多模态模型“可灵O1” - 可灵O1是全球首个大一统多模态视频模型,基于MVL理念,打破了传统单一视频生成任务的模型边界 [3] - 该模型将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务融合于同一个全能引擎,实现一站式创作流程 [3] - 用户只需输入自然语言指令,模型即可完成像素级语义重构,例如“把这张白天的照片改成夜晚”、“给主角换一条红裙子” [3] - 模型具备“导演思维”,能记住角色的特征,确保在镜头切换时主体特征稳定,并支持自由组合多个不同主体或与参考图混搭 [3] - 同步升级的可灵图像O1模型也主打特征高度一致,支持纯文本生成或上传最多10张参考图进行融合再创作,确保主体元素稳定和画面氛围统一 [4] - 该系列模型对系列短剧、广告电商、品牌IP等用户是刚需,实现了从灵感构思到最终输出的“一站式闭环” [4] 技术突破:“音画同出”能力 - 可灵2.6模型的“音画同出”能力让角色不仅能动作精准,更能开口说话、发出环境音效,且声音与画面节奏严丝合缝 [5][6] - 该能力重构了传统“先生成无声画面,再人工配音”的割裂工作流,用户输入文本或图片加提示词,即可一键生成包含人声、音效、环境声的完整视频 [6] - 语音当前支持中英文,单次生成最长10秒 [6] - 突破体现在三大维度:音画协同,实现深度语义对齐;音频质量接近专业混音效果;语义理解能准确把握复杂剧情与口语表达 [6] - 模型具备音色控制能力,支持生成说话、对话、旁白、唱歌、Rap等多种声音类型,并可混合环境音效,让创作者能控制角色的语气、情绪和背景音乐 [6] 行业影响与创作范式转变 - 技术将视频创作从专业技能变为人人可及的日常表达 [1] - 图灵奖得主指出,AI本质是“模式识别”的强大工具,不会取代艺术家,但会改变他们工作的方式 [7] - 公司的愿景是“让每个人都能用AI讲出好故事”,其主语是人,旨在通过提升基础模型能力定义人类与AI交互的新方式 [8] - 公司赋予创作者更高自由度的控制权,如调节动作幅度、修改镜头节奏、删除帧、叠加多段生成结果,让声音和画面“同频” [8] - 在艺术节上展映的三支短片由艺术家与可灵超级创作者联动完成,是对未来创作范式的预演 [9] - 此次技术升级可能标志着“用一张图讲一个有声有色故事”时代的开始 [9]
字节 Seedance 1.5 Pro 藏师傅实测:可以说方言的音画同出视频模型
歸藏的AI工具箱· 2025-12-18 12:38
核心观点 - 字节跳动旗下火山引擎发布的Seedance 1.5 Pro视频生成模型,在音画同步生成、方言支持、语义理解、镜头控制及文生视频质量方面实现显著升级,大幅降低了视频制作复杂性,有望推动视频生成产品与视频Agent应用进入新的爆发期 [1][3][36][37] 模型核心功能升级 - **音画同步与方言支持**:模型支持音画同步生成,并能够生成包括陕西话、四川话、粤语在内的多种主流方言,在口型、语调对齐方面效果出色 [2][3][4][5] - **语义理解与情绪表演**:模型对叙事语境的解析能力增强,声音与画面在情绪控制和专业表演能力上提升巨大,能够表现恐惧、崩溃、释放等复杂情绪 [3][19][20][21][22][23][24][25] - **精准镜头控制**:模型具备自主机位调度能力,能够实现长镜头跟随、希区柯克变焦、推轨变焦等复杂运镜,在长达**12秒**的视频中保持连贯与稳定 [3][26][27][28][29][30][31][32] - **文生视频能力**:模型支持通过纯文本提示词生成最长**12秒**的视频(另有**5秒**和**10秒**选项),在色彩表现、物品材质和整体真实性上表现优异 [3][35][36] 技术细节与测试表现 - **方言生成效果**:在测试中,模型成功生成了包含“聊咋咧”、“美滴很”等特色词汇的陕西话视频,以及多角色、多对话的四川方言和粤语场景,音调准确且遵循提示词的时间顺序 [6][7][8][9][10][11] - **非人场景音画同步**:模型在生成宠物(如猫咪)视频时,能准确同步咀嚼音效(如“咔滋咔滋”)与画面,并让动物以符合其解剖结构的方式“说”出指定的小奶音人话,避免了恐怖谷效应 [14][15][16][17] - **复杂运镜实现**:模型成功完成了连续**12秒**的快速希区柯克变焦,背景透视压缩效果连贯,并与人物呼吸音效节奏同步;在长镜头测试中,能稳定跟随人物移动并保持场景与物体的物理一致性 [28][29][30][31][32] - **文生视频优势**:纯文生视频方式在色彩、材质表现上更佳,其与音频能力的原生融合在真实性和上下文一致性上优于图生视频,为视频Agent产品提供了更好的基础 [36][37] 行业影响与应用前景 - **填补本土化内容空白**:在涉及中国本土文化、方言细节的内容生成上,国产模型具有不可替代的优势,该模型对此的重视将拓展其在影视等领域的应用 [12][13] - **降低视频制作门槛**:模型在提示词理解、表演能力、音画同出及高质量文生视频方面的进步,大幅降低了视频制作的复杂性,并可能缩短视频Agent产品所需的上下文长度 [37] - **推动产品爆发**:模型能力的提升预计将推动视频生成产品和视频Agent应用迎来一个新的爆发期,为之前受限于模型能力的创意想法提供了实现工具 [37]