可灵3.0加入AI拜年战场！人在工位搓好莱坞大片，分镜逻辑封神

文章核心观点 - 可灵（公司）在春节前推出了视频生成模型的重大升级，包括“可灵3.0多模态全家桶”和“O3 OMNI”模型，重点提升了智能分镜、主体一致性、文字一致性及多语言/方言支持等能力，旨在降低视频创作门槛，让用户能便捷地生成高质量、多镜头的AIGC视频 [1][2][40] 可灵视频3.0功能实测与总结 - 智能分镜功能：模型新增“智能分镜”板块，用户可将包含多镜头、多动作、多角色的复杂提示词直接输入，AI能自动拆分镜头并生成对应视频，在多镜头结构还原上表现可靠 [14][16][17][20] - 智能分镜效果：实测中，对于包含一个场景、四个镜头、两段角色对话的复杂提示词，AI在镜头和台词上实现了1:1还原，角色表情、眼神与对白匹配度高，音频语气情绪处理得当 [17][18] - 智能分镜现存问题：偶尔会出现背景音乐未生成、台词在角色间分配错乱等小bug，但多镜头主体结构基本无大问题 [19][20] - 主体一致性功能：视频3.0引入了“主体参考”功能，允许用户上传多张人物参考图以绑定角色形象，旨在解决AI视频中角色换动作后形象不一致的常见问题 [21][22] - 主体一致性效果：实测生成包含人物多视角、多动作的视频时，部分镜头与参考形象近乎1:1还原，但个别镜头仍会出现肤色变深、发型改变等问题，整体表现可评80分 [25][26][27] - 文字一致性功能：模型强调“字形保留高保真”，在镜头持续运动和切换过程中，能保持广告瓶身logo等文字清晰、不变形，达到了接近商用的水平 [28][29][30] - 多语言与方言功能：模型官方宣称支持中、英、日、韩、西多语种及四川话、粤语等方言生成 [32] - 方言功能实测效果：在生成奥特曼与马斯克说天津话/北京话的视频时，人物未说出正确方言，普通话标准；但在生成兵马俑说四川话的视频时，四川话表现被评价为“蛮厉害的” [33] O3 OMNI模型功能实测与总结 - 模型核心升级：O3 OMNI模型在主体相似度、对复杂提示词理解上更进一层，支持通过3-8秒视频提取角色外观和声音，并绑定固定声线，视频时长升级至15秒，支持原生自定义分镜 [34] - 复杂提示词理解实测：模型能成功处理包含主体一致性、连续加减速运动理解及多区域镜头跟随的复杂提示词，在10秒内让角色完成指定动作并穿越多个区域 [35] - 自定义分镜功能：用户可上传参考图并自行编写分镜脚本，由模型生成视频 [35] - 自定义分镜实测问题：实测生成效果不理想，出现首帧背景错误、角色嘴形未对齐、角色与背景融合度低等问题，且操作流程相对“智能分镜”更为繁琐 [37][38] - 功能选择建议：对于提示词不精通的用户，更推荐使用“智能分镜”功能；自定义分镜更适合熟悉提示词和分镜脚本的用户 [38][39] 模型整体评价与定位 - 版本对比：可灵视频3.0相比之前的O1模型，在好用度和趣味性上均有明显提升 [40] - 实用性评价：尽管存在一些bug，但被认为是当前多模态模型的通病，模型能力已足够满足日常工作和娱乐需求 [41] - 发布与体验：黑金会员可在Web端优先体验，预计全面开放很快就会到来 [42]