文章核心观点 - 可灵(公司)在春节前推出了视频生成模型的重大升级,包括“可灵3.0多模态全家桶”和“O3 OMNI”模型,重点提升了智能分镜、主体一致性、文字一致性及多语言/方言支持等能力,旨在降低视频创作门槛,让用户能便捷地生成高质量、多镜头的AIGC视频 [1][2][40] 可灵视频3.0功能实测与总结 - 智能分镜功能:模型新增“智能分镜”板块,用户可将包含多镜头、多动作、多角色的复杂提示词直接输入,AI能自动拆分镜头并生成对应视频,在多镜头结构还原上表现可靠 [14][16][17][20] - 智能分镜效果:实测中,对于包含一个场景、四个镜头、两段角色对话的复杂提示词,AI在镜头和台词上实现了1:1还原,角色表情、眼神与对白匹配度高,音频语气情绪处理得当 [17][18] - 智能分镜现存问题:偶尔会出现背景音乐未生成、台词在角色间分配错乱等小bug,但多镜头主体结构基本无大问题 [19][20] - 主体一致性功能:视频3.0引入了“主体参考”功能,允许用户上传多张人物参考图以绑定角色形象,旨在解决AI视频中角色换动作后形象不一致的常见问题 [21][22] - 主体一致性效果:实测生成包含人物多视角、多动作的视频时,部分镜头与参考形象近乎1:1还原,但个别镜头仍会出现肤色变深、发型改变等问题,整体表现可评80分 [25][26][27] - 文字一致性功能:模型强调“字形保留高保真”,在镜头持续运动和切换过程中,能保持广告瓶身logo等文字清晰、不变形,达到了接近商用的水平 [28][29][30] - 多语言与方言功能:模型官方宣称支持中、英、日、韩、西多语种及四川话、粤语等方言生成 [32] - 方言功能实测效果:在生成奥特曼与马斯克说天津话/北京话的视频时,人物未说出正确方言,普通话标准;但在生成兵马俑说四川话的视频时,四川话表现被评价为“蛮厉害的” [33] O3 OMNI模型功能实测与总结 - 模型核心升级:O3 OMNI模型在主体相似度、对复杂提示词理解上更进一层,支持通过3-8秒视频提取角色外观和声音,并绑定固定声线,视频时长升级至15秒,支持原生自定义分镜 [34] - 复杂提示词理解实测:模型能成功处理包含主体一致性、连续加减速运动理解及多区域镜头跟随的复杂提示词,在10秒内让角色完成指定动作并穿越多个区域 [35] - 自定义分镜功能:用户可上传参考图并自行编写分镜脚本,由模型生成视频 [35] - 自定义分镜实测问题:实测生成效果不理想,出现首帧背景错误、角色嘴形未对齐、角色与背景融合度低等问题,且操作流程相对“智能分镜”更为繁琐 [37][38] - 功能选择建议:对于提示词不精通的用户,更推荐使用“智能分镜”功能;自定义分镜更适合熟悉提示词和分镜脚本的用户 [38][39] 模型整体评价与定位 - 版本对比:可灵视频3.0相比之前的O1模型,在好用度和趣味性上均有明显提升 [40] - 实用性评价:尽管存在一些bug,但被认为是当前多模态模型的通病,模型能力已足够满足日常工作和娱乐需求 [41] - 发布与体验:黑金会员可在Web端优先体验,预计全面开放很快就会到来 [42]
可灵3.0加入AI拜年战场!人在工位搓好莱坞大片,分镜逻辑封神
量子位·2026-02-07 18:31