Workflow
可灵3.0视频O3 OMNI
icon
搜索文档
可灵3.0加入AI拜年战场!人在工位搓好莱坞大片,分镜逻辑封神
量子位· 2026-02-07 18:31
文章核心观点 - 可灵(公司)在春节前推出了视频生成模型的重大升级,包括“可灵3.0多模态全家桶”和“O3 OMNI”模型,重点提升了智能分镜、主体一致性、文字一致性及多语言/方言支持等能力,旨在降低视频创作门槛,让用户能便捷地生成高质量、多镜头的AIGC视频 [1][2][40] 可灵视频3.0功能实测与总结 - **智能分镜功能**:模型新增“智能分镜”板块,用户可将包含多镜头、多动作、多角色的复杂提示词直接输入,AI能自动拆分镜头并生成对应视频,在多镜头结构还原上表现可靠 [14][16][17][20] - **智能分镜效果**:实测中,对于包含一个场景、四个镜头、两段角色对话的复杂提示词,AI在镜头和台词上实现了1:1还原,角色表情、眼神与对白匹配度高,音频语气情绪处理得当 [17][18] - **智能分镜现存问题**:偶尔会出现背景音乐未生成、台词在角色间分配错乱等小bug,但多镜头主体结构基本无大问题 [19][20] - **主体一致性功能**:视频3.0引入了“主体参考”功能,允许用户上传多张人物参考图以绑定角色形象,旨在解决AI视频中角色换动作后形象不一致的常见问题 [21][22] - **主体一致性效果**:实测生成包含人物多视角、多动作的视频时,部分镜头与参考形象近乎1:1还原,但个别镜头仍会出现肤色变深、发型改变等问题,整体表现可评80分 [25][26][27] - **文字一致性功能**:模型强调“字形保留高保真”,在镜头持续运动和切换过程中,能保持广告瓶身logo等文字清晰、不变形,达到了接近商用的水平 [28][29][30] - **多语言与方言功能**:模型官方宣称支持中、英、日、韩、西多语种及四川话、粤语等方言生成 [32] - **方言功能实测效果**:在生成奥特曼与马斯克说天津话/北京话的视频时,人物未说出正确方言,普通话标准;但在生成兵马俑说四川话的视频时,四川话表现被评价为“蛮厉害的” [33] O3 OMNI模型功能实测与总结 - **模型核心升级**:O3 OMNI模型在主体相似度、对复杂提示词理解上更进一层,支持通过3-8秒视频提取角色外观和声音,并绑定固定声线,视频时长升级至15秒,支持原生自定义分镜 [34] - **复杂提示词理解实测**:模型能成功处理包含主体一致性、连续加减速运动理解及多区域镜头跟随的复杂提示词,在10秒内让角色完成指定动作并穿越多个区域 [35] - **自定义分镜功能**:用户可上传参考图并自行编写分镜脚本,由模型生成视频 [35] - **自定义分镜实测问题**:实测生成效果不理想,出现首帧背景错误、角色嘴形未对齐、角色与背景融合度低等问题,且操作流程相对“智能分镜”更为繁琐 [37][38] - **功能选择建议**:对于提示词不精通的用户,更推荐使用“智能分镜”功能;自定义分镜更适合熟悉提示词和分镜脚本的用户 [38][39] 模型整体评价与定位 - **版本对比**:可灵视频3.0相比之前的O1模型,在好用度和趣味性上均有明显提升 [40] - **实用性评价**:尽管存在一些bug,但被认为是当前多模态模型的通病,模型能力已足够满足日常工作和娱乐需求 [41] - **发布与体验**:黑金会员可在Web端优先体验,预计全面开放很快就会到来 [42]