Multi-modal Visual Language(MVL)交互理念 - 财报，业绩电话会，研报，新闻

Multi-modal Visual Language(MVL)交互理念

搜索文档

智通财经网· 2026-02-05 09:07

文章核心观点 - 可灵AI正式全球上线3.0系列模型，标志着AI正式进入影视与创意内容的核心生产环节，公司迈入3.0时代 [1] - 3.0系列模型基于All-in-One理念构建，实现了从“基础生成”到“专业调度”的系统性跨越，完成了从“可用”到“可控”再到“专业调度”的三次关键跃迁 [2][17] - 模型将AI从一个简单的生成工具转变为理解创作意图、执行分镜的创作协作者，属于每个人的导演时代已经来临 [18] 产品与技术理念 - 全新All-in-One产品和技术理念构建了多模态输入与输出高度统一的一体化视频模型体系，将影像创作中的理解、生成与编辑整合为单一模型内的连续闭环流程 [2] - 创作者可以同时使用文字、图片、声音与视频作为输入，直接获得专业影像级输出，创作过程不再被拆分为多个工具与步骤 [3] - 模型深化了Multi-modal Visual Language交互理念，在生成质量和专业可控两大创作维度上取得关键突破 [17] 关键性能与功能突破 - 在一致性上取得突破性进展：通过整合视频主体上传、音色绑定及全球首创的“图生视频+主体参考”等技术，使人物形象、动作与声音在复杂镜头切换中保持稳定，文字和品牌标识可识别，视觉风格与角色特征在多语言场景下高度统一 [3][9] - 支持最长15秒的连续生成，并引入智能分镜与自定义镜头控制，让创作者能够直接组织镜头节奏与叙事结构，使镜头具备情绪递进与画面张力 [3][7] - 音画能力达到影视创作标准：视频模型支持原生音画同出，覆盖多语种与多种地方口音，人物口型、情绪与表演更自然，画面真实感显著提升 [6] - 图片模型支持2K/4K超高清图直出，并新增系列组图生成功能，确保组图间风格、光影与细节的高度统一 [16] 具体模型版本能力 - **可灵视频3.0**：全新的智能分镜系统能深度解读剧本意图，自动调度机位与景别，支持复杂的跨分镜转场一键生成，大幅降低后期修正成本 [7] - **可灵视频3.0 Omni**：进一步强化角色一致性与指令响应敏锐度，创作者上传参考素材即可实现对特定主体视觉特征与音色的原生提取与绑定，基于特征解耦技术，角色、道具等元素可在不同场景中自由复用，始终保持同一张脸、同一种声音 [11] - **可灵图片3.0系列**：专注于强化静态画面的“叙事感”，能深度解构提示词中的视听元素，精准把控构图与视角逻辑，高度适配影视分镜、场景设定等专业需求 [16] 行业影响与创作方式变革 - 模型将原本需要多人协作、多轮修正才能完成的导演级表达，压缩进更直接、更可控的创作流程中，让更多创作者能够以接近专业制作的方式完成影像表达 [6] - 在影视和广告领域，创作者可利用智能分镜等镜头调度能力快速验证创意；在游戏与虚拟制作中，稳定的角色一致性则能大幅加速数字资产的构建 [18] - 可灵AI由此完成了从单点生成工具，向内容创意者下一代“创作接口”的进化 [17] 公司运营数据 - 截至2025年12月，可灵AI已拥有超过6000万创作者，生成超过6亿个视频，服务超过3万家企业用户，年化收入运行率达到2.4亿美元 [18]

All-in-One产品和技术理念

Multi-modal Visual Language(MVL)交互理念

Multi-modal Visual Language(MVL)交互理念