Multimodal Visual Language (MVL) - 财报，业绩电话会，研报，新闻

Multimodal Visual Language (MVL)

搜索文档

量子位· 2025-12-10 12:26

公司近期产品发布概览 - 12月初，公司在5天内密集发布了5次产品更新，包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型以及可灵数字人2.0等功能 [1][2] - 这一系列更新显著提升了生成式AI领域的竞争激烈程度 [2] 可灵O1模型的核心创新 - 可灵O1基于创新的多模态视觉语言交互理念，将所有生成和编辑任务融合于一个全能引擎，为用户提供从灵感到成品的一站式闭环创作流程 [3] - 视频O1模型打破了传统单一视频生成任务的边界，将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务融合于同一引擎，解决了主体一致性和视频画面可控性等难题 [6] - 图像O1模型实现了从基础图像生成到高阶细节编辑的全链路无缝衔接，用户可通过纯文本生成图像，也可上传最多10张参考图进行融合再创作 [7] - 有行业人士将可灵O1评价为“视频界的Nano Banana” [4] 可灵2.6模型的“音画同出”能力 - 可灵2.6模型上线了里程碑式的“音画同出”能力，改变了传统AI视频生成“先无声画面、后人工配音”的工作流程 [10] - 该模型能在单次生成中，输出包含自然语言、动作音效以及环境氛围音的完整视频，极大提升了创作效率 [11] - 目前支持生成最长10秒的视频，语音部分支持中文和英文，更多语言及固定声线功能正在研发中 [12] - 该模型在音画协同、音频质量和语义理解上表现亮眼，能够支持说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成 [12][27] 技术性能与市场应用 - 根据公司内部测评，在“图片参考”任务上，可灵AI对Google Veo 3.1的整体效果胜负比为247%；在“指令变换”任务上，与Runway Aleph对比的整体效果胜负比达到230% [18] - 公司目前覆盖的企业用户数超过2万家，涵盖影视制作、广告、创意设计、自媒体、游戏、电商等诸多领域 [26] - 数字人2.0功能允许用户上传角色图，添加配音并描述角色表现，即可生成表现力生动的自定义数字人视频，视频内容最长可达5分钟 [27] 行业影响与发展愿景 - 自2024年6月正式推出以来，公司的每一次迭代都引发了业界的广泛关注和讨论，从早期案例到获得特斯拉创始人马斯克点赞，公司已成为视觉生成技术走向成熟过程中的关键角色 [20] - 公司高级管理层表示，其初心是让每个人都能用AI讲出好的故事，并希望这一天更快到来 [28] - 通过年末的系列更新，公司正朝着这一愿景加速迈进 [29]

生成式AI

Multimodal Visual Language (MVL)

Artificial Intelligence

Multimodal Visual Language (MVL)

Artificial Intelligence

可灵AI

可灵O1

可灵2.6模型