Multimodal Visual Language (MVL)
搜索文档
5天连更5次,可灵AI年末“狂飙式”升级
量子位· 2025-12-10 12:26
12月伊始,可灵AI接连放出大招。 全球首个统一的多模态视频及图片创作工具 "可灵O1" 、具备"音画同出"能力的 可灵2.6模型 、 可灵数字人2.0 功能…… 5天内5次"上新" ,直接让生成式AI领域的竞争"卷"出新高度。 可灵O1,从图片到视频,带来更强的"可控性" 可灵2.0发布的时候,就创新性地提出过一个全新交互理念—— Multimodal Visual Language (MVL) ,让用户能够结合图像参考、视频 片段等多模态信息,将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意,直接高效地传达给AI。 基于MVL理念,在最新的一次迭代中,可灵O1将所有生成和编辑任务融合于一个全能引擎之中,为用户搭建全新的多模态创作流,实现从灵 感到成品的一站式闭环。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 就像a16z投资合伙人Justine Moore在产品发布后第一时间点评的那样: 我们终于迎来了视频界的Nano Banana。 以可灵视频O1模型为例,它打破了传统单一视频生成任务的模型边界,将 参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改 变换、风格 ...