多模态视频大模型
搜索文档
实测可灵O1,AI视频界的Banana也来了。
数字生命卡兹克· 2025-12-02 09:45
产品发布与定位 - 可灵推出全新多模态视频大模型可灵 O1,首次在AI视频领域将参考生视频、文生视频、首尾帧生视频、视频内容修改、风格重绘、镜头延展等多种能力融合进大一统模型[2][3] - 模型名称中的O代表Omni,意为"所有、一切",表明这是一个多模态大一统的基座模型[4][5] - 该产品被描述为AI视频领域的Nona Banana,目前已正式上线并向所有用户开放[3] 核心功能特点 - 支持视频内容增删功能,可任意增加或删除视频中的物体,如给企鹅添加西装和墨镜、为歌剧女郎添加面罩、从画面中移除人物等[10][11][15][16][17][22][27] - 具备视频特定内容修改能力,可单独改变衣服颜色、季节场景、物体类型等,如将夏天变为冬天、篮球变为足球[30][31][32][34] - 提供视频绿幕抠像功能,可自动将视频主体与背景分离,生成绿幕素材用于后期合成[36][37][41][42][44] - 支持视频动作迁移,能用现有视频驱动其他角色的动作,实现角色替换和表演迁移[48][49][51][54][55] - 拥有视频风格转换能力,可在不改变内容的前提下整体改变视觉风格,如转为手绘动画或像素风格[59][60][61] 技术参数与性能 - 视频生成时长支持3-10秒自由设定[19] - 通过多模态模型大幅降低传统视频修改的人力成本,将需要后期师一天工作的修改流程简化为语音指令操作[12][13][14] - 虽然在某些电影级场景中精细控制尚有不足,但对于短视频等应用场景已足够实用[35] 行业意义与发展前景 - 可灵 O1 被视为AI视频领域第一个真正意义上的大一统模型,开启了用语音修改视频的新时代[85][95][96] - 尽管在初期存在多主体识别和画面质量等方面的局限性,但被认为是通向更强大多模态模型的必经之路[86][87] - 该产品可能代表AI视频技术发展的一个重要节点,类似于从Nano Banana一代向Pro版本的进化过程[88][90]