Workflow
VANS模型
icon
搜索文档
AI问答,直接「拍」给你看!来自快手可灵&香港城市大学
量子位· 2025-11-22 11:07
技术突破 - 提出“视频作为答案”新范式,将AI回答从文字描述升级为动态视频生成[3][8] - 模型能够理解输入视频和问题,推理出符合逻辑的下一事件,并生成视觉连贯的视频[11][12][13] - 核心创新在于Joint-GRPO强化学习算法,协同优化视觉语言模型和视频扩散模型,解决语义与视觉错配问题[19][21][24] 模型架构 - 采用两阶段工作流程:感知与推理阶段生成描述下一事件的文本标题,条件化生成阶段结合文本和视觉特征生成答案视频[20] - 通过专业化分工与协同优化,实现理解与生成能力的同步提升,相比统一模型在关键指标上取得显著进步[47][48] 性能表现 - 在事件预测准确性指标ROUGE-L上,VANS相比最强统一模型取得近三倍性能提升[46] - 生成视频语义忠实度指标CLIP-T大幅领先,视频质量指标FVD达到最低分数78.32,显示更高视觉逼真度[47][48] - 定性分析显示模型在细粒度语义理解与可视化上具有优势,能精准呈现如“撒碎芝士”等具体动作[51][53] 应用场景 - 程序性教学领域可实现定制化教学视频,根据用户当前进度生成无缝衔接的指导内容[37][39][40] - 多未来预测功能支持基于不同假设生成多种合理未来视频,为创意写作和互动娱乐开辟可能性[41][43]