Workflow
视频生成技术
icon
搜索文档
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:17
视频生成技术评估框架 - 视频生成技术正在快速革新视觉内容创作方式,高质量视频生成模型的重要性日益凸显[1] - Video-Bench框架通过模拟人类认知过程,建立文本指令与视觉内容的智能评估体系[2] - 该框架能精准识别物体一致性(0.735相关性)、动作合理性等维度缺陷,显著优于现有评估方法[3] 技术架构创新 - 构建视频-条件对齐和视频质量双维度评估框架,覆盖对象类别/动作/颜色/场景一致性等要素[7][10] - 引入链式查询技术:通过多轮"描述-提问-验证"流程解决跨模态对齐难题[8][13] - 采用少样本评分技术:通过多视频对比将主观美学评判转化为量化标准[8][15] 性能优势 - 视频-条件对齐维度Spearman相关系数达0.733,较CompBench提升56.3%[18][19] - 视频质量维度平均相关性0.620,领先EvalCrafter[18] - 评估者间一致性(Krippendorff's α)达0.52,与人类自评水平相当[21] 技术组件效果 - 链式查询使视频-条件对齐评估提升9.3%[22] - 少样本评分将成像质量评估相关性从46.1%提升至62.4%[22] - 组合使用时评估稳定性(TARA@3)达67%,Krippendorff's α达0.867[23] 模型测评结果 - 商业模型Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - 当前模型在动作合理性(平均2.53/3)和动态模糊(3.11/5)等动态维度表现较弱[26] - GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)方面表现突出[27] 研究团队 - 团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等顶尖机构[4] - 核心成员包括多模态语言模型专家和LLM agent研究者[28] - 项目代码和论文已开源[29]
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:16
视频生成技术评估框架Video-Bench 核心观点 - 视频生成技术革新视觉内容创作方式,高质量视频生成模型重要性凸显[1] - Video-Bench通过模拟人类认知过程建立文本指令与视觉内容的智能评估体系,显著优于现有方法[2][3] - 框架由上海交通大学、斯坦福大学等机构联合开发,采用双维度评估和两项核心技术实现突破[4][7][8] 技术架构创新 - **双维度评估框架**:覆盖视频-条件对齐(对象/动作/颜色/场景一致性)和视频质量(成像/美学/时间/运动质量)[7][10] - **链式查询技术**:通过多轮"描述-提问-验证"流程解决跨模态对齐难题,提升评估相关性9.3%[8][13][22] - **少样本评分技术**:通过多视频对比量化美学评价,成像质量评估相关性从46.1%提升至62.4%[8][15][22] 性能优势 - 视频-条件对齐维度Spearman相关系数0.733,较CompBench显著领先[18] - 对象类别一致性达0.735相关性,较GRiT方法提升56.3%[19] - 评估者间一致性(Krippendorff's α)达0.52,与人类自评水平相当[21] - 抗干扰能力强:添加高斯噪声后评估误差<5%,评分一致性达87%[24] 主流模型测评结果 - **商业模型优势**:Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - **专项能力差异**:CogVideoX视频-文本一致性领先,Gen3成像质量最优[25] - **共性短板**:动作合理性平均仅2.53/3,动态模糊评分3.11/5[26] - **基础模型对比**:GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)表现突出,但版本更新可能引发性能波动[27] 技术实现细节 - 实验验证35,196个视频样本,组合技术使评估稳定性达67%(TARA@3)[22][23] - 框架对不同复杂度提示的评估稳定性优于基线方法32%[24] - 代码与论文已开源,便于行业应用验证[29]
豆包发布视频生成模型Seedance1.0 pro
快讯· 2025-06-11 11:38
产品发布 - 公司发布视频生成模型Seedance1.0pro [1] - 视频生成模型定价为0.015元/千tokens [1] - 制作5秒1080p视频成本约3.67元/个 [1] 技术进展 - 公司实时语音模型实现全量上线 [1] 行业动态 - 视频生成模型定价显著低于行业平均水平(需结合行业背景补充具体对比数据)[1]