渐进式视觉质量强化学习
搜索文档
AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
机器之心· 2025-11-20 23:13
文章核心观点 - 火山引擎多媒体实验室与北京大学合作的论文《VQ-Insight》被人工智能顶级会议AAAI 2026录用为口头汇报文章,该会议投稿23,680篇,最终录用4,167篇,录取率为17.6% [2] - VQ-Insight是一项针对AIGC视频画质理解的创新技术,通过渐进式视觉质量强化学习框架,解决了激发大模型时序感知能力及建立评估模型与生成模型反馈互动的挑战 [4][6] - 该方法在AIGC视频偏好比较、多维度打分和自然视频打分任务中均表现出卓越性能,并能直接应用于视频生成模型的优化,实现生成模型与评估模型的“共同进化” [10][12][15][17][19] 技术背景与挑战 - 视频生成模型技术加速演进,如何在后期训练阶段提升生成质量变得关键,可靠的质量评估与偏好选择是重要驱动力 [4] - 将图像画质理解方案Q-Insight扩展到AIGC视频评估面临新挑战:如何有效激发大模型的时序感知与多维度画质理解能力,以及如何建立评估模型与生成模型的反馈互动 [4] 技术方案:VQ-Insight - VQ-Insight采用渐进式视觉质量强化学习框架,包括图像打分预热、任务驱动的通用时序学习及与视频生成模型的联合微调三个阶段 [6] - 该方法引入时序建模奖励函数和长度控制奖励函数,鼓励模型探索视频帧间的相关性和连贯性,仅使用少量数据即可学会多项任务 [6] - 提出生成模型与质量评估模型“共同进化”的联合训练方式,通过闭环协同优化,使两者在迭代中不断变强,实现持续提升效果 [7] 实验结果:AIGC视频偏好比较 - 在GenAI数据集上,VQ-Insight的tau值为50.80,diff值为75.71,优于对比方法如UnifiedReward(tau: 49.67, diff: 74.42)和VOAScore(tau: 46.96, diff: 69.14) [11] - 在MonetBench数据集上,VQ-Insight的tau值为61.20,diff值为74.51,优于对比方法如VisionReward(tau: 59.40, diff: 72.44)和Qwen-SFT(tau: 59.20, diff: 72.07) [11] 实验结果:AIGC多维度打分 - 在空间质量维度,VQ-Insight的SRCC为0.823,KRCC为0.640,PLCC为0.844,显著优于Qwen-SFT(SRCC: 0.687, KRCC: 0.520, PLCC: 0.735)和UGVQ(SRCC: 0.764, KRCC: 0.571, PLCC: 0.793) [15] - 在时序质量维度,VQ-Insight的SRCC为0.911,KRCC为0.744,PLCC为0.927,显著优于FastVQA(SRCC: 0.849, KRCC: 0.672, PLCC: 0.878)和UGVQ(SRCC: 0.894, KRCC: 0.703, PLCC: 0.910) [15] - 在文本-视频对齐维度,VQ-Insight的SRCC为0.825,KRCC为0.652,PLCC为0.836,显著优于CLIPScore(SRCC: 0.446, KRCC: 0.301, PLCC: 0.453)和UnifiedReward(SRCC: 0.589, KRCC: 0.433, PLCC: 0.589) [15] 实验结果:自然视频打分 - 在LSVQ-Test数据集上,VQ-Insight的PLCC为0.876,SRCC为0.875,与领先方法如Q-Align(PLCC: 0.882, SRCC: 0.883)和Minimalist-VQA(PLCC: 0.872, SRCC: 0.880)表现相当 [16] - 在KonViD-1k数据集上,VQ-Insight的PLCC为0.884,SRCC为0.875,优于对比方法如Q-Align(PLCC: 0.876, SRCC: 0.865)和Minimalist-VQA(PLCC: 0.861, SRCC: 0.859) [16] 应用与影响 - VQ-Insight强大的AIGC视频偏好比较能力可直接应用于视频生成模型的直接偏好优化,有效缓解错误生成问题,并提升色彩鲜艳度和动态效果 [17] - 该技术已成为生成视频训练的可插拔奖励与偏好模块,将精准评估转化为优质生成,为下一代AIGC视频生成技术的发展奠定关键基础 [19]