Workflow
美学指导数据集AesGuide
icon
搜索文档
不会拍照有招了!北大彭宇新团队开源首个美学指导大模型Venus,帮你拍好照|CVPR 2026
量子位· 2026-03-15 12:38
研究背景与问题定义 - 智能手机普及使拍照成为日常,但非专业用户因缺乏摄影经验与审美训练,难以在构图、取景等关键环节做出准确判断,导致照片在质感与表现力上与专业作品存在巨大差距[2] - 专业摄影师具备“识别美学问题并给出专业指导”的能力,而现有大模型在美学指导任务上存在明显不足,即使面对存在明显缺陷的照片,也倾向于给出赞美式正向评价,无法提供具体、可操作的调整建议[1][8] - 美学指导能力的缺失也传导至美学裁剪任务,现有多模态大模型难以定位视觉重心和区分干扰区域,导致裁剪结果偏离理想构图,无法提升照片美感[8][12] 解决方案与技术创新 - 北京大学团队定义了“美学指导”这一新任务,并构建了首个美学指导数据集AesGuide,该数据集包含10,748张真实照片,每张均配有专业美学评价和具体可操作的拍摄指导,形成“问题-原因-调整”的完整闭环[1][13] - 团队提出了美学指导大模型Venus,其构建包含两个主要步骤:1)通过渐进式审美问答赋予大模型美学指导能力;2)通过思维链裁剪推理激活模型的美学裁剪潜能[12][14][15] - 在美学指导能力构建阶段,团队在AesGuide数据集上进行微调,参考人类审美推理过程构建“整体印象-细致分析-可操作建议”的渐进式思维链,引导模型形成更接近人类的审美推理路径[16] - 在美学裁剪能力激活阶段,团队提出思维链裁剪推理,通过为每个裁剪框生成高质量的美学依据,并设计“生成-校验-再生成”的闭环流程,引导模型对裁剪行为进行显式推理,联合学习裁剪坐标及其背后的构图逻辑[19][20] 模型性能与实验结果 - 团队对5个不同架构的开源大模型进行微调,包括Qwen-VL-Chat、InternVL 2.5等,微调后的模型在AesGuide评测基准上各项指标均优于OpenAI的GPT-4o、谷歌的Gemini-2.0-Pro等闭源商业模型[17][22] - 具体来看,Venus-Q在AesGuide评测的Completeness、Preciseness、Relevance、Mean和Expert指标上分别达到1.12、1.23、1.57、1.31和1.36,相比基础模型Qwen-VL-Chat分别提升+0.39、+0.32、+0.98、+0.57和+0.66[23] - Venus-L-13B在AesGuide评测中综合排名第一,其在Completeness、Preciseness、Relevance、Mean和Expert指标上分别达到1.28、1.35、1.83、1.49和1.53,相比基础模型LLaVA-1.5-13B提升显著[23] - 在开源FLMS美学裁剪评测基准上,Venus-Q的IoU指标达到87.01%,相比专用美学裁剪模型SAC-Net的85.51%高出1.50个百分点,其Disp指标为0.0292,优于所有对比模型[27] - Venus-Q在美学裁剪任务上的R指标达到92.0%,显著高于闭源模型GPT-4o的43.2%和基础模型Qwen-VL-Chat的67.2%[27] 项目价值与行业意义 - 该研究将美学理解从“被动描述图像”推进到“可操作、可解释、可交互”的视觉优化,为创作更贴近人类审美的智能影像提供了新的思路和方法[12][26] - Venus模型融合了专用美学裁剪模型的高精度与多模态大模型的解释与交互能力,在保持高裁剪精度的同时,兼具良好的可解释性与交互能力,能够清晰说明裁剪背后的构图依据并支持基于自然语言反馈的交互式优化[24] - 该研究构建的数据集AesGuide与模型Venus已开源,相关论文已被CVPR 2026接收,为多模态大模型在专业美学领域的应用提供了新的基准和工具[1][28]