全模态未来预测
搜索文档
音频-视觉全模态的未来预测,FutureOmni给出了首份答卷
机器之心· 2026-01-24 09:53
FutureOmni基准发布与评测范式革命 - 复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准FutureOmni,旨在评估模型从音频-视觉线索中预测未来事件的能力,实现跨模态因果和时间推理[2] - 该基准标志着评测范式从“回顾性理解”(视频中发生了什么)转向“前瞻性预测”(接下来会发生什么),要求模型融合视觉观察与听觉线索来预测未来[3][7] - 过去的多模态大语言模型(MLLMs)主要擅长事后分析,而FutureOmni旨在推动模型成为能“未卜先知”的智能伙伴,理解音频中的语义、环境声音及视觉观察之间的因果关系[8][9] FutureOmni数据集核心特征 - 数据集包含919个视频和1,034个多选题问答对,覆盖教育、紧急情况、监控、日常生活、纪录片、电影、游戏、卡通等八大领域[12][18] - 数据确保100%原创视频率,避免污染,并包含语音、声音、音乐三种音频类型[18] - 数据构建采用三阶段流程:视频收集与筛选、因果对构建(使用LLM辅助识别因果关系)、问题生成与人工及大模型审核,以确保高质量[19] 当前模型性能评估结果 - 在13个全模态模型和7个纯视频模型上的评估显示,当前系统在预测未来事件方面存在显著困难,最佳准确率仅为64.8%(由Gemini 3 Flash取得)[2][20] - 开源最强模型Qwen3-Omni(30B)准确率为53.05%,视觉大模型GPT-4o准确率为49.70%,表明现有模型距离人类水平仍有不小差距[21] - 细粒度分析显示,语音场景最具挑战性,最佳模型Gemini 3 Flash在该场景准确率仅60.52%;音乐场景相对容易,同一模型达到68.31%;声音场景为中等难度,准确率67.13%[24] 关键研究发现与模态重要性 - 模态消融研究表明,音频+视频的组合显著优于单独使用视频,缺失音频会导致性能大幅下降,例如Qwen3-Omni模型在缺少音频时性能下降1.55至2.71个百分点[27][28] - 跨模态融合能力是成功预测未来的关键,证明了FutureOmni设计(要求同时理解音频和视觉信息之间的因果关系)的合理性[28][33] OFF训练策略及其效果 - 研究团队提出全模态未来预测(OFF)策略,并策划了一个7K样本的指令微调数据集,核心思想是通过专门的未来预测训练,让模型学习音频-视觉间的因果关系以预测未来事件[29][30][31] - 使用OFF策略训练后,模型在FutureOmni基准上的未来预测能力得到提升,例如video-SALMONN 2模型平均准确率从46.03%提升至49.90%(+3.87个百分点)[34][35] - OFF策略不仅提升了未来预测能力,还增强了模型的通用感知能力,在Audio-Visual Bench(如WorldSense、DailyOmni)和Video-only Bench(如Video-MME)等多个流行基准上均观察到性能提升[36][37] 未来展望与行业影响 - 该研究期待更多模型参与FutureOmni评估,共同推动多模态场景下未来预测能力的发展[43] - 基于研究发现,行业需要开发更强大的未来预测方法,特别是针对语音场景和跨模态因果推理的改进[43] - 未来预测能力有广阔的应用拓展前景,可应用于智能助手、自动驾驶、机器人等实际场景,让AI真正具备“未卜先知”的能力[43]