Workflow
Deep Video Discovery (DVD)
icon
搜索文档
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 11:18
核心观点 - 大型语言模型(LLMs)和视觉-语言模型(VLMs)在处理数小时长视频时仍存在局限性[1] - 提出新型智能体Deep Video Discovery(DVD),通过分段处理视频并利用LLM推理能力实现自主规划,在LVBench上达到74.2%准确率,超越现有技术[3] - DVD采用多粒度视频数据库和搜索工具集,通过LLM协调实现自主搜索和回答[7][9] 技术架构 多粒度视频数据库构建 - 将超长视频分割为5秒片段,提取全局/片段/帧三级信息,包括摘要、字幕、嵌入向量等[10] 智能体搜索工具集 - 全局浏览工具:获取高层上下文和视频全局摘要[11] - 片段搜索工具:通过语义检索返回相关片段及其时间范围[12] - 帧检查工具:从像素级信息提取细节并提供视觉问答[13] 性能表现 - 在LVBench上:DVD(74.2%)显著超越MR Video(60.8%)和VCA(41.3%)[16] - 辅助转录后准确率提升至76.0%[17] - 各维度表现:事件推理(73.4%)、知识推理(80.4%)、时序理解(72.3%)等[16] 比较分析 - 商业VLM对比:OpenAI o3(57.1%)优于GPT-4o(48.9%)和Gemini-2.0(48.6%)[16] - 开源VLM对比:Qwen2.5-VL-72B(47.7%)低于DVD[16] - 行为分析显示GPT-4o存在过早结束推理的问题[18]