Deep Video Discovery (DVD) - 财报，业绩电话会，研报，新闻 - Reportify

Deep Video Discovery (DVD)

搜索文档

微软推出深度视频探索智能体，登顶多个长视频理解基准

机器之心· 2025-06-30 11:18

核心观点 - 大型语言模型(LLMs)和视觉-语言模型(VLMs)在处理数小时长视频时仍存在局限性[1] - 提出新型智能体Deep Video Discovery(DVD)，通过分段处理视频并利用LLM推理能力实现自主规划，在LVBench上达到74.2%准确率，超越现有技术[3] - DVD采用多粒度视频数据库和搜索工具集，通过LLM协调实现自主搜索和回答[7][9] 技术架构多粒度视频数据库构建 - 将超长视频分割为5秒片段，提取全局/片段/帧三级信息，包括摘要、字幕、嵌入向量等[10] 智能体搜索工具集 - 全局浏览工具：获取高层上下文和视频全局摘要[11] - 片段搜索工具：通过语义检索返回相关片段及其时间范围[12] - 帧检查工具：从像素级信息提取细节并提供视觉问答[13] 性能表现 - 在LVBench上：DVD(74.2%)显著超越MR Video(60.8%)和VCA(41.3%)[16] - 辅助转录后准确率提升至76.0%[17] - 各维度表现：事件推理(73.4%)、知识推理(80.4%)、时序理解(72.3%)等[16] 比较分析 - 商业VLM对比：OpenAI o3(57.1%)优于GPT-4o(48.9%)和Gemini-2.0(48.6%)[16] - 开源VLM对比：Qwen2.5-VL-72B(47.7%)低于DVD[16] - 行为分析显示GPT-4o存在过早结束推理的问题[18]

大型语言模型（LLMs）

大型视觉 - 语言模型（VLMs）

Deep Video Discovery (DVD)

大型语言模型（LLMs）

大型视觉 - 语言模型（VLMs）

Deep Video Discovery (DVD)