文章核心观点 - 当前AI智能体在开放网络视频浏览与理解方面存在重大盲区,现有方法在精度与成本之间难以两全,研究团队提出的Video-Browser智能体及其金字塔感知架构,通过模拟人类“浏览-定位-精读”的认知过程,有效解决了这一矛盾,在保持高精度的同时大幅提升了效率[1][2][4][5][9][10][27] 现有视频处理方法的困境 - 视频是互联网上信息密度最高的模态,但现有AI智能体普遍存在视频处理盲区[2][4] - 现有方法面临两难困境:直接视觉推理方法效果好但计算成本极高,长视频会导致上下文爆炸;文本摘要方法成本低但会丢失关键的视觉细节[8] Video-Browser智能体架构 - 研究团队提出名为“金字塔感知”的架构,将视频处理过程视为一个计算量逐级增加、处理数据量逐级减少的金字塔[10][11] - 智能体包含三个核心组件:规划器、观察者和分析师[13] - 核心的观察者采用三层金字塔机制:第一层利用LLM分析视频元数据进行语义过滤,以零视觉成本快速剔除无关内容;第二层结合字幕和稀疏采样帧进行稀疏定位,找出可能包含答案的时间窗口;第三层在锁定的极短时间窗口内进行高帧率解码和精细视觉推理,将昂贵计算资源集中于最有价值的片段[14][15][16] 基准测试Video-BrowseComp - 为衡量真正的智能体能力,研究团队构建了Video-BrowseComp基准测试,其设计原则是“难以发现,易于验证”,要求智能体必须具备强制视频依赖能力[6][17] - 基准测试包含三个难度等级:第一级为有明确关键词的显式检索;第二级为需要理解描述的隐式检索;第三级为最难的、答案分散在多个视频中、需要拼凑线索的多源推理[18][19][20] 实验结果与性能 - 性能提升:基于GPT-5.2的Video-Browser在Video-BrowseComp上达到26.19%的准确率,相比直接视觉推理基线提升了37.5%[21] - 效率飞跃:得益于金字塔感知架构,智能体的Token消耗降低了58.3%[22] - 打破垄断:该方法在视频任务上的表现甚至优于OpenAI的o4-mini-deep-research模型[22] - 具体数据:在基准测试中,VideoBrowser (GPT-5.1) 的总体准确率为26.19%,在难度一、二、三级上的准确率分别为37.60%、11.29%和4.35%[23] 案例研究 - 以电影《白日梦想家》中主角口袋里的笔的颜色为例,展示了不同方法的差异:直接视觉推理因信息过载而失败;文本摘要因缺失细节而失败;而Video-Browser通过金字塔感知成功定位特写镜头并识别出笔为红色[24][25][26] 总结与资源 - Video-Browser是迈向智能体开放网络视频浏览的重要一步,通过模拟人类认知过程解决了精度与成本的矛盾[26][27] - 该工作的所有代码、数据和基准测试均已开源,旨在为社区提供新的研究支点[28][29]
Video版的Deep Research来了?先浏览再定位后精读:精度提升token消耗反降58.3%
量子位·2026-01-22 13:39