Workflow
多模态辅助文本检索增强生成(RAG)
icon
搜索文档
轻量高效,即插即用:Video-RAG为长视频理解带来新范式
机器之心· 2025-10-20 12:50
项目主页:https://video-rag.github.io/ 挑战:现有方法为何难以胜任? 当前主流方案主要分为两类: 更重要的是,两种方法在长时间跨度下的视觉 - 语义对齐上表现有限,往往牺牲效率换取精度,难以兼顾实用性与可扩展性。 论文链接:https://arxiv.org/abs/2411.13093 开源代码:https://github.com/Leon1207/Video-RAG-master 尽管视觉语言模型(LVLMs)在图像与短视频理解中已取得显著进展,但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对 齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题,厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 —— Video-RAG。该研究已被机器学习顶级会议 NeurIPS 2025 接收,为长视频理解任务提供了全新的解决思路。 扩展上下文法 (如 LongVA):依赖大规模长视频 - 文本配对数据进行微调,训练成本高且数据稀缺; 智能体驱动法 (如 VideoAgent):通过任务分解与外部代理决策增强推理,但频繁调用 ...