Workflow
TimeLens
icon
搜索文档
重新定义视频大模型时序定位!南大腾讯联合提出TimeLens,数据+算法全方位升级
机器之心· 2026-01-02 09:55
文章核心观点 - 多模态大模型在视频时序定位能力上存在严重缺陷,制约了精细化视频理解的发展 [2] - 南京大学、腾讯ARC Lab和上海AI Lab的联合研究团队提出了TimeLens,通过系统性解决数据质量和算法设计问题,显著提升了模型性能 [2] - 仅8B参数的TimeLens模型在多项指标上超越了GPT-5和Gemini-2.5-Flash等闭源大模型,成为开源模型的新SOTA [2][27] 数据质量与评测基准 - 研究发现,Charades-STA、ActivityNet Captions和QVHighlights等主流视频时序定位评测基准存在大量标注错误,包括文本描述模糊、事件未出现、时间边界错误和漏标等问题 [7] - 团队构建了经过严格交叉验证的高质量评测基准TimeLens-Bench,纠正了原有基准严重高估开源模型能力、掩盖闭源模型真实水平的问题 [11] - 团队通过自动化流水线清洗和重标训练数据,发布了高质量大型训练数据集TimeLens-100K,数据质量提升带来了显著的模型性能增长 [13] - 实验数据显示,使用TimeLens-100K训练后,在Charades-TimeLens数据集上R1@0.3指标从52.6提升至70.0,在ActivityNet-TimeLens上R1@0.5从35.6提升至48.3,在QVHighlights-TimeLens上R1@0.5从61.3提升至73.0 [14] 算法设计与最佳实践 - 在时间戳编码方面,实验表明最优策略是简单的交错文本编码,即在每一帧的视觉Token前插入文本形式的时间戳token,该方法实现简洁且效果最优 [17] - 在训练范式上,单阶段的Thinking-free RLVR范式在计算效率和性能上均优于其他范式,它直接输出定位结果并根据IoU给予奖励,无需生成中间思考过程 [19] - 训练技巧方面,针对RL训练应采用早停策略,奖励指标进入平台期后继续训练会导致性能下降;同时,基于难度的数据采样对提升模型性能至关重要 [23] - 消融实验表明,Thinking-free RLVR范式在Charades-TimeLens数据集上R1@0.5达到53.9,优于SFT范式的54.9,且训练时间仅为1.0倍基准 [22] 模型性能与行业影响 - TimeLens-8B模型性能卓越,在Charades-TimeLens基准上R1@0.5达到63.0,超过GPT-5的42.0和Gemini-2.5-Flash的56.1 [28] - 在ActivityNet-TimeLens基准上,TimeLens-8B的R1@0.5为58.4,超过GPT-5的44.9和Gemini-2.5-Flash的57.5 [28] - 在QVHighlights-TimeLens基准上,TimeLens-8B的R1@0.5为71.6,超过GPT-5的60.4和Gemini-2.5-Flash的69.4 [28] - 该成果证明,通过系统性提升数据质量和采用有效算法设计,开源小尺寸模型完全具备挑战甚至超越闭源大模型的能力 [27][28] - TimeLens在数据和算法双维度的系统性探索为后续研究提供了方法论与设计蓝图,其代码、模型、训练数据和评测基准均已开源 [29][30]