核心观点 - 小红书研究团队提出了一种名为Video-Thinker的全新“Thinking with Videos”范式,旨在通过强化学习激发多模态大语言模型在视频推理中的内生智能,摆脱对外部工具的依赖 [2] - 该方法通过将“时序定位”与“视觉描述”能力内化在模型的思维链中,使模型能自主寻找关键帧并提取视觉线索,从而实现对视频内容的自主探索与理解 [2] - 实验表明,Video-Thinker-7B模型凭借极高的数据效率,在多个高难度视频推理榜单上显著超越现有基线,确立了7B量级模型的SOTA性能 [3] 方法:内生能力导向的“数据 - 训练”全链路设计 - 核心愿景与机制:Video-Thinker旨在实现“能力内化”,通过构建高质量结构化数据(Video-Thinker-10K)和“监督微调+组相对策略优化”的两阶段训练范式,让模型学会在动态视频流中自主导航与思考 [10] - 高质量数据集构建:团队整合六大主流数据集,通过“后见之明”自动化流水线,生产出兼具精准时序定位与详尽视觉描述的结构化推理数据,样本量达10K [13] - 监督微调阶段:此阶段强制模型习得Video-Thinker独有的结构化思考范式,即“定位-感知-推理”的标准动作序列,有效抑制模型幻觉倾向 [16][18] - 强化学习阶段:采用组相对策略优化激发模型内生潜能,通过并行采样多组推理轨迹并利用相对优势指导更新,使模型将机械的格式遵循升华为灵活的视频思维能力 [19] - 涌现的“顿悟时刻”:经过强化学习训练,模型开始自发展现元认知特征,能对其初步生成的定位或描述进行自我质疑与修正,形成动态的内部反馈机制 [22] 评测:全面验证,7B模型刷新视频推理SOTA - 总体性能优势:Video-Thinker-7B在域内和域外共11个评测数据集上全面领先,确立了7B参数量级模型的新SOTA [25][28] - 域外泛化能力突出:在侦探推理类榜单Video-Holmes上准确率达43.22%,超越次优基线4.68个百分点;在综合性基准VRBench上准确率达80.69%,大幅领先最佳基线11.44个百分点 [29] - 训练阶段协同效应:消融实验表明,仅监督微调无法实现强泛化,而随后的强化学习阶段是性能飞跃的关键,使模型在Video-Holmes上的性能提升了11.70%,在VRBench上提升了18.29% [29] - 推理帧数鲁棒性:在16帧、32帧和64帧不同输入条件下,Video-Thinker-7B均持续优于对比基线,表明其具备更高效的时序信息整合机制 [30][31] - 内生能力定量验证:在时序定位任务中,Video-Thinker-7B的平均交并比达48.22%,相比基础模型提升75.5%;在内容描述任务中,其整体描述质量相比基础模型提升31.2%,相比Video-R1提升61.0% [33][36] - 内生能力对比外部工具:实验证明,将能力内化的Video-Thinker-7B表现远超简单外挂工具方案及现有的工具调用方法,在Video-Holmes上取得43.22%的最高分,显著优于VideoMind-7B的38.98% [34][35][37] 行业影响与未来展望 - Video-Thinker打破了“视频推理必须依赖外部工具”的固有认知,为视频推理领域提供了新范式 [38] - 其成功证明了视频推理能力并非依赖“大参数+大数据”的堆砌,而在于对核心内生能力的精准培养 [39] - 该技术路径有望加速AI在安防监控、智能教育、工业运维等领域的落地应用,赋能行业智能化升级 [39]
让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
机器之心·2026-01-02 11:12