大模型学会拖进度条看视频了!阿里新研究让视频推理告别脑补,实现证据链思考 | ICLR 2026
量子位·2026-01-29 16:27

文章核心观点 - 阿里巴巴未来生活实验室的研究团队指出,在视频推理任务中,简单地套用文本思维链(如“Let's think step by step”)效果不佳,甚至可能不如直接回答,其根本原因在于视频推理需要模型在视觉内容与文本逻辑之间反复穿梭验证,而纯文本思维链易导致模型产生“脑补”和幻觉 [1] - 研究团队提出,模型“思考”的效果取决于是否教会它“如何思考”,并为此推出了一套完整解决方案,包括高质量视频推理数据集ReWatch和能够像人类一样“回看”视频进行思考的SOTA模型ReWatch-R1 [1] 高质量视频推理数据集ReWatch - 为解决现有训练数据的三大痛点(视频描述粗糙、问答过于简单、思维链严重依赖文本常识而非视频内容),研究团队构建了ReWatch数据集,包含1万视频、17万问答对和13.5万思维链 [2] - 数据集具备三大核心优势:1) 高保真时序字幕(ReWatch-Caption),采用分层字幕生成方法为长视频生成带精确时间戳的详细事件描述;2) 高难度视频问答(ReWatch-QA),通过“摘要vs精读”对比生成策略和三层过滤机制,确保问题必须依赖视频细节解答;3) 视频接地的思维链(ReWatch-CoT),首创多智能体ReAct框架,模拟人类“回看、确认”行为,生成每一步都与视频内容紧密绑定的推理轨迹 [2] - 整个数据集的构建过程包含三个阶段:分层字幕生成、高难度问答对生成以及多智能体思维链合成,确保了数据的高质量和高难度 [4] 模型训练方法论:ReWatch-R1 - 研究团队采用SFT+RL的训练范式,并通过一个创新的奖励机制(带过程奖励的强化学习,GRPO with O&R Reward)来教会模型思考的精髓,该机制不再仅仅奖励“答对与否”,而是直接监督和奖励模型的中间推理过程,以有效抑制推理幻觉 [6] - 过程奖励(O&R Reward)的计算分为两部分:1) 观察奖励(Observation Reward),通过比对模型生成的观察结果与数据集中的高保真字幕,评估其真实性;2) 推理奖励(Reasoning Reward),评估模型推理中产生的“观察”结果能否作为唯一信息源推导出正确答案,以判断推理动作是否充分高效 [8] - 通过这种过程导向的奖励机制,模型学会了如何通过真实、有效的步骤进行思考,基于证据链进行推理 [8] 实验结果与关键洞察 - 实验结果表明,ReWatch-R1在五个主流视频推理基准上,平均性能显著超越了所有同量级的开源模型,取得了SOTA的成绩 [9] - 一个关键发现是:在监督微调(SFT)阶段,“思考模式”的性能始终无法超越“直接回答”模式,说明SFT只能教会模型思考的“形”;然而,经过RL阶段的训练后,“思考模式”的性能实现了惊人飞跃,最终大幅超越了“直接回答”模式,展现出最高的性能上限 [12] - 这证明了显式的、一步步的、有证据支撑的推理过程对于解决复杂视频任务至关重要,而强化学习是激发这种能力的关键 [12] 研究总结与贡献 - ReWatch-R1的工作为视频理解领域贡献了宝贵的思路和资源,通过创新的“智能体合成数据”方法解决了高质量视频推理数据稀缺的核心瓶颈,并通过“过程奖励”强化学习教会了模型如何基于视频证据进行“深度思考” [14] - 这项研究表明,让模型学会“如何思考”是通往更高阶视频智能的关键一步 [14]

大模型学会拖进度条看视频了!阿里新研究让视频推理告别脑补,实现证据链思考 | ICLR 2026 - Reportify