ReWatch
搜索文档
大模型学会拖进度条看视频了,阿里新研究让视频推理告别脑补,实现证据链思考
36氪· 2026-01-29 17:29
核心观点 - 阿里巴巴未来生活实验室的研究团队发现,在视频推理任务中,简单地套用文本思维链(如“一步一步思考”)会因模型产生“脑补”和幻觉而导致效果不佳,甚至不如“直接回答”[1] - 团队认为,模型“思考”的效果取决于是否教会它“如何思考”,并为此提出了一套完整的解决方案,包括高质量数据集ReWatch和SOTA模型ReWatch-R1,论文已中稿ICLR 2026[1] 数据集ReWatch - 为解决现有训练数据视频描述粗糙、问答过于简单、思维链严重依赖文本常识而非视频内容三大痛点,团队构建了包含1万视频、17万问答对和13.5万思维链的ReWatch数据集[2] - 数据集具备三大核心优势:1) 高保真时序字幕,为长视频生成带精确时间戳的详细事件描述;2) 高难度视频问答,确保问题必须依赖视频细节解答;3) 视频接地的思维链,通过多智能体ReAct框架生成与视频内容紧密绑定的推理轨迹[2] - 整个数据集的构建过程包含分层字幕生成、高难度问答对生成以及多智能体思维链合成三个阶段,确保了数据的高质量和高难度[4] 模型ReWatch-R1 - 研究团队采用SFT+RL的范式训练模型,并通过一个创新的奖励机制让模型掌握思考的精髓,其核心是带过程奖励的强化学习[6] - 过程奖励具体拆解为观察奖励和推理奖励:观察奖励评估模型生成的“观察”是否与高保真字幕相符;推理奖励评估模型仅凭其生成的“观察”信息能否推导出正确答案[8] - 该方法使模型不仅学会得出正确答案,更学会了如何通过真实、有效的步骤进行思考,基于证据链进行推理[8] 实验结果与洞察 - 实验结果表明,ReWatch-R1在五个主流视频推理基准上,平均性能显著超越了所有同量级的开源模型,取得了SOTA的成绩[9] - 关键洞察发现,在监督微调阶段,“思考模式”性能无法超越“直接回答”模式,说明SFT只能教会模型思考的“形”;而经过强化学习阶段后,“思考模式”性能实现惊人飞跃,最终大幅超越“直接回答”模式[11] - 这证明了显式的、一步步的、有证据支撑的推理过程对解决复杂视频任务至关重要,而强化学习是激发这种能力的关键[11] 总结与贡献 - 该工作通过创新的“智能体合成数据”方法,解决了高质量视频推理数据稀缺的核心瓶颈[13] - 通过“过程奖励”强化学习,成功教会了模型如何基于视频证据进行“深度思考”,而不是空想[13] - 研究表明,让模型学会“如何思考”是通往更高阶视频智能的关键一步[13]