北大字节开源首个时空推理视频模型！思考过程全透明，性能超越GPT-4o

文章核心观点 - 由北京大学和字节跳动联合团队推出的开源模型Open-o3 Video，是首个将显式时空证据嵌入视频推理全过程的多模态大模型，实现了“有迹可循”的视频推理[1][2] - 该模型采用non-agent架构，在一次回复中直接完成“看—想—证—答”的闭环，避免了复杂的工具调用和多轮推理[4] - 在多个视频推理测试中，其关键指标可提升至24.2%，性能表现超越了GPT-4o和Gemini-2-Flash等闭源模型[5] 研究背景与行业痛点 - 视频理解是多模态大模型中最复杂的任务之一，模型不仅需要识别物体与动作，还必须判断其出现的时间和位置[8][9] - 现有模型如Video-R1、VideoRFT虽提升了逻辑一致性，但其思维链是纯文本的，属于“黑箱式推理”，无法指出支撑答案的具体画面，导致判断难以解释和验证[10][11] - 将“图像思考”理念扩展到视频领域面临两大困难：1）在推理中保持文本、时间戳和物体目标框的一致性难度大；2）缺乏统一的时空耦合监督数据[12][15] 模型训练方法与技术创新 - 数据构建：团队构建了首个面向显式时空推理的统一语料体系STGR，包括用于监督微调的STGR-CoT-30k和用于强化学习的STGR-RL-36k两部分[18] - 数据标注流程：针对5.9k高质量时空数据，利用Gemini 2.5 Pro进行初始标注，并通过过滤无效框和Qwen2.5-VL-7B验证等方式确保数据质量[21][24] - 双阶段训练机制：采用“冷启动预训练”与“基于GSPO的强化学习”相结合的方法[26] - 冷启动阶段通过监督微调让模型掌握带时空标注的推理格式与输出规范[27][28] - 强化学习阶段引入GSPO框架，通过由答案正确性、推理链合理性、格式规范性三部分组成的奖励函数进行自我校正[32][33] - 自适应奖励机制：为解决时空联合定位的挑战，团队提出了自适应时间临近性机制和时间门控机制，以稳定训练并实现从“粗定位”到“精定位”的收敛[36][37] 性能表现与实验结果 - 基准测试领先：在时空推理基准V-STAR上，Open-o3 Video的整体mAM提升14.4%、mLGM提升24.2%，超越GPT-4o与Gemini-2-Flash等模型[45][46] - 泛化能力强：在VideoMME、WorldSense、VideoMMMU与TVGBench等多个基准测试上稳定超越基线模型，例如在VideoMME-Long子任务上达到54.9%，提升4.1%[46] - 消融实验验证：实验证实双阶段训练、自适应奖励机制和高质量的时空标注数据对性能提升至关重要[54][58][62] - 移除时空标注数据，模型性能显著下降至mAM 28.3/mLGM 36.2[62] - 结合15k条通用VideoQA样本能实现语言生成与证据定位的最佳平衡[64][66] 推理增强与应用价值 - 测试时扩展：模型生成的时空证据可作为可验证信号，通过裁剪关键帧区域并进行相关性评分，实现基于置信度的加权投票，提高推理准确性和鲁棒性[40][42][43] - 可解释性优势：得益于显式的证据链设计，模型生成的答案具有可验证性，在同等准确率下提供了更高的可解释性与可靠性[48][76] - 可视化实例：模型能够在推理中提供时间戳和目标框等时空证据，支持其在物体外观识别、动作意图分析及天气推理等任务上的判断[70][75] 行业影响与未来展望 - Open-o3 Video将推动视频多模态模型从“能答对”走向“能定位，能解释”，让机器真正具备在时空维度上进行有迹可循推理的能力[80] - 未来工作将集中于完善时空推理数据与后训练机制，以支持更长视频和更复杂场景下的问答[81] - 该模型的论文、代码和模型已全部开源，有助于促进开源社区的交流与发展[82]