Workflow
Reasoning via Video
icon
搜索文档
视频模型也能推理,Sora2推理能力超过GPT-5
量子位· 2025-12-05 16:04
文章核心观点 - 视频生成模型具备通过生成连续视频帧进行时空规划与推理的能力,尤其在复杂空间任务上表现优于顶尖的多模态大语言模型 [1][2][4] - DeepWisdom研究团队提出“Reasoning via Video”新范式,并推出首个评估视频模型空间推理能力的基准测试VR-Bench [5][18][20] - 实验结果表明,视频模型在迷宫等空间推理任务中展现出超越VLM的泛化鲁棒性和更符合物理直觉的路径规划能力 [28][32][36][37] 视频模型推理能力优势 - 视频模型通过生成连续视频帧进行“帧链”推理,天然包含空间一致性和时间因果性,避免了VLM将视觉信息转化为文本描述导致的信息丢失和上下文饱和问题 [9][16][19][33] - 在处理高难度空间任务时,视频模型性能稳定甚至提升,而VLM性能出现断崖式下跌,例如Sora-2在不规则迷宫的高难度设定下成功率出现不降反升趋势 [31][32][35] - 视频模型生成的路径平滑、高效,紧贴最优解,步骤偏差远低于VLM,表明其真正理解空间结构而非盲目猜测 [37][38] VR-Bench基准测试设计 - VR-Bench包含7920个程序化生成视频,涵盖常规迷宫、不规则迷宫、3D迷宫、陷阱场和推箱子五大类高难度空间任务 [20][24] - 测试采用四项核心指标:成功率、精确匹配率、精确率和步骤偏差,为视频模型建立了客观的、可量化的评分体系 [25][34] - 该基准将视频评测从视觉鉴赏转为理性路径验证,构建了清晰的奖励机制,为未来引入强化学习铺平道路 [22][23][25][27] 关键实验发现 - 开源模型Wan-R1经过监督微调后,在多项任务上表现卓越,在陷阱场任务实现100%成功率,在3D迷宫任务精确匹配率达65.3%,远超同条件下微调的VLM模型Qwen2.5-VL-7B-SFT [40][41][45] - Wan-R1展现出强大的泛化能力,包括难度泛化、材质泛化和任务泛化,证明其内化了通用的空间规划与物理模拟逻辑而非简单记忆 [42][45] - 视频模型存在类似大语言模型的Test-Time Scaling效应,当采样数K从1增加到16时,模型在各类迷宫上的平均性能提升10-20% [43][44][47][48] 行业影响与未来展望 - 该研究标志着视频生成模型正从“艺术创作”走向“通用智能”,为构建World Simulator提供了关键路径 [14][49][51][52] - “Reasoning via Video”范式为未来具身智能机器人的运动轨迹预演和复杂场景模拟奠定了基础,是通往通用人工智能的重要方向 [50][52][53] - 团队已开源代码和数据集,推动行业共同探索视频模型的推理潜力 [54][56]