当前视频大模型的局限性 - 视频大模型发展迅速,但在面对复杂的空间移动和物理规律时,依然“看不懂”物体如何运动[2] - 模型或许能描述视频中发生了什么,但难以回答涉及时序关系(如“红色的车是在蓝色车转弯之前还是之后通过路口”)或物理轨迹(如“皮球的抛物线轨迹最高点在哪里”)的复杂问题[2] - 在测试中,Gemini 3 Pro Preview未能理解视频中车辆最主要的运动行为(变道与超车),而是错误地描述为在车道上行驶[8] - 模型可以生成高速行驶的赛车,却难以判断刹车究竟是发生在碰撞之前还是之后;能描绘复杂的街景,却常常搞错行人的移动方向与相对位置关系[10] - 空间与运动是人类理解世界的基础,而这一能力恰恰是当前视频模型最薄弱的部分[9] 问题根源:数据匮乏 - 高质量运动数据极度匮乏是根本原因[3] - 现有数据集要么规模太小,要么依赖昂贵的人工标注,难以支撑模型学习真实世界中细粒度的物理运动[3] - 现有视频数据要么只包含静态描述,要么高度依赖昂贵、难以扩展的人工标注,使得大规模、细粒度的“运动理解”数据几乎无法获得[12] FoundationMotion解决方案 - 来自MIT、NVIDIA、UC Berkeley等机构的研究者提出了FoundationMotion,一套完全不依赖人工标注的自动化数据管线[4] - FoundationMotion是一套端到端、无需人工参与的自动化数据生成系统,可被视为一座全自动的“运动数据工厂”[13] - 其工作流程分为四步:1. 预处理;2. 使用目标检测与跟踪模型,将视频中的关键物体转化为连续的时空轨迹;3. 采用多模态融合策略,将轨迹信息转化为语言模型能理解的“运动说明书”;4. 利用GPT-4o-mini自动生成高质量的标注与问题[14][16][17][18] - 最终,团队基于InternVid构建了约50万条高质量运动理解数据,形成了FoundationMotion数据集[18] 技术效果与性能表现 - 仅用FoundationMotion生成的数据微调后,15B参数的视频模型在运动理解任务上超越了更大规模的模型[4] - 具体表现为:NVILA-Video-15B在AV-Car基准测试上达到90.6%,超越了Gemini-2.5-Flash的84.1%以及Qwen-2.5-VL-72B的83.3%[4] - 微调后的7B/15B模型在多个运动理解基准上,实现了对Gemini-2.5 Flash与Qwen2.5-VL-72B的越级挑战[26] - 这一提升是纯数据驱动的,不依赖额外的模型结构设计或复杂的推理策略,完全归功于数据的质量[26] - 模型在增强物理感知的同时,并未损害原本的通用视频理解能力,且在不同领域(自动驾驶、机器人操作、日常活动)均具备良好表现和强泛化性[26] 行业意义与应用前景 - FoundationMotion的意义远不止于刷榜,被认为是构建真正的具身智能的基础设施[23][27] - 在自动驾驶与机器人领域,“理解物体如何运动”直接关系到系统的安全与决策能力[24] - 该方案提供了一条低成本、可扩展的路径,让AI能够通过观看海量视频,逐步建立对物理世界的直觉[25] - 这套管线未来可广泛用于视觉语言模型、世界模型等领域,实现将轨迹转化为结构化文本描述、生成精细化运动描述(包含速度变化、方向、终止位置等细节)以及多维度运动理解问答(覆盖动作识别、时序关系、动作-物体关联、空间位置以及重复计数等关键能力)[25]
无需人工标注,轻量级模型运动理解媲美72B模型,英伟达、MIT等联合推出FoundationMotion
机器之心·2026-01-11 10:17