清华团队提出AirScape：动作意图可控的低空世界模型，全面开源！

文章核心观点 - 清华大学团队提出名为AirScape的生成式世界模型，专为六自由度（6DoF）空中具身智能体设计 [5] - 该模型能基于当前的低空视觉观测和动作意图，推演未来的序列观测，以解决具身智能领域的推演和想象基础问题 [3][6] - 项目包含一个11k视频片段的数据集，并采用两阶段训练方案，在关键指标上相比基线模型有显著提升 [7][11][18][21] 技术挑战与解决方案 - 现有世界模型研究主要聚焦于二维平面操作的人形机器人和自动驾驶，动作空间有限 [4] - 关键挑战包括缺乏第一人称视角的低空飞行数据集、视频基础模型与世界模型的分布差异、以及无人机6DoF运行带来的生成多样性与复杂性 [8] - AirScape通过构建包含11,000个视频-意图对的数据集，并采用两阶段训练方案来解决这些挑战 [7][11] 数据集特点 - 数据集涵盖工业区、住宅区、海边等多种空间场景 [9] - 包含平移、旋转和复合动作等多种动作类型，以及晴天、多云、夜晚等多种光照条件 [9] - 通过多模态大模型生成意图并经过超过1,000小时的人工校正，确保意图描述的准确性和逻辑性 [9] 模型训练方法 - 阶段一：利用11k视频-意图对数据集对视频生成基础模型进行监督微调，学习意图可控性 [11] - 阶段二：引入self-play training机制，通过时空判别器进行拒绝采样，学习时空约束 [14] - 时空判别器评估四个关键特征：意图对齐、时间连续性、动态程度和空间合理性 [14] 性能表现 - 在衡量动作对齐能力的关键指标IAR上，相对表现最佳的基线模型提升超过50% [21] - 在衡量生成视频质量的FID和FVD指标上，分别取得了15.47%和32.73%的提升 [21] - 在平移、旋转和复合动作等任务上，平均IAR达到84.51%，显著优于其他对比模型 [13] 未来发展方向 - 未来目标包括提升实时性能、轻量化设计以及在协助现实世界空中智能体操作决策方面的适用性 [19]