ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo

核心观点 - 联合研究团队推出了基于虚幻引擎的高保真具身智能仿真平台UnrealZoo，旨在解决现有模拟器场景单一、真实性不足的问题，为复杂开放世界中的AI训练提供支持 [2] - 该平台包含超过100个高质量3D场景和66个可自定义操控的实体，提供优化的编程接口和工具链，显著提升了仿真效率与易用性 [5][7][15] - 实验证明环境多样性对智能体泛化能力至关重要，同时揭示了当前基于强化学习和大模型的智能体在复杂3D空间推理中的局限性 [50][55][58] 平台概述与定位 - UnrealZoo是一个基于虚幻引擎UE5开发的高保真虚拟环境集合，包含100余个场景地图和66个可自定义操控的具身实体 [5] - 平台被ICCV 2025接收并入选Highlight Award，本届共有280篇论文入选，占录用论文总数的10% [2] - 旨在弥补现有模拟器如Habitat、AI-Thor和Carla等在场景多样性和开放性方面的短板，推动具身智能体在多变环境中的适应能力发展 [8] 场景与实体多样性 - 平台收录100多个高质量3D场景，涵盖住宅、超市、火车站、工厂、城市、乡村、寺庙及自然景观等多种风格，最大场景达16平方公里 [13][16] - 提供人类、动物、汽车、摩托车、无人机、移动机器人和飞行相机等七种类型共66个实体，各具不同的动作空间和视点 [24] - 与主流虚拟环境相比，UnrealZoo在场景类别、规模、风格和实体多样性方面具有显著优势，支持古代、现代、科幻等多种风格 [12] 技术特性与系统功能 - 运动系统基于Smart Locomotion，支持智能体在复杂三维空间中进行跑步、跳跃、攀爬等基础移动能力 [31] - 内置基于NavMesh的自主导航系统，支持智能路径规划和避障；交互系统支持物体拿放、碰撞、上下车、开关门等丰富物理交互 [33][34][36][38][40] - 支持多智能体之间的合作与对抗交互，为研究社会智能行为如合作、竞争与沟通提供平台 [41] 软件接口与性能优化 - 提供一套易用的Python API和工具（UnrealCV+），包括环境增强、演示收集和分布式训练/测试功能 [15][42] - UnrealCV+优化了渲染管道和通信协议，帧率（FPS）显著提升：物体级分割图性能提升120%，深度图提升86%，多智能体交互（N=10）提升100% [45][46] - 开发基于Gym接口的高级Python API，简化环境交互，使初学者也能轻松使用和定制环境 [44][46] 实验验证与应用潜力 - 视觉导航实验中，在线RL智能体在需要立体空间感知的复杂环境中表现优于GPT-4o，但与人类玩家存在显著差距 [47][50] - 主动视觉跟踪实验表明，随着训练环境数量从1个增加到8个，智能体的泛化能力显著提升，尤其在野外环境中成功率提高明显 [55][58] - 在动态干扰测试中，RL方法在0D、4D、10D干扰设置下均保持较高成功率（0.76/0.68/0.56），显著优于PID、GPT-4o和OpenVLA等方法 [60][61] - 控制频率实验显示，当感知-控制循环频率低于10 FPS时性能显著下降，30 FPS时成功率可达0.92，凸显高效模型的重要性 [62]