文章核心观点 - 联合研究团队发布了名为UnrealZoo的高保真具身智能仿真平台,旨在通过提供大规模、多样化的近真实虚拟环境,解决当前具身智能研究在环境复杂性和智能体泛化能力方面的短板 [1][2][8] - 该平台基于虚幻引擎构建,包含超过100个高质量3D场景和66个可交互实体,并提供了优化的编程接口,以支持算法验证、数据合成和智能体训练等多种研究需求 [5][13][16] - 平台相关论文已被ICCV 2025接收并入选Highlight Award,占录用论文总数的10% [2] 平台核心特性与优势 - UnrealZoo收录了100余个高质量、高逼真、大尺度3D场景,覆盖从室内家居、城市街道到自然景观和大型工业工厂等多种环境,最大场景达16平方公里 [2][15] - 平台内置了7种类型共66个具身实体,包括人类、动物、汽车、无人机、机器人等,各具不同的动作空间和视点 [5][31] - 相较于现有模拟器如Habitat、AI2-THOR等,UnrealZoo在场景多样性、风格覆盖(古代、现代、科幻、东方、西方等)和智能体形态多变性方面具有明显优势 [11] 技术创新与系统优化 - 平台对开源工具UnrealCV进行了优化,推出UnrealCV+,显著提升了通信效率和渲染性能,例如物体掩码捕获帧率从70 FPS提升至154 FPS(提升120%),深度图捕获从52 FPS提升至97 FPS(提升86%) [48][53] - 提供了易于使用的Python API和Gym接口,支持环境增强、演示收集和分布式训练/测试,降低了使用门槛 [5][48] - 智能体运动系统基于Smart Locomotion,支持跑、跳、攀爬等复杂三维空间探索;导航系统基于NavMesh,支持自主路径规划和避障 [36][38][39] 实验验证与应用潜力 - 在视觉导航任务中,实验揭示了当前智能体(包括基于RL和GPT-4o的模型)在复杂开放3D世界中面临巨大挑战,与人类玩家表现存在显著差距 [56][60] - 在主动视觉跟踪任务中,实验表明,随着训练环境数量从1个增加到8个,智能体的泛化能力显著提升,尤其是在野外环境中成功率提高明显 [64][68] - 研究同时发现,高控制频率(如30 FPS)对智能体在动态环境中的性能至关重要,当频率低于10 FPS时性能会显著下降 [70] 行业意义与发展方向 - UnrealZoo填补了现有具身智能模拟器在开放世界复杂性和多变性方面的空白,为智能体从虚拟世界走向现实世界的广泛应用奠定了基础 [7][8][72] - 平台的开放下载(通过Modelscope)有助于推动整个具身智能行业在导航、主动追踪、社会交互等任务上的研究进程 [5][9] - 未来的工作将继续丰富虚拟世界的场景、实体和交互任务,以进一步提升智能体的空间感知和泛化能力 [72]
ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo
具身智能之心·2025-11-13 10:05