核心观点 - 联合研究团队推出了基于虚幻引擎的高保真具身智能仿真平台UnrealZoo,旨在解决现有模拟器场景单一、真实性不足的问题,为复杂开放世界中的AI训练提供支持 [2] - 该平台包含超过100个高质量3D场景和66个可自定义操控的实体,提供优化的编程接口和工具链,显著提升了仿真效率与易用性 [5][7][15] - 实验证明环境多样性对智能体泛化能力至关重要,同时揭示了当前基于强化学习和大模型的智能体在复杂3D空间推理中的局限性 [50][55][58] 平台概述与定位 - UnrealZoo是一个基于虚幻引擎UE5开发的高保真虚拟环境集合,包含100余个场景地图和66个可自定义操控的具身实体 [5] - 平台被ICCV 2025接收并入选Highlight Award,本届共有280篇论文入选,占录用论文总数的10% [2] - 旨在弥补现有模拟器如Habitat、AI-Thor和Carla等在场景多样性和开放性方面的短板,推动具身智能体在多变环境中的适应能力发展 [8] 场景与实体多样性 - 平台收录100多个高质量3D场景,涵盖住宅、超市、火车站、工厂、城市、乡村、寺庙及自然景观等多种风格,最大场景达16平方公里 [13][16] - 提供人类、动物、汽车、摩托车、无人机、移动机器人和飞行相机等七种类型共66个实体,各具不同的动作空间和视点 [24] - 与主流虚拟环境相比,UnrealZoo在场景类别、规模、风格和实体多样性方面具有显著优势,支持古代、现代、科幻等多种风格 [12] 技术特性与系统功能 - 运动系统基于Smart Locomotion,支持智能体在复杂三维空间中进行跑步、跳跃、攀爬等基础移动能力 [31] - 内置基于NavMesh的自主导航系统,支持智能路径规划和避障;交互系统支持物体拿放、碰撞、上下车、开关门等丰富物理交互 [33][34][36][38][40] - 支持多智能体之间的合作与对抗交互,为研究社会智能行为如合作、竞争与沟通提供平台 [41] 软件接口与性能优化 - 提供一套易用的Python API和工具(UnrealCV+),包括环境增强、演示收集和分布式训练/测试功能 [15][42] - UnrealCV+优化了渲染管道和通信协议,帧率(FPS)显著提升:物体级分割图性能提升120%,深度图提升86%,多智能体交互(N=10)提升100% [45][46] - 开发基于Gym接口的高级Python API,简化环境交互,使初学者也能轻松使用和定制环境 [44][46] 实验验证与应用潜力 - 视觉导航实验中,在线RL智能体在需要立体空间感知的复杂环境中表现优于GPT-4o,但与人类玩家存在显著差距 [47][50] - 主动视觉跟踪实验表明,随着训练环境数量从1个增加到8个,智能体的泛化能力显著提升,尤其在野外环境中成功率提高明显 [55][58] - 在动态干扰测试中,RL方法在0D、4D、10D干扰设置下均保持较高成功率(0.76/0.68/0.56),显著优于PID、GPT-4o和OpenVLA等方法 [60][61] - 控制频率实验显示,当感知-控制循环频率低于10 FPS时性能显著下降,30 FPS时成功率可达0.92,凸显高效模型的重要性 [62]
ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo
机器之心·2025-11-12 01:11