基于真实数据和物理仿真，国防科大开源具身在线装箱基准RoboBPP

文章核心观点 - 由国防科大、中科院工业人工智能研究所、武汉大学与深圳大学联合推出的RoboBPP基准系统，是首个结合真实工业数据、物理仿真与具身执行评估的机器人在线三维装箱综合基准系统，旨在解决现有研究因忽略物理因素和具身可执行性而难以落地的问题 [2][4][28] 基于物理的仿真环境 - 团队构建了基于PyBullet的高逼真物理仿真环境，以真实尺度建模工业机械臂与箱体，用于评估算法的物理可行性与具身可执行性，避免了在真实硬件上测试的高成本与复杂性 [9][10] - 仿真器能够模拟重力、摩擦、碰撞，并使用OMPL运动规划库生成机械臂的无碰撞轨迹，支持抓取、搬运、放置等完整操作流程 [10] - 整个仿真环境已作为Python包packsim开源，用户可通过PyPI安装并体验完整流程 [11] 真实工业流程数据集 - 为覆盖多样化工业场景，团队构建了三个来自真实工业流程的大规模数据集，决定了机器人抓取、搬运与放置过程中的具身执行难度 [12][13] - Repetitive Dataset：源自流水线生产，箱体尺寸高度重复、变化小 [13] - Diverse Dataset：对应物流分拣与装箱任务，箱体尺寸多样性和波动性大 [13] - Wood Board Dataset：涉及形状不规则或细长的箱体（如长条形板材），放置难度更高 [13] 科学设计的多级测试设置 - 团队设计了三种逐级递进、物理真实度不断提升的测试设置，以评估算法的适应性和稳健性 [15] - Math Pack：仅进行纯几何放置，不涉及物理效应或机械臂操作，用于评估空间推理与几何规划能力 [16] - Physics Pack：在几何放置基础上引入重力、碰撞等物理模拟，用于评估算法在物理约束下的有效性（如堆叠稳定性） [16] - Execution Pack：最接近真实部署，完整引入具身执行过程，结合物理仿真与工业机械臂操作，算法性能取决于放置策略及机器人运动学可达性、轨迹规划与动态稳定性 [16] 多维度评估指标及归一化评分体系 - 评估体系在传统指标（紧凑性、稳定性、推理效率）基础上，借助物理仿真引入了新的执行相关指标，如Collapsed Placement（坍塌放置比例）和Dangerous Operation（危险操作比例） [19] - 设计了一个评分体系，将所有指标转换为归一化分数，并根据需求进行加权汇总得到综合得分，权重示例如下：空间利用率（Space Utilization）0.35、占用率（Occupancy）0.15、决策时间（Decision Time）0.08、静态稳定性（Static Stability）0.15、轨迹长度（Trajectory Length）0.08、坍塌放置比例0.07、危险操作比例0.05 [20] 实验评估与算法表现 - 团队复现了多种代表性算法，在三种测试设置和三个数据集下进行了统一评测，并通过评分系统计算了每个算法的综合得分 [22] - 在高度重复的流水线生产环境中，明确建模空间与几何关系的强化学习算法（如PCT和TAP-Net++）表现突出 [23] - 在物品尺寸高度多样化的物流场景中，基于Transformer的强化学习策略（如PCT和AR2L）更为有效 [29] - 在以细长家具件为主的场景中，强化学习算法与几何驱动的启发式方法（如TAP-Net++与DBL）均展现出良好适用性 [29] - 当算法更关注紧凑且高效的空间利用而非单纯追求放入更多箱体时（如HM和PackE），往往能获得更高的占用率 [26] - 当算法的放置策略优先选择可行、低风险的位置并形成平整堆叠时（如AR2L和PackE），其机械臂末端执行器的平均轨迹长度通常更短 [30] - 当算法在放置策略中显式或隐式优先考虑稳定性和物理可行性时（如TAP-Net++与DBL），其坍塌放置率往往更低 [30] 项目开源与社区 - 项目完全开源，配备可视化工具和在线排行榜，为未来研究与工业应用提供了可复现、可扩展的具身评估基础 [28] - 项目主页提供多类榜单、数据集下载、文档说明以及算法提交测试功能 [6]