Workflow
语言驱动的自动驾驶
icon
搜索文档
RoboSense 2025 机器感知挑战赛正式启动
具身智能之心· 2025-06-25 21:52
RoboSense Challenge 2025概述 - 核心目标为系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[1] - 聚焦动态人群、恶劣天气、传感器故障等复杂环境条件下的感知算法性能挑战[1] - 由新加坡国立大学、南洋理工大学等全球7所顶尖研究机构联合主办,并获得IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[3] - 第一阶段提交截止2025年8月15日,第二阶段截止9月15日[3] - 颁奖典礼于2025年10月19日在IROS 2025杭州主会场举行[3][46] 五大核心挑战任务 语言驱动的自动驾驶 - 要求构建端到端多模态驾驶模型,实现语言指令到规划轨迹的闭环控制[6][7] - Baseline模型Qwen2.5-VL需4块A100 GPU训练12小时,感知准确率75.5%[13] - 关键技术难点包括多模态时序融合、语言指令泛化及弱感知条件下的决策[13] 社交导航 - 基于RGB-D输入实现符合人类社交规范的动态路径规划[14][15] - Baseline模型Falcon成功率55.84%,需4块RTX 3090训练48小时[19] - 需解决动态行为建模与隐式社交规则编码问题[17] 传感器布局优化 - 评估3D感知模型对不同LiDAR安装配置的适应性[20][21] - Baseline模型BEVFusion-L的mAP为48.8%,单卡RTX 4090需16小时训练[26] - 关键技术包括视角差异建模与结构对齐模块设计[27] 跨模态无人机导航 - 建立语言描述与空地视角图像的语义映射关系[28][29] - Baseline模型GeoText-1652的R@1为13.6,需2块RTX 4090训练12小时[34] - 需解决视角转换带来的纹理缩放与空间反转问题[33] 跨平台3D目标检测 - 要求模型在车辆/无人机/四足机器人等平台保持检测一致性[34][35] - Baseline模型ST3D++的Car AP@0.5为33.7%,单卡RTX 3090训练24小时[39] - 核心挑战为跨平台Domain Gap与视角仿射变化适应[39] 赛事资源与评测 - 提供多源多模态真实场景数据支持研究复现[9] - 采用统一评测平台确保公正性,如codabench.org/eval.ai等[14][19][26][34][39] - 开放Toolkit与代码资源库github.com/robosense2025[8] 奖项设置 - 总奖金池超10,000美元,一等奖奖金5,000美元[40][41] - 设立创新奖(每赛道2项)及参与奖(完成有效提交即可获证明)[40]