Workflow
自动驾驶之心
icon
搜索文档
RoboSense 2025机器感知挑战赛正式启动!自动驾驶&具身方向~
自动驾驶之心· 2025-06-25 17:54
赛事背景与目标 - 赛事旨在系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[2] - 面对动态人群、恶劣天气、传感器故障等复杂环境,传统感知算法性能大幅下降[2] - 由新加坡国立大学、南洋理工大学等全球顶尖研究机构联合主办,并获IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[4] - 第一阶段截止日期为2025年8月15日,第二阶段截止日期为9月15日[4] - 颁奖典礼将于2025年10月19日在IROS 2025杭州主会场举行[4] 五大核心赛道技术要点 语言驱动的自动驾驶 - 任务要求构建端到端多模态驾驶模型,输入视觉序列与自然语言指令,输出规划轨迹[11] - Baseline模型Qwen2-5-VL需4块NVIDIA A100 GPU,迭代周期约12小时,感知准确率75-5%[16] - 挑战包括多模态融合建模、语言泛化能力及弱感知条件下的鲁棒性评估[17] 社交导航 - 目标实现基于RGB-D输入的移动机器人导航,需符合人类社交规范如避让老人、保持安全距离[18] - Baseline模型Falcon需4块RTX 3090 GPU,成功率55-84%,社交合规指标PSC达89-47[21] - 关键难点包括动态行为建模、非显式社交规则编码及多主体不确定性处理[19] 传感器布局优化 - 首次系统评估LiDAR不同安装位置对3D感知模型性能的影响[23] - Baseline模型BEVFusion-L单卡RTX 4090需16小时训练,mAP达48-8%[28] - 研究方向包括结构对齐模块、Point-to-Ray Alignment Loss等抗视角漂移方法[27] 跨模态无人机导航 - 任务需建立语言描述与俯视图间的语义映射,Baseline模型GeoText-1652检索R@1仅13-6[34] - 核心挑战为空-地视角转换带来的纹理缩放、建筑遮挡等语义对齐问题[33] 跨平台三维目标检测 - 要求3D检测模型在车辆、无人机等不同平台保持性能,Baseline模型ST3D车辆AP@0-5为33-7%[42] - 需解决Domain Gap显著、平台感知对抗机制缺失等跨平台适配问题[41] 赛事资源与奖项 - 提供多源多模态真实场景数据及统一评测平台[13] - 总奖金池超10,000美元,设置一等奖5,000美元及创新奖等专项奖励[42] - 所有完成有效提交队伍均可获得官方参赛证明[42]
黑武士!科研&教学级自动驾驶全栈小车来啦~
自动驾驶之心· 2025-06-25 17:48
产品概述 - 黑武士001是自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,采用阿克曼底盘设计[3] - 产品原价34999元,当前预售活动支付定金1000元可抵扣2000元[2] - 产品适用于本科生学习进阶、研究生科研、高校实验室教具、职业院校培训等多种场景[6] 硬件配置 - 主要传感器包括:Mid 360 3D激光雷达(FOV360°*59°,范围0.1m-40m)、镭神智能2D激光雷达(最大范围25m)、奥比中光深度相机(测量范围0.15-5m,精度≤2%)[10][18] - 主控芯片采用Nvidia Orin NX 16G,配备1080p显示器[10] - 底盘系统为阿克曼底盘,结构采用钣金件和硬铝发黑处理[10] - 车体尺寸620×400×320mm,自重30kg,最大载荷30kg[12] 性能参数 - 运动速度1.5m/s(最大可达2m/s)[12] - 电池功率50w,供电电压24V,续航时间>4小时[12] - 轮毂外径130mm,采用轮毂伺服电机驱动[12] 软件功能 - 支持ROS、C++、python开发环境,提供一键启动功能[14] - 功能包括:2D/3D目标检测与分割、多种SLAM方案(视觉、激光、惯性等)、点云处理、车辆导航与避障等[15] - 深度相机驱动节点可发布RGB图像数据(1280x800@30fps)、深度图像数据等[29] - 支持手柄遥控,可通过配置文件调整最大线速度和角速度[30][32] 应用展示 - 已在室内、室外、地库等多种场景下完成功能测试[4] - 具体应用场景包括:点云3D目标检测、2D/3D激光建图、上下坡测试、夜间行驶等[7][8][9][10] - 提供可视化界面展示点云数据和定位信息[34] 售后服务 - 提供1年非人为损坏保修服务,邮费由用户承担[37] - 因操作失误或代码修改导致的损坏可提供免费维修[37] - 支持硬件采购咨询[37]
为什么做不好4D自动标注,就做不好智驾量产?
自动驾驶之心· 2025-06-25 17:48
4D自动标注技术 - 4D自动标注是自动驾驶数据闭环的核心环节 涉及3D动态目标 OCC 静态标注和端到端标注 需融合多传感器数据并保证时空一致性 [2] - 动态障碍物标注流程包含四大模块 离线3D目标检测 离线跟踪 后处理优化 传感器遮挡优化 其中点云3D目标检测和LV融合是主流方法 [2][4] - 静态元素标注需基于SLAM重建图获取全局道路信息 避免单帧感知偏差 动态元素则需通过跟踪串联时序结果 [5][13] 技术难点 - 时空一致性要求极高 复杂场景下动态目标跨帧标注易断裂 需解决遮挡 形变等问题 [6] - 多模态数据融合复杂 需同步激光雷达 相机 雷达数据 处理坐标对齐和时延补偿 [6] - 动态场景泛化难度大 交通参与者行为不确定性和环境干扰增加模型适应性挑战 [6] - 量产场景泛化是痛点 需解决不同城市 道路 天气条件下的数据挖掘和标注算法性能 [7] 课程内容体系 - 课程覆盖4D自动标注全流程 包括动态障碍物检测跟踪 OCC标注 端到端标注等六大核心模块 [7] - 动态障碍物标注章节详解SAFDNet算法和DetZero时序后处理 包含数据增广 BEV融合等实战内容 [10] - 激光&视觉SLAM重建章节讲解Graph-based算法原理 解决静态元素标注的全局道路建模问题 [11] - 端到端真值生成章节包含动态障碍物 静态元素 可行驶区域的全流程串联 并扩展闭环仿真技术 [15] 行业应用趋势 - 端到端大模型+高质量数据集微调成为量产感知算法新方向 数据联合标注取代传统分开标注模式 [2] - OCC标注成为行业标配 需解决基于Lidar/视觉的方案稠密化 噪声优化和跨传感器遮挡问题 [14] - 数据闭环面临scaling law有效性验证 跨传感器系统协同等挑战 需优化迭代效率提升泛化能力 [16]
BEV高频面试问题汇总!(纯视觉&多模态融合算法)
自动驾驶之心· 2025-06-25 10:30
BEV感知技术发展现状 - BEV(Bird's Eye View)感知已成为视觉感知领域竞争焦点 地平线、文远、小鹏、比亚迪、毫末等厂商加速投入量产研发 [2] - 2024年以来多模态融合、时间建模、实时性优化等技术突破推动BEV感知实际落地 部分团队将其作为核心模块融入自研自动驾驶栈 [2] - 纯视觉3D结合长时序算法显著提升检测性能 如StreamPETR、3DPPE等方法已接近LiDAR水平 [4] BEV关键技术解析 - BEVFormer采用隐式特征编码实现2D到3D空间变换 区别于BEVDet的显式深度估计方式 [4] - 时序建模中query为BEV query key/value包含历史BEV信息(pre_bev)和图像特征(image feature) [3] - BEVDet4D通过grid_sample warp实现2D图像到BEV空间的像素映射 依赖相机内外参和预定义网格进行坐标转换 [3] 轻量化与部署实践 - 车载部署常见方案包括BEVDet和BEVDepth的TensorRT版本 Fast-BEV因体量较小成为轻量化代表 [5] - 激光雷达检测需处理不同厂商传感器强度差异 现有方法可参考《LiDAR强度校正方法综述》但公开数据集未覆盖该问题 [5] 性能参数与优化方向 - BEV鸟瞰矩阵物理空间通常定义为50m范围 纯视觉方案稳定检测距离约50m 主要受数据质量限制 [6] - 远距离检测优化方案包括多模态融合 当前技术瓶颈集中在远距小物体识别和芯片推理速度 [6] - 工业界已在自主代客泊车场景实现BEV感知量产应用 [6] 行业生态与人才储备 - 自动驾驶之心知识星球聚集全球顶尖院校研究者 覆盖清华大学、ETH等机构 并与20+头部企业建立内推合作 [8] - 平台推动学术工程交流 提供从基础到进阶的算法与代码教学 支持行业资源对接 [8]
为什么一篇论文要耗尽整个研究生生涯?
自动驾驶之心· 2025-06-25 10:30
文章核心观点 - 公司提供自动驾驶、具身智能、机器人领域的论文辅导服务,帮助硕博生解决论文发表难题 [2][3] - 公司拥有300+专职导师团队,来自全球QS前100高校,近3年辅导学员400+名,中稿率高达96% [3] - 服务覆盖选题、实验设计、论文写作、投稿全流程,目标期刊包括CVPR、ICRA、PAMI等顶会顶刊 [4][11][12] 公司背景 - 国内最大AI类技术自媒体平台,旗下拥有自动驾驶之心/具身智能之心/3D视觉之心等IP [3] - 深耕自动驾驶、具身智能、机器人领域多年,掌握交叉学科技术细节与研究热点 [5] - 导师团队具备顶级会议/期刊发表经验,熟悉审稿流程与偏好 [8] 服务内容 - 提供选题、文献综述、实验设计、模型优化、论文写作、投稿策略等全流程辅导 [4][12] - 覆盖大模型、端到端自动驾驶、BEV感知、多传感器融合等20+前沿技术方向 [5] - 1对1定制化服务,根据研究方向精准匹配导师 [7][9] 目标用户与成果 - 本科生:辅助课程论文/毕设,建立科研基础 [4] - 硕士生:突破开题/实验瓶颈,冲刺CCF-A/B类会议 [4][11] - 博士生:攻坚顶会顶刊(如CVPR、PAMI),产出影响力研究 [4][11] - 成果包括清晰的科研路径、突破性研究思路、符合国际标准的论文写作 [15]
穆尧团队最新!RoboTwin 2.0:用于鲁棒双臂操作的可扩展数据基准
自动驾驶之心· 2025-06-24 20:41
核心观点 - RoboTwin 2.0是一个可扩展的仿真框架,旨在解决双臂机器人操作中数据生成和仿真环境简化两大挑战,通过自动生成多样化且逼真的数据提升策略鲁棒性[2] - 该框架引入五个维度的结构化域随机化(杂乱程度、光照、背景、桌面高度和语言指令),显著增强数据多样性和策略泛化能力[4] - 在50个双臂任务中预收集超过10万条域随机化专家轨迹,覆盖五种机器人实体,实证显示代码生成成功率提高10.9%,真实任务性能提升367%[4] 方法创新 自动专家代码生成 - 结合多模态大语言模型(MLLMs)与仿真闭环优化,通过代码生成agent和视觉-语言模型观察者的双AI agent架构实现迭代优化[10] - 在10项任务评估中,RoboTwin 2.0+MM FB配置达到71.3%的成功率,较基础版本提升23.9个百分点[27] 域随机化设计 - 场景杂乱:基于147类别731个标注物体的RoboTwin-OD库生成语义丰富的干扰场景[12] - 光照变化:随机化色温、光源类型(点光源/区域光源)等参数模拟现实光照条件[13] - 语言指令:通过MLLMs自动生成多样化任务指令和物体描述,覆盖几何/外观/部件级属性[13] 实体感知适应 - 为不同自由度机器人(7-DoF/6-DoF)定制抓取策略,使低自由度平台成功率提升13.5%-22.7%[29] - 通过标注物体关键点轴信息(抓取点/功能点)支持跨实体部署,平均任务成功率提高8.3%[16][31] 数据集与基准 RoboTwin-OD物体库 - 包含147类别731个实例,其中534个通过RGB到3D重建生成,均标注语义和操作相关标签(放置点/抓取轴)[18] 预收集数据集 - 覆盖50项双臂任务和5种机器人实体,包含10万+轨迹(每任务100条干净轨迹+400条随机化轨迹)[24] 性能验证 - 仿真到现实迁移:添加1,000条RoboTwin 2.0合成轨迹使现实任务成功率最高提升33个百分点[36] - 基准测试显示预训练模型(如RDT)在Hard条件下保持优势,非预训练模型性能下降显著[37]
谈薪避坑、跨行转岗?自动驾驶/具身求职,AutoRobo星球一站搞定!
自动驾驶之心· 2025-06-24 20:41
行业发展趋势 - 自动驾驶和具身智能成为AI技术发展的主线 支撑了近一半的技术路线和融资金额 [2] - L2~L4自动驾驶功能逐步实现量产 人形机器人完成复杂动作如跳舞 四足机械狗适应复杂地形 [2] - 行业对技术和人才需求明确 涵盖自动驾驶 具身智能 3D视觉 机器人等领域 [2] 求职社区服务 - AutoRobo知识星球提供求职交流平台 成员近1000名 包括地平线 理想汽车 华为 小米汽车等公司员工及2024-2025届校招学生 [2] - 社区覆盖机器人 自动驾驶 具身智能方向 提供面试题目 面经 行业研报 谈薪技巧 内推公司 简历优化等服务 [3] - 每日更新算法 开发 产品等岗位信息 包含校招 社招 实习机会 [4] 技术面试资源 - 汇总自动驾驶方向一百问 包括毫米波视觉融合 3D/4D毫米波雷达量产 车道线检测 规划控制 BEV感知等细分领域 [6][7] - 具身智能方向涵盖轨迹预测 Occupancy感知 相机标定 端到端自动驾驶等技术面试问题 [11] - 提供成功与失败面经案例 涉及滴滴出行 英伟达 美团自动驾驶 小米汽车等公司 覆盖算法工程师 SLAM算法 产品经理等岗位 [13][16] 行业研究支持 - 分享机器人 具身智能领域研报 包括世界机器人报告 中国人形机器人发展蓝皮书 具身智能行业深度分析等 [12][15] - 解析行业现状 技术路线 发展趋势 市场机遇 上下游产业链 [12][15] - 提供专业书籍资源 涵盖机器人 自动驾驶 AI类基础技能树 [18][19] 职业发展辅助 - 汇总谈薪技巧 HR面常见问题 岗位薪资关键回答等实用内容 [17][19] - 包含转行经验 面试官建议 岗位复盘等宏观职业指导 [19] - 社区收费为每天0.3元 提供完整求职服务 [20]
基于LSD的4D点云底图生成 - 4D标注之点云建图~
自动驾驶之心· 2025-06-24 20:41
4D标注技术 - 4D标注指三维空间+时间维度,能映射到任意时刻生成单帧真值用于模型训练,相比传统单帧标注可降低标注成本并提高数据质量[3] - 专注于小区域静态和动态元素标注,需支持"单趟建图"、"多趟建图"和"重定位"等关键技术[3] - 需适配有GNSS的行车场景和无GNSS的泊车场景[3] LSD框架 - 开源算法框架LSD整合数据采集、传感器标定、SLAM建图定位和障碍物检测功能,支持激光雷达4D点云底图生成[3][4] - 采用FASTLIO作为前端激光里程计,后端基于G2O融合GNSS观测和回环检测实现位姿图优化[7] 单趟建图技术 - 通过单次采集数据构建时空连续的高精度点云底图,适用于高速高架场景标注[5] - 采用FASTLIO前端里程计,后端融合GNSS观测和回环检测,优化GNSS异常点处理[7] - 处理GNSS异常点的两种策略:延迟使用(GNSS状态保持FIX 10秒才启用)和DCS鲁棒核函数(动态调整GNSS权重)[8][9][12] 雷达里程计退化处理 - 基于LOAM和X-ICP方法实现退化检测,通过特征贡献度分析识别退化方向[15] - 在隧道等退化场景中融合轮速传感器观测,提升纵向定位精度[17][18][19] GNSS杆臂误差校正 - 杆臂误差导致车辆转弯时点云重影,LSD将杆臂作为三维变量在PGO中估计[21][25][26] - 添加(0,0,0)先验约束解决不可观测性问题,优化后消除60cm错位[27][28][30] 回环检测与地图管理 - 通过GICP匹配实现地下停车场回环检测,减少里程计累积误差[31][32] - 采用ivox结构替代ikd-tree管理局部地图,通过LRU缓存和行驶距离约束避免重影[34][37] 多趟建图与地图合并 - 行车场景通过坐标系统一和GICP匹配优化合并多趟地图[40] - 泊车场景采用ScanContext+PCM算法估计坐标系变换矩阵实现无GNSS地图合并[42] 重定位应用 - 在标注真值底图上实现重定位以持续获取新数据标注,降低边际成本[44] - 采用固定真值地图关键帧节点的优化方案[44] 行业技术趋势 - 数据驱动算法推动4D标注需求增长,LSD框架提供开源解决方案[3][47] - 多传感器融合(激光雷达+GNSS+轮速)和退化场景优化成为技术重点[15][17][40]
大佬面对面!斯坦福2025 CS336课程全公开:从零开始搓大模型~
自动驾驶之心· 2025-06-24 19:47
课程概述 - 斯坦福大学2025年春季CS336课程「从头开始创造语言模型」已全面上线网络 提供完整课程视频和主页链接[2][4] - 课程目标为引导学生从零开发语言模型 覆盖预训练数据收集 Transformer构建 模型训练及部署评测全流程[5] 师资团队 - 核心讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究成果累计引用超3万次 研究方向聚焦机器学习模型性能权衡[3] - 联合讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超10万 主导多项AI领域研究项目[3] 课程模块 - 五大模块涵盖基础 系统 扩展 数据 对齐和推理强化学习 强调实践操作与深度技术掌握[7] - 实践要求包括Python编程能力 PyTorch熟练度 系统优化经验及数学基础(线性代数 概率统计等)[7] 实践作业 - 作业1要求实现BPE分词器 Transformer架构和Adam优化器 仅允许使用PyTorch原语进行模型训练[8] - 作业2聚焦GPU加速 需在Triton中实现Flash Attention 2及分布式并行优化[8] - 作业3涉及Scaling Law拟合 学生需在有限计算预算内通过训练API收集数据点[8] - 作业4侧重数据工程 要求完成Common Crawl数据清洗 去重及有害内容过滤[8] - 作业5要求实现监督微调 专家迭代等对齐技术 在Qwen 2 5 Math 1 5B模型上运行强化学习[8] 课程安排 - 18周课程包含16次讲座和2次嘉宾分享 内容覆盖分词 GPU并行 混合专家系统 推理优化等核心技术[9] - 作业周期与课程紧密衔接 例如第5周完成作业1提交后立即发布作业2 强化学习实践贯穿后期课程[9]
华为车BU招聘(端到端/感知模型/模型优化等)!岗位多多~
自动驾驶之心· 2025-06-24 15:21
华为车BU招聘信息 - 端到端模型算法工程师岗位职责包括模型设计开发部署迭代、现网问题优化、新算法预研落地及数据分布分析[1] - 感知模型算法工程师负责视觉感知神经网络设计开发部署迭代及长期研发[1] - 人脸状态监测算法工程师专注于驾驶员乘客姿态行为视线监测算法研发部署[1] - 模型效率优化岗位聚焦AI模型车端推理效率优化及压缩算法开发[1] 自动驾驶技术发展趋势 - 2025年技术基调确定为VLA(视觉语言动作)驱动的端到端2.0系统[9] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真及世界模型[9] - 技术迭代周期持续缩短,行业进入快速演进阶段[9] 自动驾驶之心知识星球概况 - 国内最大自动驾驶技术社区,成员近4000人[14] - 覆盖30+技术方向学习路线,包含感知定位规划控制等全栈内容[14] - 与数十家企业建立内推渠道,简历直达招聘方[14] - 每周活跃度居国内前20,日均成本不足1元[15] 技术资源体系 - 建立四大板块:学术进展追踪、专家答疑、内容下载、课程优惠[16] - 积累近5000份干货内容,每年举办100场行业直播[17] - 技术领域覆盖视觉大语言模型、世界模型、BEV感知等30+方向[19] - 视频直播涵盖50+子方向,年计划100场专业分享[21] 数据集与评估体系 - 视觉语言模型预训练数据集规模达5B图像文本对[29] - 自动驾驶专用数据集包含KITTI、NuScenes、Waymo等主流基准[34] - 语言增强驾驶数据集支持视觉问答、导航等复杂任务[35] - 评估指标覆盖图像分类、目标检测、语义分割等任务[30][33] 前沿技术应用 - 智能交通领域应用语言引导车辆检索、视觉问答等技术[36] - 自动驾驶感知方向实现开放词汇检测、语言引导跟踪等突破[37] - 定位规划领域探索语言条件导航、大模型轨迹生成等创新[38] - 决策控制方向开发基于LLM的可解释驾驶系统[39] 行业生态建设 - 嘉宾团队覆盖国内外顶尖高校和头部企业[112][114] - 成员来自地平线、蔚来、小鹏等企业及全球知名院校[117] - 日常维护包括论文分享、职位内推、技术问答等[120] - 持续邀请100+行业专家参与内容建设[112]