自动驾驶之心

搜索文档
小导想让我手搓一台自驾小车,看到了这个就不想动手了......
自动驾驶之心· 2025-08-05 11:09
产品概述 - 黑武士001是自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,采用阿克曼底盘 [1] - 产品面向科研&教学级自动驾驶全栈小车市场,原价36999元,现赠送3门课程(模型部署+点云3D检测+多传感器融合)[1] - 产品支持二次开发和改装,预留了众多安装位置和接口,可加装相机、毫米波雷达等传感器 [2] 目标用户群体 - 本科生学习进阶与比赛 [2] - 研究生科研与论文发表 [2] - 研究生求职与项目经验积累 [2] - 高校实验室教具 [2] - 培训公司/职业院校教具 [2] 硬件配置 - 主要传感器包括:Mid 360 3D激光雷达、镭神智能2D激光雷达、奥比中光深度相机(自带IMU)[10] - 主控芯片采用Nvidia Orin NX 16G,配备1080p显示器 [10] - 底盘系统为阿克曼底盘,结构系统采用钣金件,硬铝+发黑处理 [10] - 车体尺寸620 x 400 x 320mm(长宽高),自车重量30kg,最大运动速度2m/s [12] 软件功能 - 支持ROS、C++、python语言框架,提供开发环境 [14] - 功能包括:2D/3D目标检测与分割、SLAM建图(2D/3D激光、视觉、惯性等)、点云处理、车辆导航与避障等 [15] - 支持一键启动,提供完整的开发环境配置 [14][24] 应用场景测试 - 已测试室内、室外、地库等多种场景下的感知、定位、融合、导航规划等功能 [4] - 具体测试场景包括:户外公园行驶、室内地库2D/3D激光建图、上下坡测试、室外大场景3D建图、室外夜间行驶等 [6][7][8][9][10] 售后服务 - 提供1年售后支持(非人为损坏),邮费由用户承担 [37] - 保修期内因操作失误/修改代码等个人原因导致损坏的,提供免费维修服务 [37]
面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)
自动驾驶之心· 2025-08-05 07:33
端到端自动驾驶技术演进 - 端到端自动驾驶方案在单一模型中完成从感知到规划的全过程,相比传统模块化方案减少了信息损失并简化了系统架构 [3] - 视觉-语言-动作(VLA)模型通过引入大语言模型的推理能力,在复杂场景理解和决策方面表现优于传统方法 [3] - 近期研究如SOLVE、OpenDriveVLA结合大模型技术,显著提升了系统性能和可解释性 [9] VLA模型的计算挑战与剪枝需求 - VLA模型将输入图像编码为大量视觉token(如3249个),导致高昂计算开销和推理延迟 [4] - 现有剪枝方法包括注意力机制导向法(如FastV、SparseVLM)和相似度导向法(如VisPruner、DivPrune),但存在监督信息不足或误删关键token的问题 [4][14] - 驾驶场景中文本指令固定且简短,难以提供有效剪枝指导 [4] FastDriveVLA创新框架 - 提出重建式视觉token剪枝框架,核心思想是模仿人类驾驶行为,仅保留与决策相关的前景区域token [5] - 开发即插即用剪枝器ReconPruner,参数量仅0.07B,通过MAE风格像素重建任务训练 [17][19] - 引入对抗式前景-背景重建策略,强制低分token重建背景以防止模型退化 [5][20] nuScenes-FG数据集构建 - 基于nuScenes数据集使用GroundedSAM进行精细前景分割,涵盖人、道路、车辆等关键要素 [12][15] - 包含24.1万张图像-mask对,覆盖六个车载摄像头视角 [6][15] - 明确定义前景与背景区域,背景如建筑物、天空等不影响驾驶决策 [12] 实验性能表现 - 在50%剪枝比例下(保留1624个token),L2误差为32.10cm(相对性能保持99.1%),碰撞率0.25%(保持97.3%) [30][32] - 在25%剪枝比例下(保留2436个token),L2误差31.80cm(超过基线0.1%),碰撞率0.26%(超过基线1.0%) [30] - 在75%剪枝比例下(保留812个token),仍保持最优性能,L2误差32.64cm(保持97.5%) [30] 效率提升效果 - FLOPs降低7.5倍,从38.2T减少至5.1T [37][40] - Prefill延迟减少3.7倍,从187ms/token降至51ms/token [37][40] - Decode延迟减少1.3倍,从23ms/token降至18ms/token [37][40] 方法优势验证 - 消融实验表明像素重建与对抗策略结合效果最佳,单独使用任一策略性能下降 [31][32] - 相比前景掩码剪枝方法(Gt-mask+Text-attn),在50%剪枝率下L2误差降低0.06cm,碰撞率降低0.01% [33][35] - 可视化结果显示能精确保留车道、车辆等关键token,避免背景干扰 [38][46] 行业应用价值 - 为VLA模型高效推理提供新范式,特别适用于具有明确前景区域的自动驾驶任务 [43] - 构建的nuScenes-FG数据集为后续研究提供通用基准 [13][43] - 轻量级设计(0.07B参数)和短训练时间(3小时/2卡H800)利于实际部署 [17][27]
自动驾驶下半场 - 千万级自动标注量产泛化的困局。。。
自动驾驶之心· 2025-08-05 07:33
智能驾驶行业趋势 - 智能驾驶进入下半场,核心转向千万级4D自动标注的量产泛化能力,高阶智驾需求推动行业对数据质量和数量的要求显著提升[2] - 端到端、大模型、VLA等技术发展使传统人工标注效率无法满足量产需求,4D自动标注成为行业刚需[2] - 云端模型算法工程师薪资达百万级,反映技术人才供需失衡[2] 4D自动标注技术难点 - 时空一致性要求极高:需在连续帧中精准追踪动态目标运动轨迹,复杂场景下的遮挡、形变易导致标注断裂[4] - 多模态数据融合复杂:需同步激光雷达、相机、雷达等多源传感器数据,解决坐标对齐、语义统一和时延补偿问题[5] - 动态场景泛化难度大:交通参与者行为不确定性(如急刹、变道)及环境干扰(光照变化、恶劣天气)增加标注模型挑战[5] - 标注效率与成本矛盾:高精度4D标注依赖人工校验,海量数据导致周期长、成本高,自动化算法在复杂场景精度不足[5] 4D自动标注课程核心内容 - 动态障碍物标注:涵盖3D目标检测算法(如SAFDNet)、多目标跟踪(轨迹生命周期管理、ID跳变优化)、传感器遮挡优化等实战内容[9] - 激光&视觉SLAM重建:讲解重建算法基本模块、Graph-based激光SLAM算法及在4D标注中的应用[10] - 静态元素标注:基于SLAM重建图实现全局道路信息标注,避免单帧感知偏差[12] - 通用障碍物OCC标注:解析特斯拉Occupancy Network量产方案,涵盖Lidar/视觉真值生成流程及工程优化[13][14] - 端到端真值生成:整合动态障碍物、静态元素、可行驶区域、自车轨迹,结合DrivingGaussian算法实现闭环仿真[15] 行业痛点与解决方案 - 量产场景泛化是当前最大痛点:需解决不同城市、道路、天气条件下的数据挖掘与标注算法性能保障[5] - 数据闭环迭代效率受限于标注瓶颈,直接影响自动驾驶系统安全性与泛化能力[5] - 行业主流公司采用数据驱动架构,但跨传感器/跨感知系统协同仍存在技术挑战[17] 技术人才需求 - 课程面向高校研究人员、企业技术骨干及转行人员,要求具备深度学习、Transformer模型及PyTorch基础[21][25] - 课程目标包括掌握4D标注全流程、工业界前沿算法及实际工程问题解决能力,提升就业竞争力[22]
自动驾驶秋招&社招求职群成立了!
自动驾驶之心· 2025-08-05 07:33
自动驾驶技术趋势 - 自动驾驶技术栈呈现趋同态势,从过去分散的几十个方向逐渐向统一方案演进 [1] - 当前技术发展重点集中在one model、VLM(视觉语言模型)、VLA(视觉语言行动模型)等统一架构 [1] - 技术方案统一化背后反映出行业技术壁垒的显著提升 [1] 行业社群发展 - 行业社群定位为综合型平台,旨在汇集自动驾驶全产业链人才 [1] - 社群主要功能包括产业动态讨论、公司分析、产品研发交流、求职与职业发展等内容 [1] - 社群运营目标是通过资源共享帮助从业者成长,并建立行业人脉网络 [1]
浙大MambaMap:基于状态空间模型的在线矢量高精地图构建
自动驾驶之心· 2025-08-05 07:33
技术框架创新 - 提出MambaMap框架 利用状态空间模型高效融合长距离时间信息实现在线矢量高精地图构建[4][5] - 引入门控机制在BEV特征级和实例查询级进行高效信息选择与集成[5] - 设计多向扫描策略和时空扫描策略分别增强BEV级和实例级特征提取能力[5][18] 性能表现优势 - 在60×30m感知范围下 mAP达到64.9% 超越VectorMapNet的37.9%和StreamMapNet的61.1%[11] - 在100×50m扩展范围下 mAP达到60.7% 优于StreamMapNet的57.9%[11] - 在nuScenes数据集上mAP达40.1% 显著超过MemFusionMap的38.0%和SQD-MapNet的37.3%[12] - 在Argoverse2数据集上mAP达61.0% 与MemFusionMap的60.6%和SQD-MapNet的60.6%相比保持领先[12] 模块有效性验证 - 同时使用BMF和IMF模块时mAP达67.3% 相比单独使用任一模组提升显著[14] - 多向扫描策略使BMF模块mAP提升至67.3% 较单向扫描的64.9%提高2.4个百分点[16] - 时空扫描策略在IMF模块实现最佳效果 具体指标未完整呈现但显示优化趋势[16] 计算效率特征 - 处理帧率为13.6 FPS 与主流方法如StreamMapNet的15.9 FPS和SQD-MapNet的15.4 FPS处于同一量级[11] - 采用动态记忆机制以最小计算开销捕获长距离依赖关系[18] - 框架具备强鲁棒性和泛化能力 适用于多种自动驾驶场景[18]
暑期打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛报名即将截止~
自动驾驶之心· 2025-08-04 15:31
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术 旨在推动自动驾驶 智慧城市 机器人等场景的应用突破[4][5] - 核心目标包括推动高效高质量的空间智能技术研究 探索强化学习与计算机视觉等前沿方法创新 促进神经渲染与机器人抓取等应用落地[7] 组织架构 - 主办方包括北京科技大学 清华大学 中国科学院自动化研究所等顶尖机构 技术赞助由九章云极科技提供[9] - 指导专家团队由张兆翔 鲁继文 殷绪成等学界权威组成 确保竞赛专业度[9] 赛制设计 - 设置双赛道:空间智能赛道考核多视角航拍图像三维重建 具身智能赛道测试动态遮挡环境下的机器人抓取能力[20] - 评价体系差异化:空间智能侧重渲染质量(PSNR)与几何精度(F1-Score) 权重6:4 具身智能关注任务完成度(成功率)与执行效率(路径效率) 权重5:5[22][23] 资源支持 - 提供500-1000张1k分辨率无人机航拍图及仿真环境数据集 九章云极赞助8卡H800 GPU算力验证[14][15] - 算力优惠政策:新用户享6元/度体验价 H800 8卡月租4.2万元 显著降低参赛成本[16][17] 赛事日程 - 6月10日发布赛题 8月10日截止报名 9月30日完成评审 10月15日PRCV大会颁奖[13] - 允许2次结果更新 需提交技术报告说明方法细节 最终成绩前20名可获排名积分[26] 奖项设置 - 单赛道设一等奖(6000元+500度算力券) 二等奖(3000元+200度) 三等奖(1000元+100度) 优胜奖(500元+50度)[25][27] - 所有获奖团队将获得PRCV 2025组委会认证证书 奖金及算力券由九章云极全额赞助[27]
机器人不只会抓和放!北大x银河通用「世界-动作模型」来了
自动驾驶之心· 2025-08-04 15:31
点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本文的作者团队来自北京大学和银河通用机器人公司。第一作者为北京大学计算机学院前沿计算研究中心博士生吕江燃,主要研究方向为具身智能,聚焦于世 界模型和机器人的灵巧操作,论文发表于 ICCV,TPAMI,RSS,CoRL,RAL 等机器人顶会顶刊。本文的通讯作者为北京大学计算机学院教授王亦洲和 北京 大学助理教授、银河通用创始人及CTO 王鹤。 尽管当前的机器人视觉语言操作模型(VLA)展现出一定的泛化能力,但其操作模式仍以准静态的抓取与放置(pick-and-place)为主。相比之下,人类在操作物 体时常常采用推动、翻转等更加灵活的方式。若机器人仅掌握抓取,将难以应对现实环境中的复杂任务。例如,抓起一张薄薄的银行卡,通常需要先将其推到桌 边;而抓取一个宽大的盒子,则往往需要先将其翻转立起(如图 1 所示): 这些技能都属于一个重要的领域:非抓握操作(Non-prehensile Manipulation) ...
CVPR 2025中稿新高的背后,录用率却仅22.1%。。。
自动驾驶之心· 2025-08-04 11:23
AI顶会投稿现状与痛点 - 2025年AI顶会投稿量爆炸式增长 CVPR投稿量达1 3万篇但录用率仅22 1% 反映学术竞争白热化 [1] - 审稿质量出现显著滑坡 NeurIPS出现将Adam优化器误认为"陌生人名"的离谱审稿意见 该算法被引量超22万次 [1] - 19篇CVPR论文因审稿人滥用AI生成意见遭"连坐拒稿" 暴露审稿机制漏洞 [1] 论文被拒核心原因 - 60%的Desk Reject源于期刊方向匹配错误 显示学者对期刊定位理解不足 [3] - 65%拒稿因方法学漏洞和实验不可复现 反映科研严谨性缺失 [1][3] - 78%论文因写作问题被拒 包括逻辑混乱和"不会讲故事"等表达缺陷 [1][3] - 23%初审淘汰源于格式错误等流程性失误 凸显投稿规范意识薄弱 [2] 学术辅导服务优势 - 公司拥有300+专职导师团队 均来自QS前100高校 发表过顶会/子刊论文 覆盖自动驾驶等前沿领域 [4] - 近3年辅导400+学员 中稿率高达96% 提供从选题到投稿的全流程服务 [4][11] - 采用精准匹配系统 根据研究方向/目标期刊筛选3-5位导师 支持不满意更换 [18] - 优秀学员可获清北/MIT推荐信 并内推至阿里达摩院等企业研发岗 [19] 服务内容与形式 - 提供科研思维训练 经典算法体系构建 代码实践结合等系统化培养 [9][12] - 课程形式包括1v1在线教学 微信群答疑 录播回看等 配备班主任全程督学 [15][17] - 零基础学员可通过6个月系统训练产出小论文 包含文献带读等基础课程 [18]
厘米级精度重建!最强性价比3D激光扫描仪~
自动驾驶之心· 2025-08-04 11:23
产品概述 - GeoScan S1是一款面向工业场景和教研场景的高性价比3D激光扫描仪,具备轻量化设计和一键启动功能,提供高效实用的三维解决方案 [1] - 产品以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构 [1] - 设备自带手持Ubuntu系统和多种传感器设备,手柄集成电源,可为雷达、摄像头及主控板供电 [3] 核心技术参数 - 扫描性能:每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景 [1][29] - 精度指标:相对精度优于3cm,绝对精度优于5cm [22] - 同步技术:采用微秒级数据同步技术,实现多传感器融合 [34][35] - 传感器配置:集成3D激光雷达、9DOF IMU、双广角相机、深度相机等丰富传感器资源 [13] 硬件配置 - 尺寸:14.2cm * 9.5cm * 45cm,重量1.3kg(不含电池)/1.9kg(含电池) [22] - 计算单元:Intel N5095处理器,4核2.0GHz(睿频2.9G),16G内存/256G存储 [22] - 电源:88.8Wh弹夹电池,续航约3-4小时 [22][26] - 接口:配备千兆网口、双USB 3.0、Micro SD等扩展接口 [22][23] 软件功能 - 支持实时解算和预览,可输出pcd、las、plv等多种通用格式 [22] - 提供快速建图、彩色点云建图、数据录制等多种软件功能 [42][43] - 支持ROS系统,运行于Ubuntu 20.04环境 [22] - 3DGS版本支持离线/在线渲染,实现高保真实景还原 [6][7][50] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等多种复杂场景 [38][46] - 可应用于地理信息采集、工程监控、文物保护、虚拟开发等领域 [52][54] - 支持跨平台集成,适配无人机、无人车、机械狗等多种负载平台 [44] 产品版本与定价 - 基础版:19800元,含主机、软件和RTK配件 [57][58] - 深度相机版:23800元,增加深度相机 [57][58] - 3DGS在线版:39800元,含云服务(续费5000元/月) [57][58] - 3DGS离线版:67800元,含本地渲染软件 [57][58] 研发背景 - 由同济大学刘春教授团队和西北工业大学产业化团队联合开发 [9] - 基于多年科研积累和上百个项目验证 [9] - 采用自研多传感器融合SLAM算法和高精度IMU模块 [34]
性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV'25)
自动驾驶之心· 2025-08-04 07:32
核心观点 - 上海科技大学与香港中文大学联合提出的ReAL-AD框架通过模拟人类"策略-战术-操作"三层级联推理机制,显著提升端到端自动驾驶的决策能力 [3] - 该框架引入视觉-语言模型(VLM)作为"副驾驶",将环境感知转化为结构化推理指令,实现从语义策略到可执行轨迹的分层解码 [3][5] - 在nuScenes和Bench2Drive数据集测试中,ReAL-AD的L2误差和碰撞率比基线模型降低超30%,驾驶评分提升11% [36][37][39] 技术架构 策略推理注入器 - 采用VLM生成驾驶策略文本(如"看到足球→可能有小孩→需减速避让"),通过预训练语言编码器映射至语义空间 [7][11] - 设计轻量级adaptor模块弥合语义空间与视觉特征的差距,使用余弦相似度损失确保策略语义与规划动态一致 [12] 战术推理整合器 - 将抽象策略转化为结构化指令,包括方向、紧急、车道、速度四类可执行命令 [15][17] - 通过正则表达式解析VLM输出,并采用类别特定编码器生成反应层(方向/紧急)与监管层(车道/速度)指令 [16][19] 分层轨迹解码器 - 第一层解码器基于反应级指令生成粗略运动模式(潜码z^ε),第二层融合监管级指令输出精细轨迹 [22][25] - 采用双潜变量流处理时间维度,粗粒度流预测宏观运动模式,细粒度流生成精确航点序列 [27] 性能表现 开环评估 - 在nuScenes数据集实现0.48米平均L2误差(行业基线0.72米)和0.15%碰撞率(基线0.22%) [36][38] - Bench2Drive数据集上达到0.84米L2误差,较VAD基线提升10.6% [39] 闭环评估 - 驾驶评分提升至41.17(基线39.42),成功率提高1.36个百分点 [39] - 使用Qwen-VL模型时保持0.87米L2误差,验证框架兼容性 [39] 技术创新 - 首创策略-战术双阶段指令生成机制,使VLM输出可直接指导轨迹规划 [14][19] - 分层变分解码器实现人类式"先直觉反应后精细调整"的决策过程,较传统MLP解码器降低7%轨迹误差 [25][41] - 复合损失函数整合策略语义对齐、轨迹编码监督和分层KL散度约束,优化端到端训练效果 [29][31][33]