Autonomous driving

搜索文档
2025秋招开始了,这一段时间有些迷茫。。。
自动驾驶之心· 2025-07-08 15:53
自动驾驶行业就业趋势 - 双非研究生在自动驾驶和具身智能领域面临就业挑战,需提升技术实力和背景竞争力 [2] - 行业需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向,传统技术人才已相对饱和 [3] - 机器人/具身智能初创公司融资活跃,技术栈培养全面,深圳、杭州是产业聚集地 [3][4] 技术发展方向 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大前沿技术方向 [8] - 视觉大语言模型领域涵盖预训练、迁移学习、知识蒸馏等技术,涉及图像分类、文本检索、行为识别等任务 [10][13][14] - 世界模型在自动驾驶中实现3D场景理解和生成一体化,如HERMES、DrivingGPT等模型 [31][32] - 扩散模型应用于自动驾驶视频生成、3D视觉、轨迹预测等领域,技术成熟度快速提升 [33][35][40] 数据集与评估体系 - VLM预训练数据集规模从百万级到百亿级,如LAION5B含50亿图文对,WebLI含120亿数据 [16] - 自动驾驶专用数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,如NuScenes、Waymo Open Dataset等 [22][23] - 评估指标包括mAP(目标检测)、mIoU(语义分割)、Recall(文本检索)等,不同任务有标准化测试集 [17][20][21] 应用领域创新 - 智能交通领域采用语言引导的车辆检索技术,如Multi-granularity Retrieval System提升自然语言交互能力 [24] - 自动驾驶感知系统集成VLM技术,实现开放词汇检测(OpenScene)和语言引导3D检测(Language-Guided 3D Object Detection) [25] - 决策控制系统结合LLM,如GPT-Driver、DriveGPT4实现可解释的轨迹规划和运动控制 [26][27] 端到端自动驾驶进展 - 端到端方法整合感知、预测、规划模块,DriveGPT4、DriveMLM等模型实现行为状态对齐 [28][48] - 技术挑战包括长尾分布处理(BEVGPT)、开环控制优化(MiniDrive)和安全性验证(CAT) [50][56] - 行业报告指出端到端技术需平衡模块化与一体化,特斯拉FSD验证了大规模数据驱动的可行性 [45] 行业资源与社区 - 知识星球提供自动驾驶课程、硬件代码资料及招聘信息,已吸引华为天才少年等专家加入 [5][60] - GitHub资源库汇总Awesome系列,如Awesome-Diffusion-Models、Awesome-End-to-End-Autonomous-Driving等 [34][42] - 学术会议(CVPR、ICRA)设立自动驾驶专题研讨会,推动技术标准化和产学研合作 [46]
小马智行与迪拜道路交通管理局签署战略合作协议:首批车辆将于今年开启路测
IPO早知道· 2025-07-07 15:51
小马智行与迪拜合作推进Robotaxi商业化 - 公司与迪拜道路交通管理局签署战略合作协议 首批车辆将于2025年开启路测 2026年实现全无人商业化运营 [2] - 合作旨在推动L4级自动驾驶技术融入迪拜多模式交通体系 助力实现2030年自动驾驶出行占比达25%的战略目标 [4] - 迪拜方面表示此次合作将巩固其作为未来交通领域全球引领者的地位 赞赏公司选择迪拜作为全球业务拓展平台 [4] 合作具体规划与战略意义 - Robotaxi将分阶段落地运营 2025年启动路测 无缝对接地铁、有轨电车及海上航线等综合交通网络 [6] - 合作将实现"最先一公里和最后一公里"战略构想 提升居民与游客出行体验 保障道路安全 [6] - 公司CFO表示此次合作彰显了在全球战略市场落地Robotaxi的决心 将共同打造中东地区智能交通标杆 [6] 公司技术进展与全球布局 - 第七代Robotaxi采用100%车规级零部件 显著提升成本效益和跨平台适应性 [7] - 公司与Uber建立战略合作 在欧洲、亚洲等多地推进自动驾驶出行服务 包括卢森堡道路测试、新加坡商业化运营及首尔路测 [7] - 国际化进展展现出公司具备服务全球交通体系的成熟度 正赢得国际市场认可 [7] 迪拜自动驾驶战略规划 - 迪拜智能自动驾驶交通战略目标为2030年前将25%出行方式转化为自动驾驶行程 [5] - 迪拜正着力打造智慧城市范本 将自动驾驶列为城市数字化转型的关键支柱 [6] - 政府通过许可审批和监管机构 构建配套基础设施并健全立法与监管体系 [5]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-06 16:44
视觉大语言模型 - 视觉大语言模型在智能交通和自动驾驶领域有广泛应用,相关资源包括Awesome-VLM-AD-ITS和Awesome-LLM-Inference等GitHub项目 [4] - 视觉语言模型的研究方向包括预训练、迁移学习、知识蒸馏等,涉及CVPR、ICLR、NeurIPS等多个顶会论文 [5][7][8] - 视觉语言模型的架构和推理策略有专门的研究,如Awesome-VLM-Architectures和Awesome-VLM-Inference-Strategies等项目 [4] 世界模型 - 世界模型在自动驾驶中的应用包括3D场景理解和未来场景生成,代表性工作有HERMES和DrivingGPT等 [9][10] - 2025年最新综述总结了自动驾驶中的世界模型研究现状 [10] - 世界模型在4D驾驶场景表示和规划中发挥重要作用,如DriveDreamer4D和DriveWorld等项目 [12][13] 扩散模型 - 扩散模型在自动驾驶视频生成和场景理解中有广泛应用,相关资源包括Awesome-Diffusion-Models等项目 [14] - 扩散模型在图像处理、视频编辑、3D视觉等领域都有专门研究,涉及多篇综述论文 [15] - 扩散模型与自动驾驶世界模型的结合是新兴研究方向,如DriveDreamer-2等项目 [13] 端到端自动驾驶 - 端到端自动驾驶研究涉及感知、预测、规划等多个环节,相关资源包括Awesome-End-to-End-Autonomous-Driving等项目 [21] - 端到端自动驾驶的最新进展在CVPR、ICRA、NeurIPS等顶会上有专门研讨 [21] - 端到端自动驾驶技术栈涵盖大模型、BEV感知、多传感器融合等30+方向 [19][21] 行业社区 - 自动驾驶行业有近4000人的交流社区,300+公司和科研机构参与 [19] - 社区覆盖30+技术方向的学习路线,从基础到前沿全面覆盖 [19] - 社区提供专业课程,涉及端到端自动驾驶、大模型、仿真测试等多个方向 [20][21]
肝了几个月!手搓了一个自动驾驶全栈科研小车~
自动驾驶之心· 2025-07-05 21:41
产品发布与定价 - 黑武士001自动驾驶教研小车正式开售,原价34999元,支付定金1000元可抵扣2000元[1] - 产品定位为面向科研与教学的轻量级全栈解决方案,支持感知、定位、融合、导航、规划等多功能平台[2] 产品功能与应用场景 - 测试场景覆盖室内、室外、地库等多种环境,功能包括点云3D目标检测、2D/3D激光建图、夜间行驶等[3][7][9][11][13][15][17] - 适用场景包括本科生学习比赛、研究生科研论文、高校实验室教具、职业培训等[5] - 支持2D/3D目标检测与分割、SLAM技术、车辆导航避障等24项核心功能[24] 硬件配置 - 主要传感器包括Mid 360 3D激光雷达(FOV360°*59°,测距0.1-40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m,精度≤2%)[17][27] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器,阿克曼底盘系统[17] - 车体尺寸620×400×320mm,自重30kg,最大载荷30kg,续航>4小时,最高速度2m/s[21] 软件系统 - 基于ROS框架开发,支持C++和Python语言编程[23] - 提供一键启动开发环境,包含深度相机驱动、手柄控制等脚本[33][38][39] - 支持通过rviz可视化工具实时监控传感器数据,如激光雷达点云等[36][43] 售后服务 - 提供1年非人为损坏保修服务,人为损坏可付费维修[46] - 提供完整产品说明书,涵盖硬件参数、软件配置及维修指南[23][26]
清华最新ADRD:自动驾驶决策树模型实现可解释性与性能双突破!
自动驾驶之心· 2025-07-04 18:27
自动驾驶决策系统发展现状 - 自动驾驶决策模块对可解释性要求日益提高,深度学习虽为主流方法但存在非分布场景性能下降、决策逻辑难解释等问题[1] - 基于规则的系统具备透明性优势,但依赖专家知识且对复杂环境适应性有限[1] ADRD框架核心创新 - 结合大语言模型(LLM)与规则决策系统,通过自然语言处理实现驾驶策略生成[2] - 框架包含信息模块(场景/规则转换)、代理模块(决策树构建)、测试模块(闭环验证)三部分[5][7] - 采用规划器-编码器-汇总器协作机制,支持策略生成、代码转换及迭代优化[7][13] 技术实现细节 - 规划器通过系统提示、驾驶目标、历史记录生成策略,示例显示变道决策优先考虑左车道安全性[8][9][10] - 编码器将文本策略转为可执行代码,决策树可视化便于专家调试[16] - 汇总器分析碰撞报告定位策略或代码问题,实现闭环改进[19] 实验验证结果 - 在Highway-v0场景测试中,ADRD平均安全驾驶时间达25.15秒(普通密度),显著优于PPO(10.9秒)和DiLu(23秒)[21][22] - 极端密度(3.0)下仍保持13.55秒安全驾驶时间,控制效率达<1.0×10^-6秒/指令[22] - 激进风格决策树深度比保守风格增加37%,反映不同驾驶偏好对策略复杂度的影响[23] 行业应用价值 - 框架同时解决传统方法在性能、响应速度(推理效率提升1000倍)和可解释性上的缺陷[26] - 决策树结构支持人工干预,为自动驾驶系统调试提供新范式[12][16]
肝了几个月,新的端到端闭环仿真系统终于用上了。
自动驾驶之心· 2025-07-03 20:41
技术突破与创新 - 神经场景表征发展中出现Block-NeRF等方法,但无法处理动态车辆,限制了自动驾驶环境仿真的应用 [2] - 浙大提出Street Gaussians技术,基于3DGS开发动态街道场景表示,解决训练成本高和渲染速度慢的问题,实现半小时内训练并以135 FPS速度渲染1066×1600分辨率图像 [2] - 动态场景表示为静态背景和移动车辆的点云组合,每个点分配3D高斯参数(位置、不透明度、协方差)和球面谐波模型表示外观 [3][4] - 背景模型使用世界坐标系点云,每个点包含3D高斯参数(协方差矩阵、位置向量)、不透明度、球面谐波系数和3D语义概率 [8] - 物体模型引入可学习跟踪车辆姿态,局部坐标系定义的位置和旋转通过跟踪姿势转换到世界坐标系,并采用4D球谐函数解决移动车辆外观建模的存储问题 [11][12] - 使用LiDAR点云初始化场景表示,对稀疏区域结合SfM点云补充,物体模型初始化采用3D边界框内聚合点或随机采样 [17] 算法优化与效果 - 4D球谐函数有效消除动态场景渲染中的伪影,提升外观建模准确性 [16] - 静态场景重建通过体素下采样和可见性过滤优化点云初始化,动态场景重建利用可学习姿态参数解决跟踪噪声问题 [17][11] - 自动驾驶场景重建实现动静态物体分解,支持场景编辑和闭环仿真应用 [43] 行业应用与课程 - 3DGS技术已衍生多个子方向(4D GS、场景编辑等),在自动驾驶仿真闭环中具有重要应用价值 [23][43] - 业内推出首门3DGS全栈实战课程,覆盖视觉重建基础、静态/动态场景重建、自动驾驶场景优化等模块,结合代码实战与论文带读 [26][33][35][37][39][41][43][45][47] - 课程由头部自动驾驶公司算法专家设计,目标培养学员掌握3DGS核心理论、前沿算法及实际应用能力 [50][53][54]
佑驾创新拟通过配售募资约1.58亿港元,用于中高阶辅助驾驶扩张与L4落地
IPO早知道· 2025-07-03 12:08
融资与资金用途 - 公司拟以每股23.26港元配售680万股,募资约1.58亿港元,配股价较上一日收市价27.30港元折让约14.80%,配售股份相当于经扩大化后已发行股份数目约1.67% [2] - 配售所得款项净额约1.55亿港元,其中40%用于提升智能驾驶解决方案功能表现和满足中高阶辅助驾驶项目规模化落地需求,30%用于L4级自动驾驶技术升级,20%用于探索战略伙伴及收购机会,10%用作运营资金 [2] 业务与技术优势 - 公司是智能驾驶及座舱解决方案供应商,提供领航、泊车和舱内功能解决方案,具备算法开发、软件工程和硬件设计全栈自研能力 [3] - 全栈自研优势使公司在中高阶辅助驾驶项目中更具竞争力 [3] - 受2025以来整车厂智驾平权战略推动,中高阶辅助驾驶需求快速增长,公司承接的中高阶辅助驾驶项目同比显著增长,L4自动驾驶项目需求今年爆发 [3] 业务进展与客户合作 - 智能驾驶及智能座舱两大核心业务上半年收获多个定点项目,客户包括长安汽车、上汽大通、全球知名车企旗下合资品牌和豪华品牌 [4] - 近期获得老客户复购,为某款中大型豪华越野车型提供iPilot 4软硬一体辅助驾驶域控制器 [4] - L4业务持续突破,无人小巴在苏州完成首次交付,并获得中国电信项目定点 [4] 市场认可与投资者信心 - 基石投资者康成亨国际在解禁期承诺"3个月内零减持、9个月内减持不超10%",释放长期信心 [4] - 中信里昂、光大证券、国证国际分别给予公司"优于大市"、"增持"及"买入"评级 [5] - 中信里昂预计公司2024-2027财年总收入复合年增长率将达49%,目标价32.00港元 [5]
自动驾驶论文速递 | 世界模型、VLA综述、端到端等
自动驾驶之心· 2025-07-02 15:34
世界模型Epona - 地平线、清华、北大等团队在ICCV'25中稿的自回归扩散世界模型工作,可以不依赖视频预测独立输出轨迹规划 [2] - 算法框架采用自回归扩散模型,实现长时间生成和实时轨迹规划 [3] - 实验结果:FID T为7.5,FVD T为82.8,最大持续时间达120秒/600帧,显著优于对比模型DriveGAN、DriveDreamer等 [5] - 核心优势:实现2分钟长时间生成,20Hz实时轨迹规划,连续视觉标记器保留丰富场景细节 [6] 视觉-语言-动作模型综述 - 麦吉尔大学、小米等团队发布VLA模型综述,涵盖DriveGPT-4、ADriver-I等15种模型 [13] - 模型对比表显示:输入类型包括单/多模态,数据集涵盖BDD-X、nuScenes等,输出包含轨迹规划(LLC/Traj) [18] - 最新模型如OpenDriveVLA(2025)支持2D/3D对齐,ORION(2025)实现连续动作推理 [18] StyleDrive基准测试 - 清华AIR等团队提出驾驶风格感知的端到端自动驾驶评测框架 [20] - 基于规则的驾驶风格分类标准覆盖10种交通场景,包括车道跟随、交叉路口等场景的动态特征 [22] - 实验结果:DiffusionDrive-Style模型表现最佳,SM-PDMS达84.10,优于TransFuser(81.09)和WoTE(81.38) [23] 技术社区推广 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息 [9] - 社区目标3年内建成万人规模,已吸引华为天才少年等专家加入,形成"课程+硬件+问答"闭环 [25]
时序融合等价梯度下降?GDFusion刷新OCC SOTA !显存大降七成~
自动驾驶之心· 2025-07-01 20:58
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 澳门大学X 武汉大学 最新的工作! 时序融合等价于 梯度下降?GDFusion 刷新 OCC 性能 SOTA,显存还大降72%! 如果您有相关工 作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Dubing Chen等 编辑 | 自动驾驶之心 一句话总结:来自澳门大学等机构的研究者提出了一种全新的时序融合框架GDFusion。它通过一个极其巧 妙的视角——将传统RNN更新过程重新诠释为"特征空间上的梯度下降",成功统一了多种异构时序信息的 融合。GDFusion不仅在3D占用栅格预测任务上取得了1.4%-4.8%的mIoU提升,更惊人地将推理显存消耗 降低了27%-72%,实现了性能和效率的双赢。 论文标题 :Rethinking Temporal Fusion with a Unified Gradient Descent View for ...
Pony AI: Bullish On This Horse Race
Seeking Alpha· 2025-07-01 11:58
公司概况 - Pony AI是一家近期在纳斯达克上市的公司 专注于自动驾驶技术领域 是该行业的全球领导者 [1] - 自动驾驶技术的开发和商业化仍处于广泛应用的早期阶段 存在大量未开发的市场机会 [1] 行业现状 - 自动驾驶技术目前处于行业发展初期 商业化应用尚未大规模普及 [1] - 该行业具有广阔的发展前景和未开发的市场空间 [1]