Workflow
自动驾驶之心
icon
搜索文档
还不知道研究方向?别人已经在卷VLA了......
自动驾驶之心· 2025-07-21 13:18
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化架构但存在黑箱问题和泛化能力限制,如NVIDIA DAVE-2和Wayve的模仿学习方案 [2] - VLA范式通过语言桥梁结合视觉与行为,提升可解释性并注入LLM的世界知识,解决长尾场景处理难题 [2][3] VLA模型核心优势 - 实现自然语言决策解释(如减速原因分析),增强系统透明度 [2] - 利用LLM预训练的常识理解复杂场景(如施工区域需慢行) [3] - 支持自然语言交互(如"找充电站"指令),推动人性化驾驶体验 [3] 科研辅导课程设计 - 12周在线科研+2周论文指导+10周维护期,覆盖经典与前沿论文分析及代码实践 [6] - 提供baseline代码(如DiffusionDrive、OpenDriveVLA等)和公开数据集(nuScenes、Waymo) [15][17] - 采用"2+1"多师制团队,主导师为名校教授,副导师为博士/硕士,配备督学班主任 [14] 学员能力培养目标 - 掌握VLA算法理论与创新思路,完成论文初稿 [12] - 获得选题方法、实验设计及投稿建议,强化PyTorch和Python实战能力 [7][13] - 基础要求包括深度学习基础、自动驾驶算法了解及8张4090显卡硬件配置 [13] 关键学术资源 - 必读论文包括Senna、OpenDriveVLA等5篇顶会论文,聚焦VLA与自动驾驶结合 [18] - 课程产出含结业证书、推荐信及论文初稿,助力留学申请与职业发展 [14]
自动驾驶论文速递 | 世界模型、端到端、VLM/VLA、强化学习等~
自动驾驶之心· 2025-07-21 12:14
Orbis模型技术突破 - 弗莱堡大学提出基于流匹配的连续自回归世界模型Orbis,在仅使用280小时单目视频数据和4.69亿参数条件下实现长时程预测性能突破 [1] - 在nuPlan数据集上FVD指标降至132.25(6秒预测),转弯场景轨迹精度(Frechet Precision)提升至0.47 [1] - 设计混合离散-连续tokenizer实现两种建模方法的公平对比,发现连续建模在长视野预测中显著优于离散建模 [2] - 模型在复杂驾驶场景(如转弯、城市交通)中表现突出,超越Cosmos、Vista等基线模型 [6][8] LaViPlan框架创新 - ETRI团队提出基于可验证奖励强化学习(RLVR)的语言引导视觉路径规划框架 [12] - 在ROADWork数据集上将轨迹预测ADE降低19.91%(Easy场景)和14.67%(Hard场景) [12] - RLVR使模型输出从语言忠实性转向功能准确的轨迹,揭示语义相似性与任务特定推理间的权衡 [14] - 相比监督微调需显著更少的训练样本,在强化阶段纳入硬案例能实现更好的泛化能力 [15] 世界模型驱动的场景生成 - 澳门大学团队提出世界模型驱动的驾驶场景生成框架与增强动态图卷积网络 [23] - 在DAD数据集上实现83.2% AP(提升7.0%)和3.99秒mTTA(提升9.1%) [23] - 发布包含4800样本的AoTA数据集,环境因素分布比DAD数据集更平衡 [32] - 利用视觉语言模型提取事故相关领域特征,生成保留原始特征分布的合成场景 [28] ReAL-AD类人推理框架 - 上海科大与港中文提出通过视觉语言模型驱动三层人类认知决策的端到端自动驾驶框架 [33] - 在nuScenes和Bench2Drive数据集上将规划精度(L2误差)提升33%、碰撞率降低32% [33] - 驾驶安全分数提升至41.17,战略推理注入器构建高层驾驶策略,战术推理整合器细化战术选择 [39][42] - 分层轨迹解码器将战术决策转化为精确控制动作,验证了各组件的有效性 [39]
秋招上岸小厂,心满意足了。。。
自动驾驶之心· 2025-07-20 20:47
行业现状与趋势 - 自动驾驶和具身智能成为AI技术发展的主线 支撑了近一半的技术路线和融资金额 [2] - 行业从L2到L4功能逐步量产 人形机器人及四足机械狗等具身智能产品实现复杂动作 [2] - 自动驾驶行业趋于饱和 2023年校招竞争激烈 部分求职者直至10月仍未获offer [2] 求职社区服务 - AutoRobo知识星球成立半年 专注自动驾驶、具身智能、机器人领域求职 成员近1000人 [2] - 社区覆盖地平线、理想汽车、华为、小米汽车等企业员工及2024-2025届校招求职者 [2] - 提供面试题库、面经、行业研报、谈薪技巧、内推资源及简历优化等全链条求职服务 [3][4][9][17][21][24] 技术领域细分资源 自动驾驶方向 - 毫米波视觉融合、4D雷达量产、BEV感知等10大专题 每专题含100个实战问题 [10] - 覆盖传感器标定、多模态目标检测、CUDA部署等关键技术节点 [10] 具身智能方向 - 包含VLA(视觉语言导航)、Diffusion Policy等前沿技术面试题库 [11][14] - 提供人形机器人量产硬件、技术路线及创投趋势等深度研报 [15][19] 实战案例库 - 整理滴滴、英伟达、美团等20+企业面经 涵盖算法、SLAM、产品等岗位 [20] - 收录决策规划控制、行为预测等岗位从一面到三面的完整面试流程 [20] - 汇总转行经验、面试官建议、谈薪策略等非技术类求职技巧 [24] 行业认知工具 - 发布《世界机器人报告》《中国人形机器人发展蓝皮书》等权威行业分析 [15][19] - 研报内容覆盖产业链上下游、技术发展状态及市场前景研判 [15][19] 会员服务价值 - 每日成本0.3元 提供岗位匹配、企业直推等高效求职解决方案 [25]
面试了很多端到端候选人,还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-20 16:36
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可冲击百万年薪 [2] - 核心优势在于直接从传感器输入到车辆规划/控制信息的直接建模 避免了传统模块化方法的误差累积 BEV感知技术实现了模块间的统一视角 [2] - UniAD模型统一了感知和规划任务 标志着端到端时代的来临 但并非最终解决方案 后续涌现出多种技术流派 [2][4] 主要技术流派 - **二段式端到端**:以PLUTO为代表 专注于用模型实现自车规划 [4] - **一段式端到端**: - 基于感知的方法:以UniAD为代表持续发展 [4] - 基于世界模型的方法:以OccWorld为代表开创新流派 [4] - 基于扩散模型的方法:以DiffusionDrive为代表实现多模轨迹预测 [4] - **VLA方向**:大模型时代下的端到端新方向 结合视觉语言模型技术 [4][22] 行业应用与人才需求 - VLA/VLM大模型算法专家岗位薪资达40-70K*15薪 博士应届生可达90-120K*16薪 [9] - 技术岗位覆盖感知算法、模型量化部署等多方向 实习岗位日薪220-400元 [9] - 主机厂已开展端到端算法预研和量产交付 形成完整技术落地闭环 [25] 技术发展挑战 - 需同时掌握多模态大模型、BEV感知、强化学习、扩散模型等跨领域知识 [14] - 论文数量繁多且知识碎片化 缺乏系统性学习框架和实战指导 [14] - 高质量文档稀缺 提高了技术入门门槛 [14] 课程体系设计 - **知识框架**:覆盖BEV感知、扩散模型理论、强化学习与RLHF等核心技术栈 [6][23] - **案例研究**: - 二段式端到端解析PLUTO、CarPlanner等经典算法 [21] - 一段式端到端深入UniAD、OccLLaMA等前沿工作 [22] - **实战环节**: - 扩散模型轨迹预测实战Diffusion Planner [22] - VLA方向实战小米ORION开源框架 [22] - 大作业RLHF微调实现技术迁移应用 [24] 技术发展趋势 - 世界模型应用扩展至场景生成、闭环仿真等多场景 成为近年研究热点 [22] - 扩散模型与VLM结合推动多模轨迹预测技术落地 [22] - VLA被视为端到端自动驾驶的"皇冠" 工业界招聘需求旺盛 [22]
SpatialTrackerV2:开源前馈式可扩展的3D点追踪方法
自动驾驶之心· 2025-07-20 16:36
三维点追踪技术现状 - 三维点追踪技术从单目视频中恢复任意点的长期三维轨迹,在机器人、视频生成及三维/四维重建中展现潜力[4] - 相比参数化运动模型(如SMPL、骨架等),该技术具有更强灵活性与泛化能力[4] - 现有方案依赖光流与单目深度估计等低/中层视觉模型,优化式方法计算成本高昂,前馈模型受限于真实三维轨迹监督数据[6] SpatialTrackerV2核心创新 - 将三维点追踪分解为视频深度、相机自运动与物体运动三部分,构建完全可微的多源异构数据联合训练流程[7] - 采用前端-后端架构:前端通过视频深度估计器和位姿初始化器生成深度图与粗略相机轨迹,后端通过SyncFormer模块实现二维/三维轨迹联合优化[7][11] - SyncFormer模块采用双分支交叉注意力结构,分别处理二维/三维特征并通过交叉注意力层同步更新,减少特征干扰[30] 技术实现细节 - 前端深度预测引入尺度-偏移回归模块,通过投影一致性损失校正深度与姿态的尺度歧义[15][16] - 后端捆绑优化包含重投影误差、几何一致性损失、动态性约束损失及正则项,总损失函数驱动相机位姿与轨迹迭代更新[24][25][26][28] - 动态性与可见性分数通过轻量级网络预测,用于加权优化过程[23] 性能表现 - 在TAPVid-3D基准达到21.2 AJ和31.0 APD3D,较DELTA提升61.8%与50.5%[9] - 视频深度指标AbsRel为0.081(行业最优0.093),01.25指标达0.910,超越MegaSAM等动态重建方法[32] - 相机位姿估计在TUM-dynamic数据集ATE为0.012,优于MegaSAM的0.013,推理速度快50倍[35][9] 应用与扩展性 - 支持17个异构数据集联合训练,包括RGB-D数据集的深度/姿态一致性约束和普通视频的姿态-轨迹一致性约束[8] - 在互联网随手拍视频中展现鲁棒性,为运动理解和物理智能提供基础[37] - 开源Demo可通过Hugging Face体验,技术细节见论文《SpatialTrackerV2: 3D Point Tracking Made Easy》[8]
港中文最新!ReAL-AD:迈向类人推理的端到端自动驾驶,轨迹性能提升30%(ICCV'25)
自动驾驶之心· 2025-07-20 16:36
核心观点 - 提出ReAL-AD框架,通过三层人类认知模型(驾驶策略、驾驶决策、驾驶操作)实现类人推理的端到端自动驾驶 [2][8] - 集成视觉-语言模型(VLMs)增强环境感知和结构化推理能力,规划准确性和安全性提升超过30% [2][11][34] - 采用层次化轨迹解码器实现从粗到细的轨迹规划,L2误差减少33%,碰撞率降低32% [9][34] 技术架构 - **策略推理注入器**:解析VLM生成的交通情境见解,制定高层次驾驶策略 [8][17] - **驾驶推理整合器**:将战略意图细化为可解释的驾驶选择(如变道、超车、速度调整) [8][20] - **层次化轨迹解码器**:两阶段变分解码器,先建立粗略运动模式再细化轨迹 [24][26] 实验验证 - **数据集**:NuScenes(1,000个20秒场景)和Bench2Drive(13,638片段/200万帧) [30] - **开环指标**:平均L2误差0.48米(NuScenes)、0.84米(Bench2Drive),碰撞率0.15%/0.12% [34] - **闭环指标**:驾驶评分提升至41.17,成功率11.36%,优于基线模型UniAD/VAD [35] 行业对比 - **传统方法局限**:依赖固定稀疏轨迹监督,无法模拟人类分层决策过程 [3][7] - **现有VLM应用**:多作为辅助模块提供语义线索,缺乏与决策层次的有机整合 [5][12] - **创新点**:首次将VLM推理嵌入三层决策架构,实现战略-战术-操作的全链路协同 [8][11] 性能优化 - **消融实验**:移除战略推理注入器导致L2误差增加12%,碰撞率上升19% [36] - **解码器设计**:两层结构比单层L2误差降低0.14米,三层会引入过拟合 [39] - **损失函数**:相似性损失有效弥合文本特征与轨迹预测特征的模态差距 [38]
大模型面经 - 快手快 Star
自动驾驶之心· 2025-07-20 16:36
面试流程与内容 - 一面重点考察论文细节和基础能力,涉及代码题(32 最长有效括号)和概率题 [2] - 二面继续深入探讨论文,增加场景题考察方案完善能力 [4] - 三面侧重知识广度,涵盖多模态大模型技术(BLIP-2/Qwen-VL的Learnable Query、KV Cache、后训练差异)、计算机视觉(SAM编码机制)、概率题(扑克牌花色概率)和场景设计题(直播间商品识别) [5] - 四面为答辩环节,聚焦业务理解和职业规划,需串联过往经历形成主线 [6] 技术考察重点 - 多模态大模型:关注主流范式(BLIP-2/Qwen-VL架构演进)、训练优化技术(LoRA矩阵初始化、DeepSpeed三阶段优化)、动态分辨率实现 [5] - 计算机视觉:深入探讨Diffusion与DETR结合、SAM的多模态prompt编码机制 [5] - 工程实践:涉及大模型部署(KV Cache)、推荐系统排序算法、多模态RAG应用 [5] 学习资源与社区 - 提供30+自动驾驶技术栈学习路线,覆盖感知(BEV/Occupancy/多传感器融合)、定位建图(SLAM/高精地图)、规划控制等领域 [7] - 知识星球包含近4000人社区,300+企业与科研机构参与,提供端到端自动驾驶、大模型、CUDA部署等专业课程 [7]
VLA的Action到底是个啥?谈谈Diffusion:从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-07-19 18:19
扩散模型原理 - 扩散模型是一种生成式模型,本质是通过正向扩散和反向生成过程对数据分布进行学习和模拟[2] - 正向扩散过程从初始数据分布开始逐步添加噪声,最终达到纯噪声分布[5] - 反向生成过程从纯噪声出发,通过神经网络逐步去除噪声恢复原始数据[6] - 扩散过程基于马尔可夫链,未来状态仅依赖当前状态[8] - U-Net是扩散模型核心架构,采用编码器-解码器结构和跳跃连接增强细节恢复能力[11][12][13] 扩散模型与生成对抗网络对比 - GAN由生成器和判别器组成,通过对抗博弈生成新样本[20] - 扩散模型训练更稳定且样本质量更高,但计算成本较大[27] - GAN可融合多种噪声分布,而扩散模型通常保持噪声类型不变[28] - 扩散模型像"考古修复",GAN像"造假大师"[26] 自动驾驶应用 - 合成数据生成:解决数据稀缺问题,可生成极端天气等罕见场景[30][31] - 场景预测:生成多模态交通参与者行为预测[33] - 感知优化:用于BEV去噪和多传感器融合[34][35] - 路径规划:清华AIR团队Diffusion Planner实现多模态路径生成[36] - 端到端控制:DiffusionDrive实现实时决策[37] - 能量优化:Diffusion-ES算法求解最小能耗路径[42] 企业技术方案 - 毫末智行Diffusion Planner实现预测与规划联合建模,在nuPlan数据集表现优异[47] - 地平线HE-Drive系统利用扩散模型生成舒适驾驶轨迹[48] - 理想汽车MindVLA架构整合扩散模型优化驾驶轨迹[48] - 学术方案:条件扩散模型实现车辆极限漂移控制[49][51]
盘点 | 浙江大学高飞团队2025上半年无人机硬核成果
自动驾驶之心· 2025-07-19 18:19
高飞团队2025上半年研究成果 - 提出FIRI算法实现高质量、高效率、强可控性的凸多胞体生成,在二维车辆和三维无人机规划中性能超越现有方法 [8][10][11] - 开发CoNi-OA空地协同避障框架,仅凭单帧激光雷达数据实现<5ms实时避障,摆脱对全局定位依赖 [14] - 首创Primitive-Swarm规划器,通过离线运动基元库实现1000架无人机集群的毫秒级实时规划 [17] - 构建自主特技飞行系统,首次实现无人机100%成功率的复杂花式动作执行,解决微分平坦奇点问题 [20][21] - 提出分层规划框架,前端神经网络实现0.01秒路径生成,后端双层多项式消除轨迹奇异点 [23][25] - 开发差速驱动机器人通用优化框架,创新运动状态轨迹表示法统一处理多种机型复杂运动 [28][29] 技术突破方向 - 无人机集群规划:实现千机规模实时协同与超轻量级计算架构 [17] - 高机动控制:突破特技飞行自主生成与执行技术瓶颈 [20] - 环境适应性:在复杂动态环境中保持算法稳定性与鲁棒性 [14][23] - 跨平台通用性:建立差速驱动机器人统一优化理论体系 [28] 学术影响力 - 在IEEE TRO、Science Robotics等顶级期刊发表6篇突破性论文 [10][17][20][23][28] - 研究成果覆盖机器人学核心领域,包括轨迹规划、集群协同、感知导航等 [8][14][17][20][23][28] - 算法在真实场景验证,性能指标全面超越现有方法 [11][17][20][23][29]
DeepSeek终于丢了开源第一王座。。。
自动驾驶之心· 2025-07-19 18:19
模型排名与表现 - Kimi K2在全球开源模型中排名第一,总榜排名第五,紧追马斯克Grok 4等顶尖闭源模型 [3] - 在总榜TOP 10中,Kimi K2得分为1420,与Grok 4(1437)和GPT 4.5(1437)差距较小 [4][26] - 唯二进入总榜TOP 10的开源模型均来自中国,包括Kimi K2(第5)和DeepSeek R1(第8) [4][26] 技术架构与优化 - Kimi K2继承了DeepSeek V3的架构,并进行了四项关键参数调整:增加专家数量、注意力头数减半、仅保留第一层Dense、专家无分组 [17] - 调整后总参数增至1.5倍,但推理耗时更小,成本控制优于V3架构 [18] - 团队选择完全继承V3架构的原因包括已验证的可靠性和有限的训练资源 [13] 市场热度与社区反响 - Kimi K2发布一周内GitHub标星达5.6K,Hugging Face下载量近10万 [6] - Perplexity CEO公开支持K2,计划基于该模型进行后训练 [8] - 用户访问量激增导致官方发布公告应对流量压力 [9] 开源模型趋势 - 开源模型性能已接近闭源模型,TOP 10分数均超过1400,差距显著缩小 [24][26] - 行业专家如Tim Dettmers和Perplexity CEO认为开源模型将逐步超越闭源,并在AI全球化中发挥关键作用 [28][30] - 开源社区对Kimi K2的编程能力(第二)、复杂提示词处理能力(第二)等单项表现给予高度评价 [7]