Workflow
自动驾驶之心
icon
搜索文档
清华最新SOTA!ArbiViewGen:自监督框架实现多车型任意视角可控图像生成~
自动驾驶之心· 2025-08-11 07:32
核心观点 - 提出ArbiViewGen框架,用于自动驾驶场景中任意视角图像生成,解决外推视角缺乏真实数据的问题 [4][9] - 采用特征感知自适应视角拼接(FAVS)和跨视角一致性自监督学习(CVC-SSL)两大核心模块 [9][10] - 在nuScenes数据集上验证,性能优于基线方法,PSNR达14.2335,SSIM达0.9691 [14][15] 研究动机与贡献 - 自动驾驶行业面临多源传感器系统异构配置带来的数据复用挑战 [5] - 现有方法依赖目标视角真实监督,难以适应自动驾驶场景非结构化数据分布 [6] - 首次实现多种车辆异构配置中可控任意视角相机图像生成 [4] 方法总览 - FAVS模块通过分层优化策略实现六相机图像到任意目标视角的高质量拼接 [9] - CVC-SSL模块基于潜在扩散模型,引入几何引导跨视角注意力机制 [10] - 仅需多相机图像及其姿态信息,无需额外传感器或深度图 [3] 技术细节 - FAVS包含几何变换建立、特征匹配优化、目标对齐微调、自适应融合生成四阶段 [9] - CVC-SSL通过循环重建自监督范式克服新颖视角缺乏监督的问题 [13] - 提出图像质量评估策略,投影彩色点云建立定量评估框架 [13] 实验结果 - 定量指标全面优于基线:PSNR提升48.8%(9.5647→14.2335),MAE降低47.2%(72.4672→38.2820)[14] - 消融实验显示FAVS和CVC-SSL分别带来27.4%和19.9%的PSNR提升 [15] - 可视化结果展示更好的结构一致性和空间完整性 [18] 应用前景 - 增强自动驾驶系统在不同传感器配置中的适应性和鲁棒性 [23] - 促进跨平台部署和可扩展数据重用,降低开发成本 [5][23] - 未来将整合激光雷达深度先验和语义一致性约束以提升质量 [23]
成立了一个自动驾驶求职交流群~
自动驾驶之心· 2025-08-11 07:32
自动驾驶技术发展趋势 - 技术栈从多样化走向趋同 多个算法方向正被统一方案整合 [1] - 行业转向one model、VLM(视觉语言模型)、VLA(视觉语言行动模型)等统一架构 [1] - 技术方案统一化导致行业技术壁垒显著提升 [1] 行业人才发展动态 - 算法工程师需求从覆盖数十个方向转向集中化技术领域 [1] - 行业社群聚焦产业讨论、公司分析、产品研发及求职跳槽等专业内容 [1] - 社群平台旨在汇聚全行业人才形成综合型交流平台 [1]
即将开课!端到端与VLA自动驾驶小班课来啦(扩散模型/VLA等)
自动驾驶之心· 2025-08-11 07:32
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,自UniAD获得CVPR Best Paper后引发国内智驾军备竞赛 [2] - 2024年理想汽车宣布E2E+VLM双系统架构量产,技术通过传感器数据直接输出规划或控制信息,避免模块化方法误差累积 [2] - BEV感知打破模块化壁垒,UniAD统一感知和规划任务,推动端到端技术进入新阶段 [2] - 当前技术需掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等跨领域知识 [3] 技术课程核心内容 - 课程涵盖二段式端到端(PLUTO)、一段式端到端(UniAD)、基于世界模型(OccWorld)、基于扩散模型(DiffusionDrive)及VLA方向 [7] - 第一章解析端到端发展历史及模块化到端到端的演变,对比一段式、二段式、VLA范式优缺点 [9] - 第二章重点讲解背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习及BEV感知 [9][12] - 第三章聚焦二段式端到端,分析PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [10] - 第四章深入一段式端到端与VLA,覆盖UniAD、OccWorld、DiffusionDrive及ORION等实战案例 [11] 课程特色与目标 - 采用Just-in-Time Learning理念,帮助学员快速掌握核心技术栈并构建领域框架 [4][5] - 结合实战环节完成理论到实践闭环,包括RLHF微调及VLA算法复现 [6][13] - 学员需具备自动驾驶基础、Transformer/BEV感知等知识,课程目标为达到1年算法工程师水平 [18] - 课程进度安排为3个月,分章节解锁内容并配备VIP群答疑 [18] 行业趋势与就业需求 - 端到端自动驾驶成为智能驾驶代表方向,学术界与工业界加速布局VLA等前沿技术 [2][11] - VLA技术因上限高、难度大成为招聘热点,涉及VLM、BEV、扩散模型等多技术融合 [11] - 扩散模型在多模轨迹预测中应用广泛,DiffusionDrive等作品推动工业界落地尝试 [11][12]
万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里
自动驾驶之心· 2025-08-10 11:31
具身智能行业核心观点 - 具身智能正通过构建独特计算大脑将AI能力转化为物理能力 解决AI系统在物理世界中的交互难题 [8] - 行业面临性能与通用性的关键权衡 ASI(人工专门智能)与AGI(人工通用智能)路径并行发展 [24][27][65] - 机器人基础模型(如RT-2/VLA模型)展现跨具身泛化能力 预训练模型比专用模型性能提升50% [47][48] - 物理世界对性能要求严苛 工业应用需99%以上成功率 远超其他AI领域90%的标准 [12][13] - 数据获取是核心挑战 真实物理数据仅占PI-0 5训练集的3% 但推动模型理解物理交互的关键 [57][74] 技术演进与突破 基础模型发展 - RT-2作为第一代VLA模型 将控制问题转化为问答任务 基于PaLI-X视觉语言模型构建 [46] - 第二代VLA模型(如PI-Zero)增加专用动作专家模块 采用流匹配技术处理连续动作 支持50个时间步动作块生成 [49][50] - PI-0 5实现高级推理能力 可分解"清理卧室"等复杂指令为子步骤 在未见场景完成任务 [54][55] - 跨具身数据集RTX包含34个实验室/22类机器人数据 验证通用模型性能优于专用模型50% [47][48] 关键技术融合 - 多速率系统成为硬件关键 力扭矩传感器需1kHz采样率 10Hz控制会丢失99%数据 [42][43] - 强化学习(SERL系统)与基础模型互补 专用策略可实现PCB插接等复杂操作 成功率超99% [90][92] - 视觉语言模型支持草图/照片交互 自动生成代码并插入ML技能 实现工作流程智能化 [81] 商业化路径选择 应用场景聚焦 - 工业领域优先选择结构化/半结构化环境 因非结构化环境商业可行性低且回报周期长 [14] - 汽车等行业要求TRL 8-9级成熟度 拒绝浅蓝色阶段原型 对性能有严格标准 [10] - ASI路径通过专用模型实现 支持本地部署/实时控制 适合气隙计算等工业需求 [28][32] 数据飞轮构建 - 人工专门智能工作单元成为数据主要来源 需结合安全/多机器人协调等传统机器人技术 [71] - 真实物理数据占比虽小(3%)但至关重要 模拟数据无法替代物理系统交互 [57][74] - 未来数据瓶颈将从收集转向筛选 需从数万亿轨迹中识别最有价值样本 [76] 前沿研究方向 技术突破点 - 持续学习成为关键挑战 需解决大规模模型在线更新而不破坏系统的问题 [106] - 反馈学习机制待优化 强化学习效率提升是重要方向 [107] - 物理常识理解是根本挑战 需建立导航/移动/操作的统一表征框架 [104] 学术产业协同 - 产业界需将实际问题反馈给学术界 共同缩小"演示即终结"的研究应用差距 [97][98] - 选择对失败容忍度高的应用领域(如垃圾分类) 逐步提升性能而非追求完美初始表现 [99] - 操作被视为最具挑战领域 需融合复杂环境理解与精细物理交互能力 [101][102]
自动驾驶前沿方案:从端到端到VLA工作一览
自动驾驶之心· 2025-08-10 11:31
自动驾驶技术趋势 - 端到端自动驾驶方案分为一段式和二段式,一段式直接建模传感器输入到轨迹输出,二段式侧重感知输入与轨迹预测联合优化 [3] - 主流一段式方案包括基于感知的UniAD、基于扩散模型的DiffusionDrive、基于世界模型的Drive-OccWorld,量产中会融合多种方法优势 [3] - VLA(视觉语言模型+端到端)通过大模型提升场景理解能力,当前研究涵盖语言解释器、模块化VLA、端到端VLA及推理增强算法 [5] 技术资源体系 - 社区整合40+技术路线,覆盖VLA benchmark、综述、入门路线及产业项目方案 [7][15] - 汇总60+自动驾驶数据集,包括多模态大模型预训练/微调数据集、强化学习数据集等 [35] - 梳理近40+开源项目,涉及3D目标检测、BEV感知、世界模型、3DGS等前沿领域 [33] 行业生态与人才 - 社区成员来自国内外顶尖高校(清华、CMU、ETH等)及头部企业(蔚小理、华为、英伟达等) [19] - 建立企业内推机制,覆盖RoboTaxi、重卡、造车新势力等自动驾驶相关公司 [10][29] - 定期举办100+场技术直播,分享VLA、3D检测、扩散模型等最新研究成果 [82] 关键技术研究方向 - 端到端自动驾驶研究聚焦纯视觉/多模态方案、世界模型结合、长尾分布处理等细分方向 [26][37] - 世界模型应用涵盖场景生成、交通仿真、传感器仿真等技术落地路径 [26][41] - BEV感知作为量产基石,覆盖纯视觉/多模态方案及工程部署优化 [50] - 3D目标检测技术路线包括激光点云、单目/双目视觉、多模态融合等方法 [52]
二段式SOTA!港科大FiM:从Planning的角度重新思考轨迹预测
自动驾驶之心· 2025-08-10 00:03
核心观点 - 提出"先推理,后预测"策略,从规划视角重构轨迹预测任务,显著提升预测置信度和准确性 [9][48] - 开发基于奖励驱动的意图推理器,结合QIRL框架实现可解释的行为意图推理 [6][9][24] - 引入Bi-Mamba增强的分层DETR-like解码器,有效捕捉轨迹序列依赖关系 [27][29][48] - 在Argoverse和nuScenes数据集上超越多个SOTA模型,minFDE6降低5-15% [34][36][38] 技术框架 意图推理模块 - 采用网格级图表示场景布局,定义GRT作为离散决策序列 [5][17] - 基于MaxEnt IRL构建QIRL框架,学习参与者特定奖励分布 [6][14][23] - 通过策略rollout生成多模态GRT,提供意图先验指导 [24][26] - 辅助S-T OGM预测头建模未来交互,提升特征融合 [25][41] 轨迹解码架构 - 分层设计:首先生成无锚点轨迹提议,再进行基于锚点的优化 [26][27] - 双向Bi-Mamba结构处理轨迹序列,双向CLS token增强特征融合 [29][42] - 模态自注意力模块促进多模态交互,避免模态坍塌 [31][43] - 整体采用编码器-解码器结构,集成场景编码与轨迹生成 [18][20] 实验结果 定量指标 - Argoverse1测试集:Brier score 0.5732(集成模型),优于HPNet(0.5912) [34][35] - Argoverse2验证集:minFDE6 0.528,长期监督版本(GRT-L)表现最佳 [36] - nuScenes数据集:minADE10 0.78,MR10 0.23,全面领先现有方法 [37][38] 消融研究 - 移除推理分支导致brier-minFDE6上升44%(2.879→1.602) [40] - Bi-Mamba比单向结构降低Brier score 1.5%(0.603→0.594) [42] - OGM模块贡献约6%的minFDE6提升(1.670→1.602) [40][41] 行业应用 - 验证了RL范式在驾驶行为建模的可行性,为VLA时代提供技术基线 [48][54] - 课程内容显示VLA算法工程师岗位薪资达40-70K,反映技术需求 [54][55] - 知识星球社区覆盖30+技术栈,4000+成员包含300+企业与机构 [59]
自动驾驶之心实习生招聘来啦!欢迎加入我们~
自动驾驶之心· 2025-08-10 00:03
公司定位与业务方向 - 公司致力于通过技术内容连接学术界和工业界,成为企业与高校沟通的桥梁,覆盖数十万AI开发者和创业者 [3] - 业务聚焦自动驾驶、具身智能、大模型等前沿AI技术领域,涵盖学术论文解读、量产方案分析、大模型评测、商业动态、行业招聘、开源项目等 [3] - 已与主流自动驾驶和具身智能公司及高校建立深度合作,大模型方向正在快速搭建 [3] 内容分发与平台覆盖 - 通过公众号、社群、视频号、知乎、小红书、B站等多平台进行技术内容分享、粉丝交流及企业联系 [3] - 目标提供全网最新最权威的技术信息,并对热门事件提供独特内容价值 [3] 团队招募与岗位要求 - 招聘内容运营实习生,工作方向包括大模型/自动驾驶/具身智能的学术论文选题、知识星球搭建、原创视频制作、稿件撰写等 [5][6] - 岗位要求相关研究方向本科及以上学历(硕士优先),需具备技术背景、论文解读能力、开源项目部署经验及文字功底 [6] - 加分项包括AI产品拆解能力或原创科技自媒体运营经验 [6][10] 工作安排与待遇 - 工作地点支持杭州余杭区线下办公或线上远程,杭州本地申请者优先 [10] - 实习时间要求每周四天及以上,优先考虑三个月以上者 [7] - 待遇包含实习工资、1v1新人培养、行业资源推荐及岗位内推机会 [8] 应聘方式 - 简历投递需注明姓名、岗位、微信号,发送至指定邮箱或微信联系人 [8]
自动驾驶二十年,这个自动驾驶黄埔军校一直在精打细磨...
自动驾驶之心· 2025-08-10 00:03
自动驾驶行业发展现状 - 自动驾驶技术自2009年谷歌(Waymo)开启研发热潮以来已发展近二十年,当前处于行业下沉关键期,技术路径从模块化方法演进至端到端/VLA方法 [2] - 行业技术能力持续攀升,但实现真正自动驾驶仍需突破,智能驾驶融入日常出行是长期目标 [2] 技术资源与知识体系 - 社区梳理40+技术路线,覆盖VLA benchmark、综述、学习路线等,缩短行业检索时间 [4] - 汇总60+自动驾驶数据集、40+开源项目及主流仿真平台,包含感知/仿真/规划控制等学习路线 [16] - 技术方向覆盖BEV感知、3D目标检测、多传感器融合、Occupancy Network等28个细分领域 [23][47][49][51][54] - 前沿技术包括扩散模型、世界模型、视觉语言模型(VLM)、端到端自动驾驶等热点方向 [38][40][42][45] 行业生态与人才网络 - 社区成员来自上海交大、清华、CMU等顶尖高校及蔚小理、华为、大疆等头部企业,形成产学研闭环 [16] - 与多家自动驾驶公司建立内推机制,直接对接企业招聘需求 [7] - 提供职业发展咨询,涵盖岗位选择、技术转型等实际问题 [80][83] 技术交流与内容产出 - 每月举办星友线上讨论会,针对共性问题深度探讨 [2] - 累计举办超100场专业直播,邀请清华、上海AI Lab等机构专家分享最新研究成果 [79] - 内容形式包含开源项目分析、数据集解读、量产方案拆解等实战型主题 [30][32][34] 教育培训体系 - 针对小白提供完备入门技术栈和路线图 [9] - 为从业者设计算法进阶课程,涵盖CUDA编程、模型部署等工程化内容 [5][64][66] - 开发"自动驾驶100问"系列,聚焦TensorRT部署、毫米波雷达融合等实战问题 [5]
某具身智能创始人“身兼数职”
自动驾驶之心· 2025-08-10 00:03
具身智能行业融资现状 - 2023年是具身智能融资大年,资本密集投资具身智能公司,单笔投资金额达数亿至十几亿规模 [5][6] - 部分获投公司创始人未全职投入创业,仍保留高校教职或承接外部项目,例如某公司技术创始人同时担任车企智驾顾问,单篇论文报酬达100万元 [5] - 资本投资行为被类比为"土豪追白富美",存在创始团队投入度与融资规模不匹配现象 [6] 具身智能创始人群体特征 - 创始人多来自顶流高校助理教授群体,具备斯坦福、伯克利、MIT等海外名校背景 [6] - 部分创始人存在学术浮躁倾向,偏好追逐技术热点概念,缺乏工程技术沉淀,表现为频繁变更技术方向、热衷会议PR等 [6] - 产业界经验不足导致适应困难,量产阶段需要高强度工程能力,部分海归创始人被边缘化,本土985背景人才逐渐成为中坚力量 [6][7] 行业技术发展阶段 - 当前处于早期概念验证阶段,主要呈现为"讲故事晒PPT"模式,尚未进入实质量产攻坚期 [7] - 头部公司定位研发通用大脑和具身大模型,但技术路线存在摇摆现象 [5] 自动驾驶技术社区生态 - 行业存在活跃的技术交流社群,覆盖大模型、BEV感知、多模态融合等30+技术方向,近4000人参与 [11][13] - 专业课程体系涵盖端到端自动驾驶、世界模型、传感器标定等前沿领域,形成完整学习路径 [15]
自动驾驶论文速递 | 端到端、分割、轨迹规划、仿真等~
自动驾驶之心· 2025-08-09 21:26
自动驾驶技术研究进展 - 斯坦福大学和微软提出DRIVE框架 实现0%软约束违反率 在inD、highD和RoundD数据集上验证了轨迹平滑性和泛化能力 [2][6] - DRIVE框架通过指数族似然建模学习概率性软约束 克服传统方法依赖固定约束形式的局限 [6] - 北京交通大学与海南大学开发混合学习-优化轨迹规划框架 高速公路场景成功率97% 实时规划性能54ms [11][12] - 美团与中山大学团队提出RoboTron-Sim技术 在nuScenes测试中实现困难场景碰撞率降低51.3% 轨迹精度提升51.5% [18][19][23] - 安徽大学团队提出SAV框架 在VehicleSeg10K数据集上达到81.23% mIoU 超越之前最佳方法4.33% [34][35][40] 算法创新与框架设计 - DRIVE框架将学习到的约束分布嵌入凸优化规划模块 支持数据驱动的约束泛化与系统性可行性验证 [6] - 混合学习-优化框架采用GNN预测速度剖面 MIQP进行路径优化 引入车辆几何离散化线性近似降低计算复杂度 [12] - RoboTron-Sim提出场景感知提示工程和几何感知图像到自车编码器 解耦传感器特定参数 [23] - SAV框架整合车辆部件知识图谱和视觉上下文样本增强策略 构建包含11,665张图像的数据集 [40] 实验性能表现 - DRIVE框架在轨迹平滑性和泛化能力上表现优异 软约束违反率为0% [6] - 混合学习-优化框架在复杂紧急场景中成功率超97% 平均规划时间54ms [12][13] - RoboTron-Sim在3秒预测时域L2距离平均0.23米 碰撞率0.26% 显著优于对比模型 [28] - SAV框架在车辆部件分割任务上mIoU达81.23% 建立包含13个部件类别的基准数据集 [34][40] 行业资源与社区建设 - 自动驾驶之心社区梳理40+技术路线 涵盖感知、规划、控制等方向 [45][46] - 社区提供自动驾驶数据集汇总 包含近百个数据集和标注工具 [46] - 开设感知融合、多传感器标定、SLAM等系列视频教程 与多家公司建立内推机制 [47] - 整理自动驾驶领域企业介绍、高校团队、会议信息等资源 [46]