自动驾驶之心

搜索文档
自动驾驶超视距VLA如何实现?小鹏NavigScene另辟蹊径!
自动驾驶之心· 2025-09-05 07:33
文章核心观点 - 小鹏汽车团队提出NavigScene系统 旨在解决自动驾驶领域局部感知与全局导航信息脱节的关键瓶颈 通过导航引导的自然语言数据集和三种创新方法实现超越视觉范围的推理能力 显著提升自动驾驶系统的感知、预测和规划性能 [3][4][9] 技术方案 - NavigScene构建导航引导的自然语言数据集 在自动驾驶系统内部仿真类人化驾驶环境 弥合局部传感器数据与全局导航信息之间的差距 [4][5] - 开发导航引导推理范式 通过将导航上下文融入提示方法增强视觉语言模型的推理能力 [5] - 采用导航引导偏好优化方法 扩展直接偏好优化技术 通过建立导航相关信息摘要的偏好关系改进视觉语言模型响应 [5] - 创建导航引导视觉-语言-动作模型(NVLA) 通过特征融合将导航引导和视觉语言模型与传统端到端驾驶模型集成 [5] 应用价值 - 系统显著提升自动驾驶在基于局部视觉信息的问答、感知、预测和规划方面的性能 为构建更可靠的自动驾驶系统奠定基础 [4][9] - 使自动驾驶系统具备"高瞻远瞩"的导航思维 突破当前系统只能"看清"周围却难以"预见"远方道路与决策的限制 [3] - 研究成果以论文形式发布 标题为《NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving》 [6] 内容安排 - 直播将涵盖自动驾驶研究问题简介 导航数据集的视觉生成和文本生成 基于导航数据集的多模态大模型后训练 以及视觉-语言-动作模型等核心内容 [10] - 技术分享由NavigScene论文第一作者Qucheng Peng主讲 深度解析团队如何开创性弥合局部感知与全局导航的鸿沟 [3]
从传统融合迈向端到端融合,多模态感知的出路在哪里?
自动驾驶之心· 2025-09-04 19:54
随着自动驾驶、机器人导航和智能监控等领域的快速发展,单一传感器(如摄像头、激光雷达或毫米波雷达)的感知能力已难 以满足复杂场景的需求。 为了克服这一瓶颈,研究者们开始将激光雷达、毫米波雷达和摄像头等多种传感器的数据进行融合,构建一个更全面、更鲁棒 的环境感知系统。这种融合的核心思想是优势互补。摄像头提供丰富的语义信息和纹理细节,对车道线、交通标志等识别至关 重要;激光雷达则生成高精度的三维点云,提供准确的距离和深度信息,尤其在夜间或光线不足的环境下表现优异;而毫米波 雷达在恶劣天气(如雨、雾、雪)下穿透性强,能稳定探测物体的速度和距离,且成本相对较低。通过融合这些传感器,系统 可以实现全天候、全场景下的可靠感知,显著提高自动驾驶的鲁棒性和安全性。 当前的多模态感知融合技术正在从传统的融合方式,向更深层次的端到端融合和基于Transformer的架构演进。 传统的融合方式主要分为三种:早期融合直接在输入端拼接原始数据,但计算量巨大;中期融合则是在传感器数据经过初步特 征提取后,将不同模态的特征向量进行融合,这是目前的主流方案,例如将所有传感器特征统一到 鸟瞰图(BEV) 视角下进 行处理,这解决了不同传感器数据 ...
自动驾驶秋招大批量开始了(理想/小鹏/小米/地平线/博世/mmt等等)
自动驾驶之心· 2025-09-04 19:54
近期,小鹏、蔚来、理想、地平线、华为车BU、博世中国、小米汽车、Momenta等等公司都宣布了2026届校园招聘启 动的消息~ 好消息,汽车行业秋招大批量开启了! 我们的知识星球也推出最大优惠了,续费5折,新人加入立减88,开学季最好的入手机会。 国内最大的自驾社区,和4000名成员一起交流。 很多同学还在陆续咨询柱哥关于就业、申博方向的问题,自驾领域还有很多问题没有被解决,甚至还没有有效的方 案,所以招聘需求才会持续存在。如果你在工业界,也是一个职业上升的好时机。 自动驾驶之心在此开学季,给大家提供了各类学习教程和科研平台,如果您想自动驾驶方向更上一层楼,或者希望快 速入门,可以来看看我们的教程和平台。诚意满满,是近段时间最大的优惠力度。 课程超级折扣卡 课程超级折扣卡是我们为有需要购买自驾课程同学推荐的。 一年内有效,所有自驾课程7折哦~适合购买2门及以上的 同学,优惠满满! 知识星球 更多硬件和论文辅导活动 咨询我们 更多内容欢迎咨询小助理微信AIDriver005了解更多。 ...
具身领域发生了一件大事,对学术界和工业都利好.......
自动驾驶之心· 2025-09-04 16:42
公司IPO进展 - 宇树科技预计2025年10月至12月提交IPO申报文件 [1] 行业影响 - 具身机器人行业获得市场和资本认可 将带动上下游产业发展 [1] - 行业处于上升期 存在大量未解决问题 适合研究和职业发展 [3] 市场活动 - 提供具身课程7折优惠 有效期一年 [4][10] - 知识星球新人立减66元 续费5折 [6][10] - 社区规模近2000名成员 [7] - 活动时间为9月1日至9月14日 [10]
招聘几位大佬,打算共创平台(模型部署/VLA/端到端)
自动驾驶之心· 2025-09-04 16:42
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、视觉语言模型(VLA)、端到端自动驾驶系统[3] - 涵盖具身交互、联合预测、SLAM技术、3D目标检测、世界模型等前沿领域[3] - 涉及闭环仿真3D高斯溅射(3DGS)技术及大模型部署与量化感知推理[3] 人才资质要求 - 要求候选人来自QS世界大学排名前200高校[4] - 优先考虑硕士及以上学历且拥有顶级会议论文发表记录的专家[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职推荐、读博及出国留学支持[5] - 设立具有竞争力的现金激励方案[5] - 开放创业项目合作与推荐渠道[5]
超级折扣卡推出啦,平台所有课程七折优惠!
自动驾驶之心· 2025-09-04 11:35
使用范围 :自动驾驶&具身智能自研课程,包括后续新课程; 有效期 :自购买之日起一年内使用; 超级折扣卡推出啦 不少同学一直吐槽自动驾驶之心的课程太贵了hhh,想买但预算有限。我们也收到了大家的反馈,今年我们陆续推出了《 端到端与 VLA自动驾驶小班课 》、《自动驾驶端到端与规划控制(第三期)》、《 自动驾驶4D标注算法就业小班课 》。反响都还不错,尤其 是 端到端与VLA,大家反馈都很好,Jason老师也很给力。未来还计划推出一些VLA、模型部署等方向的课程。 针对同学们反馈的课程价格问题,团队内部也商量了一下,决定给大家更多的优惠,开学季也到了,我们正式推出 价值 299元 的 『超级折扣卡』! 购买后平台所有课程一律七折优惠! 折扣卡价格 :299元; 活动时间 :9.1-9.14日; 补充说明 :若购买后的一年内您未在平台购买任何课程,超级折扣卡可以全额退款; 扫码购买折扣卡 微信添加小助理咨询 ...
开放几个大模型技术交流群(RAG/Agent/通用大模型等)
自动驾驶之心· 2025-09-04 11:35
技术交流群成立 - 大模型之心Tech技术交流群正式成立 专注于大模型相关技术交流 [1] - 交流内容涵盖大模型RAG AI Agent 多模态大模型 大模型部署等方向 [1] - 感兴趣者可添加小助理微信AIDriver005申请加入 需备注昵称和大模型加群 [2]
从MLLM到Agent:万字长文览尽大模型安全进化之路!
自动驾驶之心· 2025-09-04 07:33
大模型演进与安全挑战 - 人工智能从单一文本交互发展到多模态理解与智能体自主决策阶段 能力上限持续扩张但安全风险呈指数级增长 [2] - 越狱攻击通过精心设计的输入或环境扰动绕过模型安全机制 诱导生成违法有害内容 可能引发虚假信息传播和网络攻击等严重后果 [2] - 现有研究缺乏对LLMs-MLLMs-Agents全演进链路的系统性梳理 尚未形成统一的攻击分类框架和评估标准 [2] 研究综述核心贡献 - 系统追溯大模型从LLMs到MLLMs再到Agents的发展脉络 构建越狱攻击分类体系 [3] - 梳理数据集 评估指标与防御策略的最新进展 指出当前研究局限与未来方向 [3] - 核心贡献包括完整呈现演进路径与安全挑战 从双视角对越狱技术分类 解析实验设计 体系化防御策略和提出未来方向 [4] 大语言模型(LLMs)发展 - Transformer架构的自注意力机制实现全局语境建模与并行计算 为超深网络训练奠定基础 [8] - 模型性能随参数 数据量 算力增长而提升 从BERT的3.4亿参数到PaLM的5400亿参数 [9] - 模型能力涌现链式推理和上下文学习等高级能力 InstructGPT通过指令微调和RLHF优化交互效果 [9] - LLMs仅能处理文本模态 易受训练数据偏见和提示操纵影响 早期越狱攻击集中于文本层面操纵 [11] 多模态大语言模型(MLLMs)发展 - MLLMs通过跨模态对齐和联合表示学习实现图像音频等非文本信息与文本语义关联 [12] - 能力扩张带来全新安全风险 多模态输入复杂性使攻击面显著扩大 攻击者可利用视觉漏洞和音频漏洞诱导有害内容生成 [13] - 越狱攻击更具隐蔽性 多模态信息融合可能掩盖单一模态中的恶意信号 防御机制难以精准识别 [15] 智能体(Agents)发展 - Agents定义为能够感知环境自主采取行动的智能实体 由核心 规划 工具和记忆四大组件构成 [17][21] - 应用场景从被动响应转向主动执行 带来最严峻的安全挑战 攻击目标变为篡改决策行为 [17] - 攻击者可能通过污染长期记忆或利用工具调用漏洞使Agents执行恶意行动 引发跨Agent的攻击传播 [17] 越狱攻击双维度分类 - 从攻击影响维度细分为攻击阶段与干预层级 攻击阶段包括训练期和推理期攻击 干预层级包括提示层 推理层和模型层攻击 [25][26][28][29][31][32] - 从攻击者权限维度分为白盒攻击和黑盒攻击 白盒攻击可访问模型内部信息进行精准打击 黑盒攻击仅通过输入输出交互进行盲测 [32][35][36] 数据集现状与局限 - 现有数据集按数据来源分为LLM自动生成 搜索引擎检索和人工制作 按数据格式分为问答格式 指令格式和有害句子图像格式 [38][39][40][41] - 存在动态性不足 语言与文化局限 多模态与多轮场景覆盖少三大局限 静态数据集难以跟上快速迭代 英文为主缺乏多语言覆盖 [43] 评估指标分类与应用 - 主流评估指标分为人工评估 Perspective API评估 LLM评估 关键词词典评估和自定义评估五类 [44][46][47][48][50][53][55] - 多方法融合成为趋势 先用关键词词典初步筛选 再用LLM评估批量处理 最后对高争议样本人工审核 [58] - 不同评估方法在各类模型上表现差异显著 例如GCG在AdvBench数据集上对GPT-3.5攻击成功率达90% 但对GPT-4V仅为35% [57] 防御策略体系 - 按防御响应时机分为输入防御 输出防御和联合防御 输入防御源头阻断恶意输入 输出防御结果审核有害内容 联合防御融合多阶段策略 [59][61][62] - 按技术手段分为规则启发式防御 ML/DL防御 对抗检测防御和混合策略防御 混合策略防御成为应对复杂攻击的主流方向 [62][65][66][69][70] - 当前防御存在多模态防御能力不足 智能体防御滞后和防御与能力平衡难三大挑战 [70] 现存局限与未来方向 - 四大核心局限包括数据集多样性模态覆盖与动态性不足 评估方法缺乏统一标准 攻击技术泛化性差和防御技术被动响应 [74][75][76][77] - 五大未来方向包括构建动态多模态多语言数据集 优化评估框架建立统一标准 突破攻击技术泛化性 研发主动防御技术和重视伦理与监管 [79][80][81][82][83] - 大模型安全研究进入全链路多模态多智能体协同防御新时代 需突破现有瓶颈兼顾伦理与监管构建稳健生态 [85]
上岸自动驾驶多传感融合感知,1v6小班课!
自动驾驶之心· 2025-09-04 07:33
多模态感知融合技术背景 - 单一传感器如摄像头、激光雷达或毫米波雷达的感知能力难以满足复杂场景需求 自动驾驶、机器人导航和智能监控等领域快速发展推动多传感器融合技术应用[1] - 多传感器融合通过优势互补构建更全面鲁棒的环境感知系统 摄像头提供丰富语义信息和纹理细节 激光雷达生成高精度三维点云提供准确距离和深度信息 毫米波雷达在恶劣天气下穿透性强能稳定探测物体速度和距离且成本相对较低[1] - 传感器融合实现全天候全场景可靠感知 显著提高自动驾驶鲁棒性和安全性[1] 多模态感知融合技术演进 - 技术从传统融合方式向端到端融合和基于Transformer架构演进 传统融合分为早期融合(输入端拼接原始数据计算量巨大)、中期融合(传感器数据初步特征提取后融合不同模态特征向量目前主流方案)和晚期融合(传感器独立感知决策层面结果融合可解释性强但难以解决信息冲突)[2] - 基于Transformer的端到端融合是当前最前沿方向 通过跨模态注意力机制学习不同模态数据深层关系 实现高效鲁棒的特征交互 端到端训练减少中间模块误差累积 直接从原始传感器数据输出感知结果如三维目标框[2] - 技术已广泛应用于L2-L4级自动驾驶系统 包括高精度地图构建、全场景鲁棒感知和自动泊车等领域[2] 技术挑战 - 传感器标定是首要难题 需确保不同传感器在空间和时间上的高精度对齐[3] - 数据同步问题需解决传感器帧率不一致和时延不同步情况[3] - 核心研究方向是设计更高效鲁棒的融合算法 有效利用处理不同传感器数据的异构性和冗余性[3] 课程体系与安排 - 课程周期为12周在线小组科研加2周论文指导再加10周论文维护期 共24周[4][14] - 课程内容涵盖经典论文、前沿论文和代码实现 包括创新点、baseline、数据集以及选题方法、实验方法、写作方法、投稿建议[4][11] - 参考时间安排共14周 每周课时1-1.5小时 从课题概览到未来发展方向全面覆盖[21][23] 学习资源与要求 - 提供多模态数据集包括ADUULM-360、nuScenes、KITTI等公开数据集[18][19] - 提供Baseline代码取决于具体应用 包括多模态3D目标检测、BEV视角下Transformer融合以及基于点云图像的多模态融合等开源项目[19][21] - 必读论文包括Multi-View 3D Object Detection for Autonomous Driving、PointPillars、BEVFormer等5篇核心论文[22] 硬件与基础要求 - 最好具备4张4090显卡或以上设备性能的机器 最低不少于2张4090显卡设备 可考虑租赁云服务器[15] - 需具备深度学习基础 对多模态融合算法有简单了解 熟悉掌握Python语法以及PyTorch使用 最好具备Linux系统下开发调试能力[15] - 需完成在线1v1面试 学习Python编程语言入门和深度学习与PyTorch框架等先修课程[15] 课程产出与价值 - 学员将产出论文初稿、项目结业证书 并根据优秀程度获得推荐信[20] - 课程交付价值包括科研流程、写作方法和论文初稿[31] - 提供科研论文idea、数据集和Baseline代码三大核心资源[33]
特斯拉Optimus:世界模型会终结一切
自动驾驶之心· 2025-09-04 07:33
特斯拉Optimus技术演进路径 - 特斯拉Optimus大脑技术方案已从模仿学习转向视频学习,并计划最终采用世界模型方案[5] - 模仿学习虽实现端到端控制,但存在数据泛化性问题[6] - 视频学习解决数据来源多样性问题,但无法解决规模和成本问题[6] - 世界模型作为终极方案可同时解决数据多样性、规模和成本问题,并为机器人提供物理世界知识[6] 世界模型技术特性 - 世界模型是拥有大规模真实世界物理知识的模型,其内部所有行为都符合物理规律[6] - 与手动编写规则的传统模拟器不同,世界模型通过海量真实世界视频自主学习物理规律[6] - 谷歌Genie3创造近似3D物理世界,支持用户交互和创造,与2D固定视角的视频生成模型有本质区别[9][11] - Genie3生成的内容符合物理规律且可进行强交互,非常逼近真实场景[11] 世界模型在机器人领域的应用 - 首先使用Optimus执行任务的少量视频对通用视频生成模型进行微调,使模型理解机器人自身的物理特性[12] - 模型理解后可接受自然语言指令生成海量逼真模拟视频[14] - 通过逆向动力学模型分析成功视频,反解出电机控制指令(伪动作)[14] - 将视频与伪动作配对形成海量数据对,用于高效训练主控AI[14] - 该方法使机器人能在虚拟世界进行零成本、零风险的试错学习,特别适用于处理罕见边缘案例[14][16] - 英伟达技术显示该方法使人形机器人从1个现实任务扩展到22种新行为,未知环境任务成功率从0%提升至40%以上[16] 行业技术发展现状 - 目前自动驾驶行业大多数企业尚未实现端到端,仍采用感知-决策-控制分层设计[17] - 国内人形机器人企业仍处于花费大量资金收集数据进行模仿学习的阶段[17] - 特斯拉Optimus从模仿学习迁移到视频学习花费数年时间,预计还需数年才能实现世界模型方案[17]