Workflow
自动驾驶之心
icon
搜索文档
死磕技术的自动驾驶黄埔军校,三年了!
自动驾驶之心· 2025-09-12 18:28
能让学习变得有趣,一定是件了不起的事情。能推动行业发展,成为企业和高校沟通的桥梁,就更伟大 了!1个月前,在和朋友聊天的时候说过,我们的愿景是让AI与自动驾驶走进每个有需要的同学。 自动驾驶之心知识星球,截止到目前已经完成了产业、学术、求职、问答交流等多个领域的闭环。几个运 营的小伙伴每天都在复盘,什么样的社区才是大家需要的?我们有没有什么地方没有考虑到?花拳绣腿的 不行、没人交流的也不行、找不到工作的更不行。于是我们就给大家准备了学术领域最前沿的内容、工业 界大佬级别圆桌、开源的代码方案、最及时的求职信息... 星球内部为大家梳理了近40+技术路线,无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和 学习入门路线,都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾,都是活跃在一线 产业界和工业界的大佬(经常出现的顶会和各类访谈中哦)。欢迎随时提问,他们将会为大家答疑解惑。 我们是一个认真做内容的社区,一个培养未来领袖的地方。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾 社区,已经超过4000人了。我们期望未来2 ...
万字长文!首篇智能体自进化综述:迈向超级人工智能之路
自动驾驶之心· 2025-09-12 07:33
自进化智能体综述核心观点 - 大语言模型本质上是静态的 无法在面对新任务 不断进化的知识领域或动态交互环境时调整其内部参数 这已成为开放交互式环境部署的关键瓶颈[2][3] - 自进化智能体代表人工智能领域的范式转变 从扩展静态模型转向开发能够从数据 交互和经验中持续学习与适应的系统 这是通往人工超级智能(ASI)的关键路径[3][4] - 综述首次系统性地围绕三个基础维度组织该领域:进化对象(what) 进化时机(when)和进化机制(how) 为理解与设计自进化智能体提供结构化框架[3][6] 进化对象(What to Evolve) - 智能体系统可分解为四个基本进化支柱:模型(推理和行为参数) 上下文(指令和长期记忆) 工具集(外部技能创建和管理) 以及架构(系统协作结构)[19] - 进化机制涵盖策略 经验 提示 记忆 工具创建与掌握 架构选择等多个维度 不同方法在各维度有不同侧重 例如Mem0在7个维度均有进化 MAS-Zero侧重模型和经验进化[20] 进化时机(When to Evolve) - 按时间阶段分为测试时内自进化(任务执行期间实时适应)和测试时外自进化(任务完成间利用积累经验提升未来表现)[22] - 测试时内进化具有在线性 学习数据动态产生且直接针对当前问题 测试时外进化具有回顾性 作用于历史数据旨在提高任务分布预期性能[23] - 进化依赖三种基本学习范式:上下文学习(ICL) 监督微调(SFT)和强化学习(RL) 在不同时间背景下数据可用性和学习目标存在差异[23] 进化机制(How to Evolve) - 主要方法家族包括基于奖励的进化(标量奖励 自然语言反馈 外部信号) 模仿与示范学习(高质量范例学习) 以及基于群体和进化的方法(选择 变异 交叉等机制)[27] - 不同方法在反馈类型 数据源 奖励粒度 样本效率 稳定性和可扩展性等方面存在显著差异 例如基于奖励的方法对奖励设计敏感 模仿学习受示范质量影响大 群体方法资源密集但可扩展性好[29] 应用场景(Where to Evolve) - 应用系统分为通用领域进化(数字领域各种任务能力扩展)和专用领域进化(特定领域专业知识深化) 前者侧重经验迁移 后者侧重领域深化[31] - 关键应用领域包括自主软件工程 个性化教育 医疗保健和智能虚拟助手等 持续适应和进化在这些领域至关重要[10][38] 评估体系(Evaluation) - 评估需超越传统静态系统 涵盖随时间推移的适应能力 知识积累与保留 长期泛化能力以及技能迁移 同时减轻灾难性遗忘[34] - 现有基准如ScienceAgentBench(102任务) SWE-bench(2,294任务) WebShop(12,087任务)等 在任务领域 核心指标和时空范围上各有侧重[36] - 个性化评估需开发更轻量级 适应性指标和动态基准 传统ROUGE和BLEU等指标无法充分捕捉动态进化特性[39] 技术挑战与研究方向 - 泛化能力面临专业化与广泛适应性矛盾 需可扩展架构设计 跨领域适应技术(测试时扩展 推理时适应)以及持续学习与灾难性遗忘解决方案[40][42] - 安全与可控性需应对用户相关风险和环境风险 通过智能体宪法 安全训练算法和隐私保护措施实现平衡部署[43][44] - 多智能体生态系统需平衡个体与集体推理 开发高效算法和自适应框架 并建立动态评估基准反映持续适应和演变交互[45]
自动驾驶世界模型技术交流群成立了
自动驾驶之心· 2025-09-12 07:33
行业动态 - 自动驾驶行业成立世界模型技术交流群 旨在促进技术交流和合作 [1] - 技术交流群专注于世界模型相关内容的讨论和研究 [1]
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心· 2025-09-12 07:33
世界模型技术路线概述 - 华为、蔚来等公司坚持世界-行为流派(WA),认为世界模型是实现自动驾驶的终极方案,与视觉语言行为模型(VLA)路线形成技术分歧 [2] - 世界模型使智能体能够理解、表示并预测动态环境,研究重点从2D图像转向利用RGB-D图像、占用网格和激光雷达点云等原生3D/4D表示 [5] - 原生3D/4D信号在物理坐标系中编码度量几何、可见性和运动信息,为安全关键系统提供多视图一致性、刚体运动学和场景级遮挡推理等能力 [9] 3D/4D表示方法 - 视频流表示为多帧序列,强调几何一致性和时间连贯性以确保物理合理的仿真 [19] - 占用网格使用体素指示空间占用状态,时序占用网格扩展到4D捕捉场景演变,能强制执行空间约束 [20] - 激光雷达点云直接捕捉几何信息且不受纹理、光照或天气变化影响,时序激光雷达记录时间戳实现对运动的精确建模 [22] - 神经表示如神经辐射场(NeRF)和高斯溅射(GS)对连续体素场或显式高斯基元进行建模,时间扩展版本添加动态组件实现4D重建 [23] 世界模型功能分类 - 数据引擎在几何和语义条件下生成多样化场景,用于大规模数据增强和场景创建 [29][33] - 动作解释器基于历史观测和动作条件预测未来世界状态,实现动作感知的预测 [30][33] - 神经仿真器通过生成连续场景状态迭代仿真智能体与环境的闭环交互 [31][33] - 场景重建器从部分观测中恢复完整连贯的3D/4D场景,用于高保真建图和数字孪生修复 [34][35] 生成模型技术 - 变分自编码器(VAEs)通过概率编码和解码学习结构化latent空间,训练稳定但生成样本较模糊 [37] - 生成对抗网络(GANs)通过生成器和判别器的极小极大博弈生成数据,能产生高保真样本但训练不稳定 [38] - 扩散模型通过学习逆转逐步加噪过程实现生成,具有较强的稳定性和样本质量但推理速度较慢 [39][40] - 自回归模型将联合分布分解为条件概率乘积,适合序列生成但计算复杂度高 [41] 视频生成世界模型 - 基于视频的生成模型通过提供视觉线索和时间动态建模复杂场景,分为数据引擎、动作解释器和神经仿真器三类 [44] - 感知数据增强方法如BEVGen采用自回归Transformer生成与BEV布局空间对齐的环境图像,MagicDrive结合3D几何和语义描述生成高保真图像 [47] - 动作引导的视频生成如GAIA-1融合视频、文本和动作输入合成真实驾驶场景,GAIA-2扩展框架纳入智能体配置和环境因素 [50] - 闭环仿真器如DriveArena构建包含交通合成和自回归场景生成的框架,DreamForge通过物体级位置编码增强长时程建模能力 [54] 占用生成世界模型 - 基于占用的生成模型提供以几何为中心的表示,对3D世界的语义和结构细节进行编码,分为场景表示器、占用预测器和自回归仿真器 [56] - 3D感知鲁棒性增强方法如SSD采用离散和latent扩散模型生成场景级3D分类数据,SemCity通过扩散过程提升几何和语义保真度 [59] - 4D占用预测模型基于自车动作和历史观测预测未来占用状态,EmergentOcc引入可微渲染实现自监督训练,UniWorld结合图像和激光雷达数据学习基础占用模型 [61] - 自回归仿真器生成大规模时间连贯的4D占用,PDD提出尺度可变扩散框架从粗布局到精细细节生成户外场景,XCube采用分层体素latent扩散实现多分辨率生成 [64] 激光雷达生成世界模型 - 基于激光雷达的生成模型提供几何感知且外观不变的表示,在几何保真度和环境鲁棒性方面具有优势,分为数据引擎、动作预测器和自回归仿真器 [67] - 感知数据增强方法如DUSty通过GAN框架合成真实激光雷达扫描,LiDARGen将朗之万动力学应用于点云生成,R2DM利用DDPM过程实现更高精度生成 [70] - 场景补全方法如UltraLiDAR利用VQ-VAE引入离散体素表示实现稀疏到密集补全,LiDiff利用去噪过程重新定位重复点补全遮挡区域 [73] - 时序建模方法如Copilot4D通过VQ-VAE对点云token化并重构为离散扩散模型,以历史帧和未来动作为输入预测未来激光雷达帧 [75] 数据集与评估体系 - 行业采用多模态数据集如nuScenes包含1000个场景140万帧图像和40万帧激光雷达数据,Waymo Open包含1150个场景100万帧图像和23万帧激光雷达数据 [79] - 评估指标包括生成质量指标(FID、FVD)、预测准确性指标(L1 Error、IoU)、规划质量指标(ADE、FDE)和重建质量指标(PSNR)等 [81][83][84] - 感知保真度指标如FPD评估点云几何真实性,FRD评估激光雷达距离图像分布保真度,FSVD评估体素结构保真度 [81] - 时空一致性指标如VCS评估多视角几何一致性,CTC评估CLIP特征时间稳定性,TTCE评估点云运动对齐 [81][83]
扩散模如何重塑自动驾驶轨迹规划?
自动驾驶之心· 2025-09-12 07:33
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪声符合特定分布 [1] - 原理基于正向扩散和反向生成两个过程 模拟墨水在清水中扩散和恢复的物理过程 [2] - 通过神经网络学习分布规律 从纯噪声中恢复原始数据 [2] - 自2020年提出后已获得超过2万次学术引用 [2] 自动驾驶领域应用 - 应用于数据生成 场景预测 感知增强和路径规划等多个自动驾驶关键环节 [11] - 可处理连续分布噪声和离散分布噪声 适用于决策规划等离散问题 [11] - 在端到端和VLA(Vision-Language-Action)架构中发挥重要作用 [11] - 扩散模型在多模轨迹预测中应用广泛 能更好适应自动驾驶环境的不确定性 [28] 端到端自动驾驶课程体系 - 课程涵盖端到端自动驾驶发展历史 技术范式演变及业界动态 [22] - 重点技术栈包括多模态大模型 BEV感知 强化学习 视觉Transformer和扩散模型 [15][29] - 第二章聚焦背景知识 包含视觉Transformer BEV感知 扩散模型理论和VLM强化学习等核心内容 [29] - 课程设置四大核心章节:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA [22][23][24] 技术模块深度解析 - 一段式端到端包含基于感知(UniAD/VAD/PARA-Drive) 世界模型(Drive-OccWorld/OccLLaMA) 扩散模型(DiffusionDrive/Diffusion Planner/DiffE2E)和VLA四大方向 [24][26][28] - 世界模型技术可应用于场景生成 端到端控制和闭环仿真 是近年热门研究方向 [26] - VLA架构融合视觉大语言模型 BEV 扩散模型和强化学习 代表端到端自动驾驶最高技术形态 [31] - 课程配备Diffusion Planner和ORION(小米VLA系统)两大实战项目 [28][31] 课程特色与收益 - 采用Just-in-Time Learning理念 通过案例教学快速掌握核心技术栈 [17] - 帮助构建领域知识框架 提升论文分类和创新点提取能力 [18] - 通过RLHF微调大作业实现理论到实践的完整闭环 [33] - 学员需具备4090及以上GPU算力 及Python/PyTorch 概率论 线性代数基础 [38] - 完成课程可达到1年左右端到端算法工程师水平 掌握主流算法框架并具备项目应用能力 [38][39]
转行自动驾驶算法之路 - 学习篇
自动驾驶之心· 2025-09-11 07:33
开学季促销活动 - 推出299元超级折扣卡 一年有效期内购买全平台课程享受七折优惠 [3] - 自动驾驶之心知识星球立减88元 [3] - 课程消费满1000元赠送2门带读课程 八选二 [3] - 自动驾驶论文辅导1000元最高抵扣10000元 [3] - 自动驾驶1v6小班课限时立减1000元 [3] - 全平台硬件优惠包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂双臂方案 [3] 自动驾驶技术课程体系 - 端到端与VLA自动驾驶课程覆盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等技术方向 [6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注技术 解决动静态元素 OCC和轨迹标注等复杂需求 [11] - 多模态大模型与自动驾驶实战课程涵盖通用多模态大模型 大模型微调 端到端自动驾驶多模态大模型 [15][16] - BEV感知全栈系列教程包含毫米波雷达视觉融合 激光雷达视觉融合 3D4D毫米波雷达 车道线检测 Occupancy占用网络等技术模块 [19] - 多传感器标定融合课程提供标定技术方案 [20] - 模型部署课程包含CUDA与TensorRT部署实战 BEV模型部署实战 [21] - 规划控制与预测课程涵盖规划控制理论实战 轨迹预测理论与实战 [21] - 自动驾驶仿真与开发课程提供Carla-Autoware联合仿真 面向量产的C++实战教程 [22] - 科研辅导课程包括自动驾驶与CV领域通用论文辅导 NeRF与自动驾驶论文带读 [22] 教学服务特色 - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 [29] - 小班课聚焦实际工作需求 解决量产痛点 分享面试亮点 [23][24] - 提供简历辅导和面试辅导环节 针对秋招社招需求 [24][25] - 课程学员可获岗位推荐 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等企业 [41] 硬件与开发支持 - 硬件平台支持包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂平台 桌面级机械臂平台 数采夹爪方案 [3] - 开发环境要求本地电脑配备GPU 显存至少12GB 支持CUDA加速 [36] - 提供Ubuntu开发环境支持 课程代码规范基于Apollo等工业级框架 [36]
2025年,盘一盘中国智驾的自动驾驶一号位都有谁?
自动驾驶之心· 2025-09-11 07:33
行业技术趋势 - 2023年起自动驾驶领域迎来以端到端为主导的技术转向 2024年成为行业公认的新一代量产主流方案 2025年VLA和世界模型成为下一代量产突破方向[1] - 技术架构迭代伴随研发路径 人才结构与竞争格局重新洗牌 领军人物技术判断决定团队在重构期能否站稳脚跟甚至超车领先[1] - 端到端架构正逐步成为智能驾驶新基座 大模型 世界模型 VLM方案等技术加速从学术界走向工业界[53] 理想汽车 - 郎咸朋2018年加入理想汽车担任自动驾驶负责人 职位从自动驾驶业务总经理转变为自动驾驶副总裁[5] - 2023年年底全场景NOA推送标志理想辅助驾驶从高速向城市场景延展 2024年7月15日推送无图NOA功能首次实现对先验信息依赖突破[5] - 去年E2E+VLM双系统成为业界智驾方案标杆 今年主攻VLA司机大模型已量产[5] 小米汽车 - 叶航军2021年初被雷军点将主持小米自动驾驶业务 小米SU7爆火后智能技术能力快速提升[7][8] - 1000万Clips版小米端到端辅助驾驶系统出厂即搭载 学术界推出VLA 强化学习 世界模型 3DGS等前沿工作[9] - 小米不惜代价做好辅助驾驶 正努力跻身智驾第一梯度[9] 蔚来汽车 - 任少卿2020年8月加入蔚来担任智能驾驶研发副总裁 曾担任Momenta研发总监兼联合创始人[11] - 大力推动蔚来智能驾驶技术发展 特别在城区NOA规模铺开和全域领航辅助NOP+功能发布做出重要贡献[11] - 今年主推世界行为WA自动驾驶路线 核心思路是海量使用云端仿真数据让大模型理解世界而学会驾驶[11] 小鹏汽车 - 李力耘2019年6月加入小鹏汽车 2023年8月2日接班吴新宙成为小鹏智驾总负责人[14][15] - 负责小鹏汽车高速和城市自主导航辅助驾驶系统NGP研发 是国内为数不多纯视觉方案拥簇[14][15] - 算力算法数据域控制器线控底盘全链路布局 传感器以外采为主坚持纯视觉方案[15] - 近期小鹏G7 Ultra将迎来OTA升级 AI智能辅助驾驶系统融入全场景VLA大模型[16] 比亚迪 - 杨冬生现任比亚迪副总裁兼产品规划及汽车新技术研究院院长 2005年加入比亚迪[18] - 作为DM-i超级混动系统总设计师 主导研发技术助力比亚迪新能源销量自2022年起多次夺取月度销量冠军[18] - 2024年比亚迪全系车型都将搭载天神之眼高阶智驾系统 开启全民智驾新时代[20] 地平线 - 苏箐2022年加入地平线担任高阶智能驾驶项目总负责人 曾任华为汽车BU智能驾驶产品线总裁[22] - 地平线端到端HSD方案搭载J6P量产上车 自研芯片+智驾方案双管齐下[22] - 大众汽车与地平线成立合资企业 苏箐担任CTO[22] Momenta - 曹旭东2016年创办Momenta 提出一个飞轮两条腿战略 飞轮是数据驱动 两条腿是量产自动驾驶L2和完全无人驾驶L4[25] - 战略核心理念是通过L2量产车收集数据反哺L4技术迭代 形成数据→算法→产品→数据正向循环[25] - 技术路线选择端到端大模型和无图方案 2025年已跻身智驾第一梯队成为全球品牌共同选择[26] - R6飞轮大模型频繁现身公众视野 2019年把核心精力投入数据领域布局进入成果初现阶段[26] 大疆车载(卓驭) - 沈劭劼担任大疆车载总负责人 香港科技大学电子和计算机工程系副教授 科大-DJI联合创新实验室主任[30] - 截至2025年5月卓驭已与9家主流车企达成合作 包括大众汽车 上汽通用五菱 比亚迪等[31] - 已有20余款车型量产 还有30多款车型即将量产落地 预计2025年有200万台车型搭载大疆车载智驾系统上路[31] 英伟达 - 吴新宙2023年加入英伟达现任自动驾驶团队总负责人 曾担任小鹏汽车自动驾驶副总裁[35][36] - 在小鹏汽车期间带领团队完成高速NGP和城市NGP量产落地 推动小鹏汽车在智能驾驶领域发展[35] - 英伟达自动驾驶推出覆盖从数据 感知到大模型智能体的全栈技术[36] 百度 - 王亮现任百度智能驾驶事业群组首席研发架构师 IDG技术委员会主席 阿波罗智能技术董事[40] - 2024年主导VTA基础大模型和纯视觉智驾路线在极越01车型实现量产应用[40] - 带领团队推出支持全国300城覆盖的领航辅助驾驶方案[40] 博世中国 - 吴永桥2024年1月出任博世智能驾驶与控制系统事业部中国区总裁 推动博世城市NOA产品落地[42] - 2024年5月发布首款城市NOA产品并计划年底覆盖24个城市[42] - 主张主机厂聚焦用户体验而供应商承担标准配置开发 提出智能驾驶技术趋同 特斯拉算法领先等观点[42] - 博世坚定推进一段式端到端技术 与文远知行联合基于英伟达Orin Y打造一段式端到端方案8月底在奇瑞高端车型量产[43] 小马智行 - 楼天城小马智行联合创始人兼首席技术官 中国公认大学生计算机编程第一人 算法领域卓越成就[45] - 主导开发世界模型技术 使小马智行在L4级自动驾驶领域建立独特技术优势[45] 元戎启行 - 周光2021年正式任职元戎启行CEO 公司完成阿里巴巴战略领投3亿美元B轮融资[48] - 近日发布最新一代搭载VLA模型的辅助驾驶平台DeepRoute IO 2.0[49]
港科&理想最新!OmniReason: 时序引导的VLA决策新框架
自动驾驶之心· 2025-09-11 07:33
核心观点 - 香港科技大学(广州)与理想汽车团队提出OmniReason框架 一种新型视觉-语言-动作(VLA)框架 通过联合建模动态3D环境及决策过程构建时空推理能力 解决现有自动驾驶视觉语言模型忽略时间维度的问题 [2][6][7] - 框架包含大规模数据集OmniReason-Data(含OmniReason-nuScenes和OmniReason-Bench2Drive)和OmniReason-Agent架构 通过幻觉抑制自动标注流程提供密集时空标注和自然语言解释 确保物理合理性和时间连贯性 [2][6][8] - 在开环规划和视觉问答基准实验中达到最先进性能 平均L2误差0.34米 碰撞率0.40% 违规率3.18% 在CIDEr指标实现37.6%提升 BLEU-1提升100.1% 显著缩小自动驾驶系统与人类驾驶员差距 [3][25][26] 数据集构建 - OmniReason-Data基于nuScenes和Bench2Drive框架 包含高质量视觉问答对 涵盖静态与动态描述及四维域内因果推理和动作信息 通过多模态大语言模型理解时空信息和因果推理 [6][13] - 采用统一场景感知标注流程 结合人类先验知识、任务分解和大语言模型推理 从多视角视频流和目标级空间标注生成语言-动作对 通过Qwen2.5VL 72B模型生成多步因果链 阐释代理行为、环境上下文和交通规则相互作用 [14][15] - 标注框架基于结构化场景分析 自动生成高质量可解释语言-动作对 减少幻觉现象 提供丰富多模态推理信息 确保数据集捕捉时间动态和因果关系 严格对齐现实驾驶场景 [8][15] 架构设计 - OmniReason-Agent为端到端VLA架构 集成稀疏时间记忆模块和解释生成器 通过知识蒸馏将专家决策模式和自然语言推理注入模型 实现上下文感知且高度可解释的自动驾驶行为 [2][7][8] - 稀疏时间记忆模块通过运动补偿、记忆感知特征传播和多模态融合实现时序一致感知 几何对齐补偿自车运动 记忆条件归一化传播对象状态 查询传播保持跨帧身份一致 在复杂场景下保持目标轨迹稳定 [18][20] - 采用复合损失函数对3D目标检测与结构化场景理解联合优化 包含目标类别识别、空间定位、车道及道路结构分析 通过加权损失平衡不同任务 [21][22] 性能表现 - 开环轨迹规划任务中平均L2误差0.34米 与ORION持平 优于BEV-Planner的0.55米和DriveVLM的0.40米 碰撞率0.40% 违规率3.18% 创最优纪录 优于BEV-Planner的4.26%和VAD-Base的3.82% [25] - 驾驶视觉问答任务在OmniReason-nuScenes基准上CIDEr指标提升37.6% BLEU-1提升100.1% BLEU-4提升224.0% 在OmniReason-Bench2Drive基准上CIDEr提升9.0% BLEU-1提升53.6% BLEU-4提升210.8% ROUGE-L指标持续领先 [26] - 消融研究显示环境描述使BLEU-1得分提升7.6% 动态对象描述将碰撞率降至0.37% 时序记忆模块使L2距离从0.38降至0.34 碰撞率从0.44降至0.40 交互率从3.65降至3.18 [27][28][29] 技术优势 - 框架独特支持零样本端到端规划能力 突破刺激-响应映射局限 实现对因果-时间推理原则显式落地 填补现有系统在建模动态环境刺激与车辆响应间因果关系的空白 [12] - 通过多模态监督和自然语言推理提升自动驾驶基准真实性、可解释性和覆盖度 为场景理解和动作生成研究奠定坚实基础 树立可解释性与真实性新标杆 [6][8] - 在安全性、舒适性和可解释性指标达到最先进水平 决策质量和解释能力显著提升 增强真实场景下自动驾驶可靠性和理解能力 [7][8]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-09-11 07:33
自动驾驶技术演进 - 自动驾驶技术从传统模块化架构向端到端VLA模型演进 解决错误累积和信息损失问题[2] - 传统模块化架构存在错误累积效应 上游模块微小误差会逐级传递放大[2] - 纯视觉端到端模型存在黑箱问题和因果混淆 可能学到虚假关联而非真正因果关系[2] - VLA模型通过引入语言作为中间表征 赋予模型推理解释和交互能力[2][3] - VLA模型可利用LLM预训练的世界知识 理解复杂交通场景并做出符合逻辑决策[3] VLA技术优势 - VLA模型提升可解释性与可信赖性 能用自然语言解释决策依据[3] - VLA模型增强泛化与处理长尾场景能力 通过语言抽象和推理能力泛化到未见场景[3] - VLA实现自然人机交互 用户可通过自然语言向车辆下达高级指令[3] - VLA范式打造感知认知决策一体化智能体 不仅是会开车更能理解世界与人沟通的AI驾驶员[3] 论文辅导课程内容 - 课程系统讲解VLA自动驾驶重点理论知识 帮助形成清晰知识体系[4] - 课程将模型理论与代码实践结合 协助开发设计新模型[4] - 课程提供论文写作方法论和投稿建议 解决文章不会写不会投问题[4] - 课程时长12周在线小组科研加2周论文指导和10周论文维护期[5][12] - 课程提供经典论文前沿论文和代码实现 包括创新点baseline数据集[5][10] 课程收获 - 学员可获得对典型论文分析方法 理解重点算法与原理清晰不同算法优劣势[5][12] - 导师为每位学员提供研究idea 即使自己没想到合适idea也能进行后续研究[5][12] - 学员coding能力增强 在老师准备baseline代码和数据集上高效展开研究[5][12] - 学员获得论文写作自查修改方法论 以及投稿建议[5][13] - 学员可能产出一篇论文初稿 通过完全投入课程学习与实践[13] 课程大纲 - 课程覆盖传统端到端自动驾驶 VLA端到端自动驾驶模块化VLA模型等内容[6][8][19] - 具体包括传统端到端介绍 VLA端到端介绍 模块化VLA模型 统一端到端VLA模型等[6][8][24] - 课程包含论文写作方法论和课题汇报与投稿意见[8][25] - 每周课时1-1.5小时 共14周课程[24][25] - 课程采用2+1式师资 主导师由名校教授行业导师担任 副导师由博士硕士担任[21] 招生要求 - 学员需具备深度学习基础 对自动驾驶算法有简单了解[14] - 学员需熟悉掌握python语法和PyTorch使用[14] - 学员需完成在线1v1面试[14] - 硬件要求最好具备8张4090显卡或以上设备 最低不少于4张4090显卡[17] - 学习要求每周上课前阅读资料完成作业 课上积极参与讨论 应该全勤[17] 服务支持 - 课程提供公开数据集 如nuScenes Waymo Argoverse等自动驾驶数据集[21] - 课程提供baseline代码 包括基于模仿学习扩散模型和VLA的端到端自动驾驶代码[22] - 课程提供必读论文 包括A Survey on Vision-Language-Action Models等5篇核心论文[23] - 上课平台为腾讯会议直播加小鹅通回放[26] - 答疑周期为6个月 授课周期为3.5-4个月[27]
研三了,找工作的时候卡在了论文上......
自动驾驶之心· 2025-09-10 20:00
又到了秋招季,大厂放出来的提前批基本上都要求项目经历或者研究成果比较强、背景比较好的同学。 不少同学因为成果普通找工作屡屡受挫,想申博来缓解就业压力,问题是在硕士阶段基本就决定了你能不 能读博(包括院校和成果,申请制)。 对普通研究生来说,无论是申博还是就业都需要 亮眼的成绩来证明 自己的科研或者实战能力。 —— 即尽可能多的高质量科研论文 假如再读一次研,一定要早早多发论文! 但论文也不是自己想发就能发出来的,特别是区位较高、难度较 大的会议期刊。 如果你现在面临导师放养,在论文写作过程中,你时常陷入选题迷茫、框架混乱、论证无力的困境,迟迟 无法产出满意的论文,不妨考虑寻求专业助力, 自动驾驶之心 服务大家的论文辅导正式推出了。 有位研二学员,毕业要求发小论文,但自己导师散养,找到了我们指导,3个月顺利完成一篇SCI 论文。 扫码咨询区位价格~ 为什么选我们? 自动驾驶之心作为国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平 台, 拥有 国内最顶 尖的学术资源。 深耕自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉 学科的挑战与机遇,更明白一篇高质量论文对于学生 ...