Workflow
自动驾驶之心
icon
搜索文档
自动驾驶之心课程续费来啦!欢迎和我们一起继续成长
自动驾驶之心· 2025-07-10 20:40
续费优惠方案 - 公司为老学员提供1个月、3个月、6个月、12个月四种续费选择 [2] - 1个月续费按原价除以12后全额计算费用 [2] - 3个月续费按原价除以12后乘以3再打7折 [2] - 6个月续费按原价除以12后乘以6再打5折 [2] - 12个月续费按原价除以12后乘以12再打3折 [2] - 续费周期越长优惠力度越大 [2] 续费流程 - 老学员无需原价重新购买课程 [1] - 续费需联系指定助理进行咨询 [3]
新学习了下AI Agent,分享给大家~
自动驾驶之心· 2025-07-10 18:05
AI技术演进历程 - 英伟达GTC2025大会回顾AI领域十余年演进:从2012年AlexNet开启深度学习时代,到近年大模型推动生成式AI浪潮,再到当前Agentic AI范式,最终指向Physical AI愿景 [2] - 技术演进速率呈指数级提升:深度学习十年突破远超传统机器学习三十年积累,ChatGPT问世后两年半内AI进展超越整个深度学习时代,加速效应被形容为"人间一日,AI一年" [2] - 技术史视角下传统机器学习如同"远古文明",专家系统似"史前技术" [2] Agentic AI发展阶段 - **第一阶段(2024年秋季)**:OpenAI的o1与DeepSeek-R1推理模型技术成熟化 [5] - **第二阶段(2025年初)**:o3模型上线及Deep Research、Operator、Manus等智能体应用涌现 [5] - 核心定义:具备自主理解、规划、记忆和工具调用能力,能自动化完成复杂任务的系统,升级为Auto-Pilot模式 [10] 能力范式对比 - **传统AI阶段**:依赖专业界面与指令,解决限定领域任务,本质为人类操作工具 [6] - **大模型阶段**:获得通用任务解决能力与自然语言交互界面,升级为人机协作副驾驶(Co-Pilot),但仍需人类分步指挥 [6] - **Agentic AI阶段**:新增任务规划与工具调用能力,可理解并执行高层目标导向需求(如设计并发布海报) [10] 技术突破路径 - **任务规划能力**:关键挑战为实现类人类"系统二"慢思考(多步逻辑推理) [11] - **解决方案演进**: - 提示词工程(CoT/ToT)通过示例激发模型上下文学习 [14] - 监督学习提供标准解法路径(类比"通识教育"),强化学习自主探索最优路径(类比"研究生教育") [15] - **工具调用机制**:支持API/数据库/知识库/外部模型/GUI封装,调用方式包括预设流程(确定性高)与提示词触发(适应动态环境) [17][19] 应用生态与架构 - **实现架构**: - 操作型Agent(Operator)负责环境交互与自动化("眼和手") [28] - 信息型Agent(Deep Research)专注知识整合与分析("大脑") [28] - **协同模式**:GUI Agent适配人类数字界面,API Agent构建AI原生环境,多Agent协同案例包括荣耀YoYo调用中移动灵犀 [29] - **垂直领域落地**:成功案例覆盖广告(ICON)、网络安全(XBOW)、开发(Traversal),核心趋势包括交互界面简化为目标对话框、Action/Information Agent深度融合 [30] 底层驱动逻辑 - 算力转化智能三阶段定律: - 预训练阶段通过算法优化消化算力(Transformer收敛架构) [30] - 后训练阶段利用强化学习生成高质量合成数据 [30] - 推断阶段消耗算力提升实时智能,形成行为数据反哺预训练模型的正向循环 [30]
学长让我最近多了解些技术栈,不然秋招难度比较大。。。。
自动驾驶之心· 2025-07-10 18:05
自动驾驶行业技术趋势 - 自动驾驶技术快速迭代,算法工程师需掌握BEV、世界模型、扩散模型等复合型技能[2] - 企业招聘偏好复合型人才,要求覆盖传感器标定、数据处理、模型训练到部署全流程[3] - 前沿技术如端到端、VLA、强化学习等岗位需求增加,但量产仍以数据、检测、OCC等基础工作为主[2][3] 知识星球核心资源 - 提供价值千元的入门视频教程,涵盖世界模型、Transformer等前沿技术论文解读[3] - 未来将新增相机标定、多模态融合、大模型等课程,全部免费向会员开放[5] - 社区已吸引华为天才少年等专家加入,形成学术+产品+招聘的闭环生态[5] 四大前沿技术方向资源 视觉大语言模型 - 汇总10+开源项目,包括智能交通LLM应用、AIGC、视觉语言模型综述及提示学习方法[7] - 提供37.6M多语言Wikipedia图文数据集及12B规模的WebLI预训练数据[13] 世界模型 - 收录16项研究成果,如Meta的导航世界模型(NVM)、InfinityDrive泛化模型及DriveWorld 4D场景理解[27][28] - 聚焦视频生成与场景重建技术,如DriveDreamer-2支持定制化驾驶视频生成[28] 扩散模型 - 整合22篇权威综述,覆盖3D视觉、视频编辑、推荐系统等应用领域[30] - 自动驾驶领域应用包括Drive-1-to-3实车合成、MagicDriveDiT长视频生成等9项创新工作[31] 端到端自动驾驶 - 收录50+里程碑方法,如EfficientFuser高效融合框架、nuScenes开环SOTA模型UAD[37][39] - 开源仓库包含Opendilab和Pranav-chib整理的端到端驾驶方法全集[33] 数据集与评估体系 - 预训练数据集规模最大达12B(LAION5B),覆盖108种语言[13] - 自动驾驶专用数据集包括NuScenes(1200类)、Waymo Open Dataset(多任务)等19类[19][20] - 评估指标涵盖mAP(目标检测)、mIoU(语义分割)、Recall(图像检索)等标准化体系[14][17][18] 技术应用场景 智能交通 - 语言引导车辆检索系统采用多粒度检索技术,2023年新增3种统一多模态结构[21] 自动驾驶系统 - 感知模块集成VLPD行人检测、Language-Guided 3D检测等6项创新算法[22] - 规划控制领域应用GPT-Driver轨迹预测、DRIVEVLM多模态融合等5种解决方案[23][24] 行业生态发展 - 社区目标3年内建成万人规模的智能驾驶&具身智能社群[5] - 会员权益包含5000+干货内容、100+场直播回放及求职咨询等7项专属服务[51]
传统规控和端到端岗位的博弈......(附招聘)
自动驾驶之心· 2025-07-10 11:03
行业技术趋势 - 端到端自动驾驶技术正快速冲击传统规控方法 其场景泛化能力和数据驱动特性显著优于基于规则的系统 [2] - 传统规控依赖人工编写规则(PID/LQR/MPC等算法) 优势在于可解释性强但难以覆盖所有场景 [2] - 端到端方案直接从传感器映射控制指令 减少模块化架构的信息损失 实现全局优化 [4] 技术方案对比 端到端方案 - 优势:降低系统复杂性 通过数据学习人类驾驶风格 支持全流程联合优化 [4] - 劣势:决策过程黑箱化 需海量训练数据 极端场景依赖规则兜底 [4] 传统PNC方案 - 优势:模块功能明确 已知场景稳定性高 适合高安全需求场景 [5] - 劣势:多模块协同开发成本高 复杂场景规则覆盖有限 依赖高精地图 [5] 技术融合方向 - 行业实践表明端到端与PNC呈互补关系 如华为ADAS3.0采用传统规控作为安全冗余 [6] - 传统规控工程师转型需结合端到端技术 复合型人才更具竞争力 [7] 人才需求现状 规控算法工程师 - 岗位职责覆盖城区/高速/停车场等多场景决策规划算法开发 需掌握MPC/PID等经典算法 [10] - 任职要求硕士以上学历 熟悉强化学习算法 有Apollo等开源项目经验者优先 [10] - 薪资范围40k-100k/月 工作地集中在北京/上海 [10] 端到端工程师 - 核心任务包括VLA模型构建、训练数据集优化及闭环评测系统研发 [12] - 薪资30k-80k/月 工作地分布在深圳/上海 [12] 视觉算法专家 - 技术要求涵盖轻图感知、占据格网络研发及视觉大模型应用开发 [18] - 优先考虑有顶会论文或算法竞赛获奖经历者 薪资40k-80k/月 [17][18]
技术之外,谈一下自驾领域的HR面试和谈薪技巧!
自动驾驶之心· 2025-07-10 11:03
HR面试核心考察点 - 稳定性:工作稳定且负责,避免频繁跳槽(1年内跳槽会被质疑)[1] - 思维能力:逻辑推演和临场反应能力,体现高情商与聪明度[1] - 性格特质:乐观积极、团队意识强、情绪稳定以促进合作[1] - 抗压能力:面对失败能快速调整并重新尝试[1] - 沟通合作:大局观强,主动沟通并敢于表达观点[1] HR常见问题分类 沟通与综合能力 - 自我介绍需谦逊自信,采用总分结构突出优势[2] - 优缺点回答需真诚,技术类缺点可提及"爱钻牛角尖"[2] 稳定性评估 - 离职原因需客观被动,避免负面评价前公司[3] - 求职动机需结合应聘公司特点(如成长机会)[3] 沟通与冲突处理 - 与主管冲突时优先自我反思,强调全局视角[4] - 对主管要求需体现服从大局,关键问题协商解决[5] 薪资与谈判技巧 - 期望薪资建议参考岗位范围并上浮2k-3k[6] - 需明确薪资架构(绩效、五险一金基数等)[6] 求职资源与行业内容 自动驾驶领域专项 - 覆盖毫米波融合、BEV感知、规划控制等10大技术方向[11] - 包含CUDA部署、多传感器标定等实战问题[11] 具身智能领域 - 涉及Nerf、轨迹预测、Occupancy感知等前沿技术[15] - 提供视觉语言导航(VLN)、Diffusion Policy等面试题库[15] 行业研究与面经 - 汇总世界机器人报告、人形机器人蓝皮书等深度研报[16] - 收录理想汽车、英伟达等公司算法岗面经案例[18][22] 求职辅助服务 - 提供谈薪技巧、简历优化及内推资源[6][20] - 包含算法岗技能树、转行经验等宏观指导[23]
Gaussian-LIC2:多传感器3DGS-SLAM 系统!质量、精度、实时全要
自动驾驶之心· 2025-07-09 20:56
3D视觉与SLAM技术发展 - 同时定位与建图(SLAM)是支撑混合现实和机器人空间感知的基础技术,近年来神经辐射场(NeRF)和三维高斯喷溅(3DGS)引领了基于辐射场的SLAM新范式[3] - 基于NeRF的SLAM系统采用多层感知器表示场景,虽能实现高质量稠密地图但计算开销大,难以满足实时需求[4] - 3DGS技术突破实时性限制,具备快速渲染和出色视觉质量,在室内场景精度和渲染质量上优于NeRF系统[4] - 现有LiDAR-惯性-相机融合的3DGS SLAM系统在稳健状态估计和高视觉质量建图方面表现优异,但仍存在重建盲区、几何精度不足等挑战[6][7] Gaussian-LIC2系统创新 - 提出首个兼顾视觉质量、几何精度与实时性能的LiDAR-惯性-相机3DGS SLAM系统,实现实时高精度位姿估计和高保真地图构建[12] - 通过稀疏深度补全网络融合LiDAR与图像数据,预测未覆盖区域深度,全面初始化高斯分布缓解重建盲区[12] - 系统采用连续时间紧耦合LiDAR-惯性-相机里程计,支持异步多传感器数据无插值误差融合,提升稳定性和精度[11] - 创新性地将逐步构建的高斯地图光度约束与LiDAR-惯性数据在连续时间框架中融合,增强退化场景下的里程计鲁棒性[12] 技术实现细节 - 系统采用滑动窗口机制,窗口长度0.1秒,通过控制点扩展轨迹并在窗口内优化状态量[14] - 构建连续时间因子图,包含LiDAR因子、惯性因子和两种相机因子(LiDAR地图重投影约束和高斯地图光度约束)[17][22][23] - 采用SPNet深度补全模型,高效紧凑且无需微调即可使用,通过图像块遍历策略补充LiDAR盲区点云[32][34] - 高斯初始化采用邻域点计算样本协方差确定尺度方向,优化过程采用CUDA加速,限制在活跃高斯子集[35][38] 性能评估 - 在公开数据集测试中,系统定位精度达到0.03m平移误差和0.43°旋转误差,优于同类方法[45] - RGB渲染质量指标PSNR达30.36,SSIM达0.831,LPIPS低至0.144,展现卓越的视觉保真度[48] - 系统在LiDAR退化场景仍保持稳定性能,得益于高斯地图提供的光度约束[47] - 支持每秒数帧的实时建图速率,满足移动机器人和混合现实平台需求[44] 行业应用前景 - 系统可广泛应用于路径规划、主动建图、三维网格重建等机器人任务[3] - 技术扩展性支持视频帧插值、快速网格提取等下游任务[12] - 配套发布专用LiDAR-惯性-相机数据集,含真值位姿和深度图,推动新视角合成能力评估[12] - LiDAR成本显著下降提升技术集成可行性,加速在无人驾驶、AR/VR等领域的商业化落地[4]
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 20:56
大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算:研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展:探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [3] - 复杂推理优化:研究链式思维(CoT)和强化学习优化(GRPO)等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法,包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT,结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论,形成清晰知识体系 [8] - 提升Coding能力,实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象:大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数:6人/期,至多8人 [5] - 要求:具备深度学习基础,熟悉Python和PyTorch,有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿,具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码,涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡,建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea,目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月,确保后续研究支持 [22]
聊过十多位大佬后的暴论:自动驾驶还有很多事情没做,转行具身大可不必!
自动驾驶之心· 2025-07-09 20:56
前沿技术发展路线 - BEV感知方案已完全成熟并广泛应用于量产 目前没有哪家智驾方案敢说BEV不能用 基于BEV的动态感知 静态感知 OCC感知全都可以做 [11] - 端到端方案在实际中除PR外未展现出相对两阶段模型的真正优势 从数据收集难度 训练代价等角度看 后者实操性更强 [3] - VLA/VLM成为行业新宠 提供解决corner case的可能性 但真正落地效果尚待验证 目前缺乏足够数据研究其在corner case上的表现 [4] - 扩散模型是轨迹生成的新方式 尤其适合多模轨迹生成 但真实场景表现仍需验证 [16] - 世界模型主要用于仿真和数据生成 在预训练和端侧推理方面仍有待挖掘 [49] 技术难点与挑战 - 当前最大难点是corner case处理 99%场景已能收敛 但非结构化乡村道路 多上下匝道等极端场景仍难以100%通过 [11] - VLA面临三大问题:缺乏验证数据 模型效率不足 训练方案仍依赖模仿学习 [4][5] - 小模型效果优化 大模型量化加速 车端芯片性能优化是VLM量产需要攻克的难点 [37] - 多模态语言模型存在幻觉问题 对视觉和激光雷达等模态的理解容易产生幻觉 [47] - 闭环仿真仍需发力 位姿不准时的重建质量和新视角效果是待解决问题 [16] 未来发展方向 - 构建基于BEV的自动驾驶专用VLM大模型是值得尝试的方向 [18] - 自动驾驶技术将围绕更安全的驾驶 更好的乘坐体验 更全面的场景覆盖发展 数据运营能力将成为核心竞争力 [26] - 中心化是未来趋势 从单车智能向V2X等群体智能发展 实现云端信息联合 [44] - 扩散模型在实时性方面的提升值得关注 如CVPR2025的DiffusionDrive [36] - 3D高斯可向世界模型发展 高斯核形状与核函数的替换有深挖空间 [49] 行业现状与趋势 - 2025年关键词是"智驾平权" 平价车型开始普及辅助驾驶 但低算力方案在corner case处理上仍力不从心 [33] - BEV感知从开源到广泛上车用了两年时间 而VLM等新技术尚未摸清就急于落地 行业风气浮躁 [45] - 自动驾驶符合二八定律 剩下20%长尾场景需要80%努力 方向是采用端到端和大模型 [35] - 行业竞争将从算法转向数据闭环效率 自动化工具链和AI驱动数据流水线是关键 [26] - L2+玩家注重VLM泛化性 L4玩家则聚焦世界模型以提升安全性 [23]
端到端笔记:diffusion系列之Diffusion Planner
自动驾驶之心· 2025-07-09 20:56
自动驾驶算法模块 - 自动驾驶算法分为两大模块:场景理解(理解周围环境、预测agents行为)和决策(生成安全舒适轨迹、可定制化驾驶行为)[1][2] - diffusion planner工作聚焦于决策模块中的闭环场景性能提升[3] 自动驾驶规划方法对比 - rule-based方法(如PDM)依赖道路中心线选择和规则系统,存在迁移性差、人力成本高、缺乏灵活性等问题[4] - learning-based方法(如UniAD、VAD)通过模仿学习实现类人行为预测,但面临多模态数据分布学习困难,仍需依赖rule-based兜底[6] diffusion model技术优势 - 能更好拟合多模态驾驶行为数据分布,通过高斯加噪/降噪过程分解复杂问题[6] - 基于classifier guidance机制实现定制化驾驶行为,无需针对特定场景重新训练模型[6] - 已在图像生成、机器人动作生成、离线RL等领域验证其高效学习能力[11] diffusion planner核心技术 - 采用MLP-Mixer+self-attention的encoder结构进行高效信息提取[12] - 通过cross-attention降低计算量,DPM-Solver实现20Hz高速轨迹生成[12] - 同时完成自车规划和周车行为预测,支持定制化驾驶行为生成[12] 性能提升表现 - 测试数据显示在Test14、Test14-hard、Val14场景分别达到89.19、75.99、89.87分,显著优于Diffusion-es等对比模型[20] - 实现高质量轨迹生成和多模态驾驶行为拟合(如无导航信息下生成左转/右转/直行轨迹)[14][16] - 在毫末200小时物流车数据上展现强泛化能力,适应非机动车道行驶等特殊场景[23] 后续优化方向 - 数据量和模型参数量scale up对闭环性能的影响[28] - 端到端框架设计而不仅限于planner模块优化[28] - 训练和推理过程的进一步加速[28] - 实车场景下的高效guidance机制实现[28]
筹备了半年!端到端与VLA自动驾驶小班课来啦(一段式/两段式/扩散模型/VLA等)
自动驾驶之心· 2025-07-09 20:02
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,通过传感器数据直接输出规划或控制信息,避免模块化方法的误差累积 [1] - BEV感知打通模块化壁垒,UniAD统一感知和规划任务,标志着端到端时代的来临 [1] - 2024年理想汽车宣布E2E+VLM双系统架构量产,显示工业界对端到端技术的重视 [1] - 技术方向多样化:PLUTO(二段式)、UniAD(感知一段式)、OccWorld(世界模型一段式)、DiffusionDrive(扩散模型一段式)等算法涌现 [4] 技术挑战与学习痛点 - 端到端技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识,学习路径复杂 [3] - 论文数量繁多且知识碎片化,缺乏高质量文档和系统实战指导,入门难度高 [3] - 目标驱动导航需闭环任务支持,但理论与实践衔接困难 [3] 课程核心内容与特点 - 课程覆盖端到端算法发展历史、技术范式(一段式、二段式、VLA)及工业界应用 [8][10] - 重点讲解背景知识:Transformer、BEV感知、扩散模型、VLM强化学习技术(RLHF、GRPO) [8] - 二段式端到端聚焦PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [9] - 一段式端到端涵盖UniAD、OccWorld、DiffusionDrive、VLA等子领域,配套Diffusion Planner和ORION实战 [10][12][13] - 大作业为RLHF微调实战,可迁移至VLA算法 [14] 课程结构与安排 - 分五章展开:端到端概述、背景知识、二段式、一段式与VLA、RLHF大作业 [8][9][10][14] - 8月15日开课,三个月结课,离线视频+VIP群答疑+三次线上答疑 [20] - 章节解锁时间:第一章(8.01)、第二章(8.15)、第三章(8.30)、第四章(9.15)、第五章(10.30) [20] 目标人群与学习收获 - 需具备GPU(推荐4090+)、自动驾驶基础、Transformer/BEV/强化学习概念、Python/PyTorch能力 [22] - 学完可达1年经验算法工程师水平,掌握端到端框架及BEV、扩散模型、VLA等关键技术 [23] - 可复现主流算法,应用于实习、校招、社招场景 [23]