Workflow
自动驾驶之心
icon
搜索文档
自驾搞科研别蛮干!用对套路弯道超车~
自动驾驶之心· 2025-07-11 09:14
课程核心价值 - 通过1v6精英小班模式快速掌握LLM/MLLM领域科研全流程,包括模型理论、代码实践、论文写作与投稿技巧 [1][5][10] - 提供经典与前沿Baseline资源,导师定制化分配研究idea,确保学员产出完整论文初稿 [6][7][20] - 系统性解决知识碎片化问题,帮助构建算法设计、创新思路及论文写作方法论体系 [10][22] 导师资质 - 毕业于知名计算机院校,具备计算机视觉、模型压缩、多模态大语言模型等领域的算法研究经验 [2] - 在CVPR/ICCV/EMNLP等顶会发表论文十余篇,担任CVPR/ICML/NeurIPS等会议审稿人,拥有多项发明专利 [3] 目标学员 - 自动驾驶领域硕博生(感知/预测/规划方向)、车企算法工程师、AI从业者 [11] - 需具备Python/PyTorch基础,熟悉深度学习框架,最好拥有4张4090显卡级别算力设备 [16][17] 课程设计 - 授课周期3.5-4个月,提供6个月答疑服务,采用腾讯会议直播+小鹅通回放形式 [19][21] - 产出对标SCI 1-4区或CCF A/B/C级别论文,定制化调整idea难度 [20][22] - 配套班主任督学服务,要求学员全勤参与、完成作业并保持学术诚信 [23] 技术门槛 - 最低硬件要求为2张4090显卡,建议掌握Linux开发调试及CUDA语法基础 [16][17] - 需通过1v1面试评估基础能力,课程深度根据学员水平动态调整 [14][16]
具身数采方案一览!遥操作和动捕的方式、难点和挑战(2w字干货分享)
自动驾驶之心· 2025-07-10 20:40
遥操作概念与历史 - 遥操作起源于太空探索和军事领域,已有几十年历史,早期应用于手术机器人和远程挖掘机等场景[8][10] - 传统定义为通过设备远距离操控机器人,需具备空间隔离特性[10] - 具身智能兴起使遥操作重要性提升,因数据驱动范式需要真机采集实际场景数据[15][17] 当前遥操作技术方案 - 主流方案包括同构臂控制、VR操控和纯视觉IK解算[21][28] - 纯视觉IK方案因操作自由度高而受青睐,但存在遮挡问题[23][30] - 动捕系统面临精度挑战,需解决不同体型操作者与标准机器人的映射问题[73][78] 技术挑战与创新 - 系统延迟是关键瓶颈,整体需控制在40毫秒以内以避免眩晕[33][117] - 异构手部控制是难点,需设计新型映射算法解决结构差异[82] - 移动平台与机械臂协同控制尚未形成稳定技术路径[96][97] 行业应用与案例 - ALOHA系统创新性地整合移动操作最小配置与端到端算法框架[102] - 手术机器人采用主从臂设计实现精准控制,但存在视野遮挡问题[8][106] - 挖掘机遥操作通过1:1驾驶舱复刻实现85%现场操作效率[123] 未来发展方向 - 可能演进路径包括纯虚(无穿戴)和纯实(力反馈外骨骼)两种方案[37][45] - 需建立智能辅助系统,类似汽车ESP提供自动补偿功能[124][125] - 终极解决方案可能是脑机接口,直接传递运动意图[36][144] 人机交互设计 - 优秀系统应充分调动人手眼协调能力,建立自然操作直觉[53] - 3D显示技术(VR/裸眼)可提升操作沉浸感但面临眩晕挑战[113][114] - 语言、手势等多模态输入将共同构成未来交互方式[142][143] 机器人操作系统 - 当前ROS系统以功能模块为核心,未来需转向以人为中心设计[145][146] - 可能出现类似安卓的标准化平台,统一硬件接口和开发工具[146] - 行业存在封闭化趋势,各厂商开发私有中间件导致生态碎片化[154][155]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 20:40
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术栈涉及多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂且知识碎片化 [3] 技术课程核心内容 - 课程直击学习痛点 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [4] - 构建端到端自动驾驶研究框架 帮助学员分类论文 提取创新点 形成研究体系 [5] - 理论结合实践 涵盖PLUTO(二段式) UniAD(一段式感知) OccWorld(世界模型) DiffusionDrive(扩散模型) VLA(大模型)等主流技术 [6] 课程大纲与关键技术 - 第一章概述端到端发展历史 模块化到端到端的演变 一段式 二段式 VLA范式优缺点及工业界应用 [8] - 第二章重点讲解背景知识 包括VLA涉及的大语言模型 扩散模型 强化学习 以及BEV感知 为未来两年高频面试技术 [8][9] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner Plan-R1等工作的优缺点 [9] - 第四章深入一段式端到端与VLA 涵盖UniAD PARA-Drive(感知) Drive-OccWorld OccLLaMA(世界模型) DiffusionDrive DiffE2E(扩散模型) ORION OpenDriveVLA ReCogDrive(VLA)等前沿工作 [10] - 第五章大作业为RLHF微调实战 涉及预训练和强化学习模块搭建 可迁移至VLA算法 [12] 行业趋势与人才需求 - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 技术上限高且工业界需求旺盛 [2][10] - 扩散模型与VLA结合成为热点 多模轨迹预测适应自动驾驶不确定性环境 多家公司尝试落地 [10] - 主机厂加速布局端到端算法预研和量产 如小米ORION等开源项目推动技术发展 [10][13]
ICCV25! 上交&中科院MambaFusion: 首个SOTA Mamba多模态3D检测
自动驾驶之心· 2025-07-10 20:40
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今 天 自 动 驾 驶 之 心 为 大 家 分 享 上 交 & 中 科 院 ICCV'25 中 稿 的 最 新 工 作 — MambaFusion ! 首个SOTA的纯Mamba多模态3D检测。 如果您有相关工作需要分 享,请在文末联系我们! 论文作者 | Hanshi Wang等 编辑 | 自动驾驶之心 论文总结 ICCV 2025 中稿的最新工作!本文首次提出了使用纯 Mamba 模块实现高效密集全局融合,并在相机– LiDAR 多模态 3D 目标检测任务上达到SOTA性能。 现有的LiDAR-Camera多模态融合策略往往难以在计算效率、长程建模能力和完整场景信息保留之间取得 平衡;受到状态空间模型和线性注意力的启发,本文尝试利用其线性计算复杂度和长程建模能力来解决 这些挑战,但实验表明,简单采用高效线性方法反而因高度信息丢失导致多模态对齐偏差而性能退化。 为此 ...
自动驾驶之心课程续费来啦!欢迎和我们一起继续成长
自动驾驶之心· 2025-07-10 20:40
续费优惠方案 - 公司为老学员提供1个月、3个月、6个月、12个月四种续费选择 [2] - 1个月续费按原价除以12后全额计算费用 [2] - 3个月续费按原价除以12后乘以3再打7折 [2] - 6个月续费按原价除以12后乘以6再打5折 [2] - 12个月续费按原价除以12后乘以12再打3折 [2] - 续费周期越长优惠力度越大 [2] 续费流程 - 老学员无需原价重新购买课程 [1] - 续费需联系指定助理进行咨询 [3]
新学习了下AI Agent,分享给大家~
自动驾驶之心· 2025-07-10 18:05
AI技术演进历程 - 英伟达GTC2025大会回顾AI领域十余年演进:从2012年AlexNet开启深度学习时代,到近年大模型推动生成式AI浪潮,再到当前Agentic AI范式,最终指向Physical AI愿景 [2] - 技术演进速率呈指数级提升:深度学习十年突破远超传统机器学习三十年积累,ChatGPT问世后两年半内AI进展超越整个深度学习时代,加速效应被形容为"人间一日,AI一年" [2] - 技术史视角下传统机器学习如同"远古文明",专家系统似"史前技术" [2] Agentic AI发展阶段 - **第一阶段(2024年秋季)**:OpenAI的o1与DeepSeek-R1推理模型技术成熟化 [5] - **第二阶段(2025年初)**:o3模型上线及Deep Research、Operator、Manus等智能体应用涌现 [5] - 核心定义:具备自主理解、规划、记忆和工具调用能力,能自动化完成复杂任务的系统,升级为Auto-Pilot模式 [10] 能力范式对比 - **传统AI阶段**:依赖专业界面与指令,解决限定领域任务,本质为人类操作工具 [6] - **大模型阶段**:获得通用任务解决能力与自然语言交互界面,升级为人机协作副驾驶(Co-Pilot),但仍需人类分步指挥 [6] - **Agentic AI阶段**:新增任务规划与工具调用能力,可理解并执行高层目标导向需求(如设计并发布海报) [10] 技术突破路径 - **任务规划能力**:关键挑战为实现类人类"系统二"慢思考(多步逻辑推理) [11] - **解决方案演进**: - 提示词工程(CoT/ToT)通过示例激发模型上下文学习 [14] - 监督学习提供标准解法路径(类比"通识教育"),强化学习自主探索最优路径(类比"研究生教育") [15] - **工具调用机制**:支持API/数据库/知识库/外部模型/GUI封装,调用方式包括预设流程(确定性高)与提示词触发(适应动态环境) [17][19] 应用生态与架构 - **实现架构**: - 操作型Agent(Operator)负责环境交互与自动化("眼和手") [28] - 信息型Agent(Deep Research)专注知识整合与分析("大脑") [28] - **协同模式**:GUI Agent适配人类数字界面,API Agent构建AI原生环境,多Agent协同案例包括荣耀YoYo调用中移动灵犀 [29] - **垂直领域落地**:成功案例覆盖广告(ICON)、网络安全(XBOW)、开发(Traversal),核心趋势包括交互界面简化为目标对话框、Action/Information Agent深度融合 [30] 底层驱动逻辑 - 算力转化智能三阶段定律: - 预训练阶段通过算法优化消化算力(Transformer收敛架构) [30] - 后训练阶段利用强化学习生成高质量合成数据 [30] - 推断阶段消耗算力提升实时智能,形成行为数据反哺预训练模型的正向循环 [30]
学长让我最近多了解些技术栈,不然秋招难度比较大。。。。
自动驾驶之心· 2025-07-10 18:05
自动驾驶行业技术趋势 - 自动驾驶技术快速迭代,算法工程师需掌握BEV、世界模型、扩散模型等复合型技能[2] - 企业招聘偏好复合型人才,要求覆盖传感器标定、数据处理、模型训练到部署全流程[3] - 前沿技术如端到端、VLA、强化学习等岗位需求增加,但量产仍以数据、检测、OCC等基础工作为主[2][3] 知识星球核心资源 - 提供价值千元的入门视频教程,涵盖世界模型、Transformer等前沿技术论文解读[3] - 未来将新增相机标定、多模态融合、大模型等课程,全部免费向会员开放[5] - 社区已吸引华为天才少年等专家加入,形成学术+产品+招聘的闭环生态[5] 四大前沿技术方向资源 视觉大语言模型 - 汇总10+开源项目,包括智能交通LLM应用、AIGC、视觉语言模型综述及提示学习方法[7] - 提供37.6M多语言Wikipedia图文数据集及12B规模的WebLI预训练数据[13] 世界模型 - 收录16项研究成果,如Meta的导航世界模型(NVM)、InfinityDrive泛化模型及DriveWorld 4D场景理解[27][28] - 聚焦视频生成与场景重建技术,如DriveDreamer-2支持定制化驾驶视频生成[28] 扩散模型 - 整合22篇权威综述,覆盖3D视觉、视频编辑、推荐系统等应用领域[30] - 自动驾驶领域应用包括Drive-1-to-3实车合成、MagicDriveDiT长视频生成等9项创新工作[31] 端到端自动驾驶 - 收录50+里程碑方法,如EfficientFuser高效融合框架、nuScenes开环SOTA模型UAD[37][39] - 开源仓库包含Opendilab和Pranav-chib整理的端到端驾驶方法全集[33] 数据集与评估体系 - 预训练数据集规模最大达12B(LAION5B),覆盖108种语言[13] - 自动驾驶专用数据集包括NuScenes(1200类)、Waymo Open Dataset(多任务)等19类[19][20] - 评估指标涵盖mAP(目标检测)、mIoU(语义分割)、Recall(图像检索)等标准化体系[14][17][18] 技术应用场景 智能交通 - 语言引导车辆检索系统采用多粒度检索技术,2023年新增3种统一多模态结构[21] 自动驾驶系统 - 感知模块集成VLPD行人检测、Language-Guided 3D检测等6项创新算法[22] - 规划控制领域应用GPT-Driver轨迹预测、DRIVEVLM多模态融合等5种解决方案[23][24] 行业生态发展 - 社区目标3年内建成万人规模的智能驾驶&具身智能社群[5] - 会员权益包含5000+干货内容、100+场直播回放及求职咨询等7项专属服务[51]
传统规控和端到端岗位的博弈......(附招聘)
自动驾驶之心· 2025-07-10 11:03
行业技术趋势 - 端到端自动驾驶技术正快速冲击传统规控方法 其场景泛化能力和数据驱动特性显著优于基于规则的系统 [2] - 传统规控依赖人工编写规则(PID/LQR/MPC等算法) 优势在于可解释性强但难以覆盖所有场景 [2] - 端到端方案直接从传感器映射控制指令 减少模块化架构的信息损失 实现全局优化 [4] 技术方案对比 端到端方案 - 优势:降低系统复杂性 通过数据学习人类驾驶风格 支持全流程联合优化 [4] - 劣势:决策过程黑箱化 需海量训练数据 极端场景依赖规则兜底 [4] 传统PNC方案 - 优势:模块功能明确 已知场景稳定性高 适合高安全需求场景 [5] - 劣势:多模块协同开发成本高 复杂场景规则覆盖有限 依赖高精地图 [5] 技术融合方向 - 行业实践表明端到端与PNC呈互补关系 如华为ADAS3.0采用传统规控作为安全冗余 [6] - 传统规控工程师转型需结合端到端技术 复合型人才更具竞争力 [7] 人才需求现状 规控算法工程师 - 岗位职责覆盖城区/高速/停车场等多场景决策规划算法开发 需掌握MPC/PID等经典算法 [10] - 任职要求硕士以上学历 熟悉强化学习算法 有Apollo等开源项目经验者优先 [10] - 薪资范围40k-100k/月 工作地集中在北京/上海 [10] 端到端工程师 - 核心任务包括VLA模型构建、训练数据集优化及闭环评测系统研发 [12] - 薪资30k-80k/月 工作地分布在深圳/上海 [12] 视觉算法专家 - 技术要求涵盖轻图感知、占据格网络研发及视觉大模型应用开发 [18] - 优先考虑有顶会论文或算法竞赛获奖经历者 薪资40k-80k/月 [17][18]
技术之外,谈一下自驾领域的HR面试和谈薪技巧!
自动驾驶之心· 2025-07-10 11:03
HR面试核心考察点 - 稳定性:工作稳定且负责,避免频繁跳槽(1年内跳槽会被质疑)[1] - 思维能力:逻辑推演和临场反应能力,体现高情商与聪明度[1] - 性格特质:乐观积极、团队意识强、情绪稳定以促进合作[1] - 抗压能力:面对失败能快速调整并重新尝试[1] - 沟通合作:大局观强,主动沟通并敢于表达观点[1] HR常见问题分类 沟通与综合能力 - 自我介绍需谦逊自信,采用总分结构突出优势[2] - 优缺点回答需真诚,技术类缺点可提及"爱钻牛角尖"[2] 稳定性评估 - 离职原因需客观被动,避免负面评价前公司[3] - 求职动机需结合应聘公司特点(如成长机会)[3] 沟通与冲突处理 - 与主管冲突时优先自我反思,强调全局视角[4] - 对主管要求需体现服从大局,关键问题协商解决[5] 薪资与谈判技巧 - 期望薪资建议参考岗位范围并上浮2k-3k[6] - 需明确薪资架构(绩效、五险一金基数等)[6] 求职资源与行业内容 自动驾驶领域专项 - 覆盖毫米波融合、BEV感知、规划控制等10大技术方向[11] - 包含CUDA部署、多传感器标定等实战问题[11] 具身智能领域 - 涉及Nerf、轨迹预测、Occupancy感知等前沿技术[15] - 提供视觉语言导航(VLN)、Diffusion Policy等面试题库[15] 行业研究与面经 - 汇总世界机器人报告、人形机器人蓝皮书等深度研报[16] - 收录理想汽车、英伟达等公司算法岗面经案例[18][22] 求职辅助服务 - 提供谈薪技巧、简历优化及内推资源[6][20] - 包含算法岗技能树、转行经验等宏观指导[23]
Gaussian-LIC2:多传感器3DGS-SLAM 系统!质量、精度、实时全要
自动驾驶之心· 2025-07-09 20:56
3D视觉与SLAM技术发展 - 同时定位与建图(SLAM)是支撑混合现实和机器人空间感知的基础技术,近年来神经辐射场(NeRF)和三维高斯喷溅(3DGS)引领了基于辐射场的SLAM新范式[3] - 基于NeRF的SLAM系统采用多层感知器表示场景,虽能实现高质量稠密地图但计算开销大,难以满足实时需求[4] - 3DGS技术突破实时性限制,具备快速渲染和出色视觉质量,在室内场景精度和渲染质量上优于NeRF系统[4] - 现有LiDAR-惯性-相机融合的3DGS SLAM系统在稳健状态估计和高视觉质量建图方面表现优异,但仍存在重建盲区、几何精度不足等挑战[6][7] Gaussian-LIC2系统创新 - 提出首个兼顾视觉质量、几何精度与实时性能的LiDAR-惯性-相机3DGS SLAM系统,实现实时高精度位姿估计和高保真地图构建[12] - 通过稀疏深度补全网络融合LiDAR与图像数据,预测未覆盖区域深度,全面初始化高斯分布缓解重建盲区[12] - 系统采用连续时间紧耦合LiDAR-惯性-相机里程计,支持异步多传感器数据无插值误差融合,提升稳定性和精度[11] - 创新性地将逐步构建的高斯地图光度约束与LiDAR-惯性数据在连续时间框架中融合,增强退化场景下的里程计鲁棒性[12] 技术实现细节 - 系统采用滑动窗口机制,窗口长度0.1秒,通过控制点扩展轨迹并在窗口内优化状态量[14] - 构建连续时间因子图,包含LiDAR因子、惯性因子和两种相机因子(LiDAR地图重投影约束和高斯地图光度约束)[17][22][23] - 采用SPNet深度补全模型,高效紧凑且无需微调即可使用,通过图像块遍历策略补充LiDAR盲区点云[32][34] - 高斯初始化采用邻域点计算样本协方差确定尺度方向,优化过程采用CUDA加速,限制在活跃高斯子集[35][38] 性能评估 - 在公开数据集测试中,系统定位精度达到0.03m平移误差和0.43°旋转误差,优于同类方法[45] - RGB渲染质量指标PSNR达30.36,SSIM达0.831,LPIPS低至0.144,展现卓越的视觉保真度[48] - 系统在LiDAR退化场景仍保持稳定性能,得益于高斯地图提供的光度约束[47] - 支持每秒数帧的实时建图速率,满足移动机器人和混合现实平台需求[44] 行业应用前景 - 系统可广泛应用于路径规划、主动建图、三维网格重建等机器人任务[3] - 技术扩展性支持视频帧插值、快速网格提取等下游任务[12] - 配套发布专用LiDAR-惯性-相机数据集,含真值位姿和深度图,推动新视角合成能力评估[12] - LiDAR成本显著下降提升技术集成可行性,加速在无人驾驶、AR/VR等领域的商业化落地[4]