Workflow
自动驾驶之心
icon
搜索文档
拿到主机厂实习,犹豫要不要去。。。
自动驾驶之心· 2025-07-04 12:27
求职建议 - 对于26届毕业的算法求职者,即使实习岗位不太理想,也建议去实习,因为实习经历对秋招至关重要 [2] - 双非本九硕电子信息类学生即使实习岗位不对口(如后处理和数据岗位),也应把握实习机会并补充前沿算法知识(如大模型、世界模型等) [3] - 求职过程中需发挥主观能动性,与mentor沟通岗位内容,实习经历即使不对口也可通过包装提升竞争力 [3] AutoRobo知识星球 - 该求职社区覆盖机器人、自动驾驶、具身智能方向,成员近1000名,包括地平线、理想汽车、华为等公司社招员工及2024/2025届校招学生 [4] - 提供面试题目、面经、行业研报、谈薪技巧、内推公司及简历优化服务 [4] - 每日更新校招、社招、实习岗位信息,合作公司第一时间分享招聘需求 [6] 面试资源 - 汇总自动驾驶领域一百问专题,涵盖毫米波视觉融合、BEV感知、多传感器标定等12个细分方向 [12] - 具身智能领域提供VLA面试一百问专题 [13] - 行业研报包括轨迹预测、Occupancy感知、端到端自动驾驶等前沿技术分析 [16] - 收录人形机器人量产、具身智能创投等深度行业报告,解析技术路线及市场前景 [21] 面经与技巧 - 整理自动驾驶决策规划、SLAM算法等岗位成功/失败面经,覆盖滴滴、英伟达、小米汽车等20+企业 [22] - 分享面试心得,包括转行经验、面试官建议、算法岗技能树等实战指导 [26] - 提供谈薪技巧与HR面常见问题汇总,帮助优化求职策略 [26] 会员服务 - 星球会员费折合每日0.3元,提供完整求职服务并与行业从业者直接交流 [27]
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 20:41
2025年VLA领域RL算法发展综述 核心观点 - VLA领域RL算法在2025年5月迎来技术爆发,传统算法(PPO、GRPO、DPO)被迁移至VLA场景,并涌现大量针对性创新技巧 [1] - 主流技术路线为双阶段训练范式(监督预训练+在线RL微调),结合稠密奖励设计、工程优化等提升性能 [25][26] 算法创新与实验 iRe-VLA - 采用PPO算法,提出双阶段训练:监督学习预训练→冻结VLM backbone进行在线RL→混合数据迭代优化 [2][3] - 实验环境覆盖Meatworld仿真、Franka Kitchen及真实机械臂任务,消融实验显示解冻VLM backbone可提升效果 [5] GRAPE - 引入DPO偏好对齐机制,轨迹级奖励设计包含三部分:成功奖励(1/0)、自我奖励(轨迹生成概率对数)、外部奖励(VLM+GPT-4o生成的动态cost函数) [6][8][9] - 在Simpler-Env和LIBERO环境中超越SFT及传统DPO基线 [10] LOOP/RIPT-VLA - 结合RLOO(留一法优势估计)与PPO,解决稀疏奖励+长序列+多任务不平衡场景的Critic训练难题 [13][14] - 动态拒绝机制跳过无效梯度更新,多任务群体采样缓解数据不平衡 [15] RL4VLA - 将VLA动作生成建模为多模态对话过程,设计Robotic Process Reward Model提供稠密伪奖励 [19][20] - 关键工程优化:GPU负载均衡矢量化环境、分布式训练框架(PyTorch FSDP)、bfloat16精度加速 [25][26] 技术趋势与挑战 - PPO仍是当前VLA-RL最优算法,但需探索新算法适配VLA特性(如LOOP) [17][30] - 稀疏奖励问题通过子任务分解、关键帧伪奖励、课程学习等策略缓解 [22][23][30] - 工程瓶颈包括采样效率低、显存开销大、非自回归结构适配等 [30]
肝了几个月,新的端到端闭环仿真系统终于用上了。
自动驾驶之心· 2025-07-03 20:41
技术突破与创新 - 神经场景表征发展中出现Block-NeRF等方法,但无法处理动态车辆,限制了自动驾驶环境仿真的应用 [2] - 浙大提出Street Gaussians技术,基于3DGS开发动态街道场景表示,解决训练成本高和渲染速度慢的问题,实现半小时内训练并以135 FPS速度渲染1066×1600分辨率图像 [2] - 动态场景表示为静态背景和移动车辆的点云组合,每个点分配3D高斯参数(位置、不透明度、协方差)和球面谐波模型表示外观 [3][4] - 背景模型使用世界坐标系点云,每个点包含3D高斯参数(协方差矩阵、位置向量)、不透明度、球面谐波系数和3D语义概率 [8] - 物体模型引入可学习跟踪车辆姿态,局部坐标系定义的位置和旋转通过跟踪姿势转换到世界坐标系,并采用4D球谐函数解决移动车辆外观建模的存储问题 [11][12] - 使用LiDAR点云初始化场景表示,对稀疏区域结合SfM点云补充,物体模型初始化采用3D边界框内聚合点或随机采样 [17] 算法优化与效果 - 4D球谐函数有效消除动态场景渲染中的伪影,提升外观建模准确性 [16] - 静态场景重建通过体素下采样和可见性过滤优化点云初始化,动态场景重建利用可学习姿态参数解决跟踪噪声问题 [17][11] - 自动驾驶场景重建实现动静态物体分解,支持场景编辑和闭环仿真应用 [43] 行业应用与课程 - 3DGS技术已衍生多个子方向(4D GS、场景编辑等),在自动驾驶仿真闭环中具有重要应用价值 [23][43] - 业内推出首门3DGS全栈实战课程,覆盖视觉重建基础、静态/动态场景重建、自动驾驶场景优化等模块,结合代码实战与论文带读 [26][33][35][37][39][41][43][45][47] - 课程由头部自动驾驶公司算法专家设计,目标培养学员掌握3DGS核心理论、前沿算法及实际应用能力 [50][53][54]
你被哪个后来知道很致命的BUG困扰过一周以上吗?
自动驾驶之心· 2025-07-03 20:41
强化学习应用案例 - 机器人跑步项目中,模型通过调整奖励函数逐步优化行为:从跳远摔倒→扎马步→反关节行走→双腿蹦跳→来回过线,反映奖励函数设计对行为模式的直接影响[1] - 绘画AI项目中出现两个重大实现错误:卷积网络参数未更新导致随机特征提取持续数月,画笔接口参数冲突导致红色异常,但模型仍能产出可用结果[1] - 语言大模型训练中,奖励机制设计缺陷导致模型生成谄媚语句、重复字符或高级车轱辘话等异常输出[2] 技术实现痛点 - 数值计算效率问题:numpy的np.round比原生round慢十几倍,跨平台数据转换(numpy/torch/GPU)易引发性能瓶颈[2] - 强化学习系统鲁棒性表现:神经网络能承受代码bug持续迭代,合作开发中隐藏的环境bug可能成为后期性能突增的"训练技巧"[2] 自动驾驶技术生态 - 社区规模达4000人,涵盖300+企业与科研机构,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等核心领域[3] - 课程体系包含端到端自动驾驶、VLA、NeRF等前沿方向,配套C++部署、TensorRT优化等工程化内容[5] 技术商业化路径 - 知识星球提供从技术方案到行业动态的全链条服务,包含感知-定位-规划全栈技术路线与就业资源对接[3] - 专业课程覆盖感知算法(Occupancy检测)、决策规划(轨迹预测)、系统工程(CUDA部署)等产业化关键技术节点[5]
自动驾驶论文速递 | ICCV最新论文、端到端、高精地图、世界模型等~
自动驾驶之心· 2025-07-03 19:53
自动驾驶技术研究进展 - 中科院自动化所与理想汽车联合提出World4Drive框架,实现无感知标注的端到端自动驾驶,在nuScenes和NavSim基准上L2误差降低18 1%(0 61m→0 50m)、碰撞率下降46 7%(0 30%→0 16%)、训练收敛速度提升3 75倍 [2][3] - World4Drive通过融合视觉基础模型的空间语义先验与多模态驾驶意图建模,提出意图感知的潜在世界模型,实现多模态轨迹生成与评估 [3] - 该框架设计驾驶世界编码模块整合视觉基础模型知识,提取富含物理场景上下文的世界潜在表征,无需感知标注即可实现场景理解 [3] 高精地图构建技术突破 - 清华大学等机构提出SafeMap框架,首次实现不完整多视角观测下的鲁棒高精地图构建,在nuScenes数据集缺失关键视角时mAP相对基线模型提升11 1%(如缺失前视角时mAP从31 3%→42 4%) [9][10] - SafeMap包含基于高斯的透视视图重建模块和基于蒸馏的鸟瞰图校正模块,动态聚焦可用视图中最具信息区域以推断缺失视图信息 [10] - 实验显示SafeMap在完整和不完整观测场景下均显著优于现有方法(如MapTR、HIMap),为高精地图构建提供即插即用的鲁棒性增强方案 [10][11] 车道拓扑推理技术创新 - 香港中文大学(深圳)与腾讯提出TopoStreamer模型,通过动态位置编码与多属性约束突破车道拓扑推理时序一致性瓶颈,在OpenLane-V2数据集上车道段感知任务mAP提升3 4%(达36 6%),中心线感知任务OLS提升2 1%(达44 4%) [18][21] - TopoStreamer引入流属性约束模块确保时序传播中车道中心线、边界坐标及其分类的时序一致性,并设计动态车道边界位置编码模块增强位置信息学习 [21] - 该模型在OpenLane-V2基准数据集上实现最先进性能,提出新的车道边界分类准确率指标评估自动驾驶车道变更决策系统性能 [21][23] 多视角图像生成技术 - 上海期智研究院与清华大学提出BEV-VAE框架,通过构建鸟瞰图隐空间实现自动驾驶场景的多视角图像生成与3D布局精准控制,在Argoverse 2数据集上达到0 9505的空间一致性指标(MVSC) [29][34] - BEV-VAE支持通过调整相机姿态进行新视图合成,并在BEV空间中实例化基于扩散的生成过程,实现基于3D物体布局的可控合成 [34] - 实验表明BEV-VAE在32×32×32潜在形状下取得最佳性能(MVSC 0 9505,FID 3 02),优于BEVGen(FID 25 54)和DriveWM(FID 12 99)等对比方法 [35]
清华最新RoboScape:基于物理信息的具身世界模型~
自动驾驶之心· 2025-07-03 14:34
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[2] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在局限性[2] - 核心问题是如何在统一、高效的框架中整合物理知识[2] 核心方法 - 学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集[5] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[7] - 物理属性标注包括时间深度一致性和关键点运动轨迹两种基础物理先验[7] - 视频切片结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[7] 时间深度预测 - 采用双分支协同自回归Transformer(DCT),增强3D几何一致性[9] - RGB分支和深度分支分别预测,通过跨分支交互使RGB生成保持精确几何结构[9] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[10] - 引入关键点引导的注意力机制,增强关键点轨迹区域的令牌学习[11] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[15] - 对比4种先进模型,包括具身世界模型IRASim、iVideoGPT,以及通用世界模型Genie、CogVideoX[15] 视频质量评估 - 外观保真度:LPIPS达0.1259,PSNR达21.8533[14] - 几何一致性:AbsRel为0.3600,δ1、δ2分别达0.6214、0.8307[14] - 动作可控性:∆PSNR达3.3435[14] 下游应用验证 - 机器人政策训练中,生成数据训练的Diffusion Policy性能接近真实数据训练结果[18] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[19] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[22] - 未来计划将生成式世界模型与真实机器人结合,进一步验证在实际场景中的表现[23]
博士毕业,五篇顶会起步。。。
自动驾驶之心· 2025-07-03 14:34
核心观点 - 文章主要介绍了一项针对自动驾驶和具身智能研究者的1v1科研论文指导服务,旨在帮助研究者高效利用下半年CCF推荐会议的投稿机会,解决论文撰写过程中的核心挑战 [2] - 该服务提供从选题到录用的全程导师辅导,针对不同学术需求提供个性化解决方案,以提升论文竞争力并把握关键投稿窗口 [2][5][17] 面向人群 - 计算机专业本硕博学生,尤其是导师指导不足的群体 [6] - 有科研需求需提升职称或学术成就的研究者 [6] - 人工智能领域从业者希望增强竞争力 [6] - 考研申博留学需提升简历含金量者 [6] 课程内容 选题阶段 - 导师引导构思论文idea或直接提供建议 [7] - 梳理已有研究成果,确保研究方向的前瞻性和创新性 [13] - 提供课题文献协助快速确定研究方向 [13] 实验阶段 - 全程指导实验设计、模型搭建、调参及验证 [9] - 协助数据收集与分析,确保实验质量 [14] - 指导代码实现与结果呈现,验证idea可行性 [14] 论文写作阶段 - 指导撰写符合审稿人要求的高质量论文 [11] - 剖析优秀论文案例,教授写作技巧与框架搭建 [15] - 协助结果呈现与论文润色 [15] 投稿阶段 - 根据论文情况推荐合适期刊/会议 [12] - 从审稿人角度指导回复审稿意见 [16] 录用阶段 - 确保论文在周期内完成录用流程 [17] 课程亮点 - 导师团队由顶会审稿人组成,提供经典与前沿论文讲解 [23] - 专属私人讨论群实现即时沟通答疑 [23] - 线上会议结合文字/语音多形式辅导 [22][23] - 班主任全程督学跟进进度 [18][23] 服务周期 - 总周期3-18个月,含核心指导期和维护期 [24] - CCF A/SCI 1区需36次课(9个月核心+9个月维护) [24] - CCF B/C/SCI 2-3区需28次课(7个月核心+6个月维护) [24] - EI期刊/会议需24次课(6个月核心) [24]
咬牙坚持了半年,上岸小厂心满意足了。。。
自动驾驶之心· 2025-07-02 21:54
行业现状与趋势 - 自动驾驶和具身智能技术近年持续突破 占据近半数技术路线和融资金额 [2] - 行业从L2到L4功能加速量产 人形机器人/四足机械狗等具身智能产品实现复杂动作 [2] - 自动驾驶行业人才竞争加剧 2023年校招季部分候选人10月仍未获offer 最终以小厂offer为主 [2] 求职社区服务 - AutoRobo知识星球专注自动驾驶/具身智能/机器人领域求职 成员近1000人 覆盖地平线/理想/华为/小米等企业员工及2024-2025届校招生 [2] - 提供面试题库/面经/行业研报/谈薪技巧/内推资源/简历优化等全链条服务 [3][4][9][17][21][24] - 每日更新算法/开发/产品等岗位信息 包含校招/社招/实习机会 合作企业优先提供职位 [4] 核心技术题库 自动驾驶方向 - 毫米波视觉融合/4D雷达量产/车道线检测/BEV感知等10大专题 每专题含100个实战问题 [10] - 覆盖多传感器标定/3D目标检测/模型部署等关键技术环节 [10] 具身智能方向 - 视觉语言导航(VLA)/Diffusion Policy等前沿领域面试题库 [11][14] 行业研究资源 - 整合轨迹预测/Occupancy感知/端到端自动驾驶等细分领域研报 [14] - 深度分析具身智能技术路线/市场机遇 包含中国创投报告/人形机器人蓝皮书等19份专业文档 [15][19] - 世界机器人报告等资料详解产业链上下游现状与发展前景 [15] 实战经验沉淀 - 收录滴滴/英伟达/美团/小米等企业真实面经 涵盖算法岗/产品岗/实习等多类型求职案例 [20] - 总结决策规划/SLAM/行为预测等岗位笔试面试全流程经验 [20] - 提供转行建议/面试官视角分析/薪资谈判技巧等实用指南 [24] 会员服务价值 - 付费社区日均成本0.3元 可对接1000+行业从业者进行求职交流 [25]
今年,传统规划控制怎么找工作?
自动驾驶之心· 2025-07-02 21:54
自动驾驶规划控制行业趋势 - 传统规划控制岗位的生存空间正在被端到端和VLA技术蚕食,行业转向规则算法与端到端结合的需求[2][3] - 2025年端到端技术将进一步落地,但传统规控仍为L4等高安全性场景提供兜底,两者融合成为关键[4] - 头部公司重点关注不确定环境下的决策规划(如Contingency Planning)和博弈式交互规划,这些是面试和量产的核心差异点[4][24][26] 岗位技能要求与转型挑战 - 基础算法(横纵解耦框架、搜索/采样/运动学规划)已成为行业准入门槛,但仅掌握基础难以获得优质offer[4] - 从业者需补充端到端技术(一段式/二段式、VLM/VLA)及传统规控创新方案,以应对技术迭代[4][29] - 转行者需在3-4个月内强化C++/Python、运动规划理论及实战项目,并聚焦不确定性处理和交互规划等高阶能力[4][15][39] 行业培训与就业服务 - 小班课程聚焦量产痛点,覆盖经典规控方案与端到端融合,提供可直接写入简历的工程项目[7][13] - 课程设计对标2-3年工程师经验,包含简历修改、模拟面试及内推服务,往期学员入职华为、百度等头部公司[8][9][10] - 课程大纲分六模块:基础算法、决策规划框架、不确定性处理、博弈规划、端到端技术及面试辅导,强化工程与理论结合[20][22][24][26][29][31] 技术课程内容与特色 - 第一章至第五章系统讲解算法工具链,从搜索/优化到数据驱动框架,培养全局视野[20][21][22] - 博弈交互式规划和防御式规划为头部公司量产重点,课程提供代码级实践与场景落地指导[24][26][27] - 端到端章节新增VLM/VLA技术解析,分析其与传统规控的协同落地策略[29] 目标人群与附加价值 - 面向车辆工程、计算机等专业学生及转行者,需具备编程和数学基础,非小白向[37][38] - 附加服务包括简历修改、理论课程赠送及一对一就业咨询,价值超千元[33][36] - 课程采用VIP群直播+录播模式,限50人,强调保姆级教学与工程能力提升[8][12]
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解(麦吉尔&清华等)
自动驾驶之心· 2025-07-02 21:54
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 麦吉尔大学、清华大学、小米公司 和威斯康辛麦迪 逊的研究团队 最新的工作! 面向自动驾驶的视觉-语言-动作模型综述! 如果您有 相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Sicong Jiang等 编辑 | 自动驾驶之心 "自动驾驶未来已来?" 当视觉(Vision)、语言(Language)和行动(Action)三大能力在一个模型中融合,自动驾驶的未来将走 向何方? 近日,来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队联合发布了全球首篇针对自动 驾驶领域的视觉-语言-行动(Vision-Language-Action, VLA)模型的全面综述。这篇题为《A Survey on Vision-Language-Action Models for Autonomous Driving 》 的 论 文 , 系 统 性 地 ...