Workflow
自动驾驶之心
icon
搜索文档
肝了几个月,新的端到端闭环仿真系统终于用上了。
自动驾驶之心· 2025-07-03 20:41
技术突破与创新 - 神经场景表征发展中出现Block-NeRF等方法,但无法处理动态车辆,限制了自动驾驶环境仿真的应用 [2] - 浙大提出Street Gaussians技术,基于3DGS开发动态街道场景表示,解决训练成本高和渲染速度慢的问题,实现半小时内训练并以135 FPS速度渲染1066×1600分辨率图像 [2] - 动态场景表示为静态背景和移动车辆的点云组合,每个点分配3D高斯参数(位置、不透明度、协方差)和球面谐波模型表示外观 [3][4] - 背景模型使用世界坐标系点云,每个点包含3D高斯参数(协方差矩阵、位置向量)、不透明度、球面谐波系数和3D语义概率 [8] - 物体模型引入可学习跟踪车辆姿态,局部坐标系定义的位置和旋转通过跟踪姿势转换到世界坐标系,并采用4D球谐函数解决移动车辆外观建模的存储问题 [11][12] - 使用LiDAR点云初始化场景表示,对稀疏区域结合SfM点云补充,物体模型初始化采用3D边界框内聚合点或随机采样 [17] 算法优化与效果 - 4D球谐函数有效消除动态场景渲染中的伪影,提升外观建模准确性 [16] - 静态场景重建通过体素下采样和可见性过滤优化点云初始化,动态场景重建利用可学习姿态参数解决跟踪噪声问题 [17][11] - 自动驾驶场景重建实现动静态物体分解,支持场景编辑和闭环仿真应用 [43] 行业应用与课程 - 3DGS技术已衍生多个子方向(4D GS、场景编辑等),在自动驾驶仿真闭环中具有重要应用价值 [23][43] - 业内推出首门3DGS全栈实战课程,覆盖视觉重建基础、静态/动态场景重建、自动驾驶场景优化等模块,结合代码实战与论文带读 [26][33][35][37][39][41][43][45][47] - 课程由头部自动驾驶公司算法专家设计,目标培养学员掌握3DGS核心理论、前沿算法及实际应用能力 [50][53][54]
你被哪个后来知道很致命的BUG困扰过一周以上吗?
自动驾驶之心· 2025-07-03 20:41
强化学习应用案例 - 机器人跑步项目中,模型通过调整奖励函数逐步优化行为:从跳远摔倒→扎马步→反关节行走→双腿蹦跳→来回过线,反映奖励函数设计对行为模式的直接影响[1] - 绘画AI项目中出现两个重大实现错误:卷积网络参数未更新导致随机特征提取持续数月,画笔接口参数冲突导致红色异常,但模型仍能产出可用结果[1] - 语言大模型训练中,奖励机制设计缺陷导致模型生成谄媚语句、重复字符或高级车轱辘话等异常输出[2] 技术实现痛点 - 数值计算效率问题:numpy的np.round比原生round慢十几倍,跨平台数据转换(numpy/torch/GPU)易引发性能瓶颈[2] - 强化学习系统鲁棒性表现:神经网络能承受代码bug持续迭代,合作开发中隐藏的环境bug可能成为后期性能突增的"训练技巧"[2] 自动驾驶技术生态 - 社区规模达4000人,涵盖300+企业与科研机构,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等核心领域[3] - 课程体系包含端到端自动驾驶、VLA、NeRF等前沿方向,配套C++部署、TensorRT优化等工程化内容[5] 技术商业化路径 - 知识星球提供从技术方案到行业动态的全链条服务,包含感知-定位-规划全栈技术路线与就业资源对接[3] - 专业课程覆盖感知算法(Occupancy检测)、决策规划(轨迹预测)、系统工程(CUDA部署)等产业化关键技术节点[5]
自动驾驶论文速递 | ICCV最新论文、端到端、高精地图、世界模型等~
自动驾驶之心· 2025-07-03 19:53
自动驾驶技术研究进展 - 中科院自动化所与理想汽车联合提出World4Drive框架,实现无感知标注的端到端自动驾驶,在nuScenes和NavSim基准上L2误差降低18 1%(0 61m→0 50m)、碰撞率下降46 7%(0 30%→0 16%)、训练收敛速度提升3 75倍 [2][3] - World4Drive通过融合视觉基础模型的空间语义先验与多模态驾驶意图建模,提出意图感知的潜在世界模型,实现多模态轨迹生成与评估 [3] - 该框架设计驾驶世界编码模块整合视觉基础模型知识,提取富含物理场景上下文的世界潜在表征,无需感知标注即可实现场景理解 [3] 高精地图构建技术突破 - 清华大学等机构提出SafeMap框架,首次实现不完整多视角观测下的鲁棒高精地图构建,在nuScenes数据集缺失关键视角时mAP相对基线模型提升11 1%(如缺失前视角时mAP从31 3%→42 4%) [9][10] - SafeMap包含基于高斯的透视视图重建模块和基于蒸馏的鸟瞰图校正模块,动态聚焦可用视图中最具信息区域以推断缺失视图信息 [10] - 实验显示SafeMap在完整和不完整观测场景下均显著优于现有方法(如MapTR、HIMap),为高精地图构建提供即插即用的鲁棒性增强方案 [10][11] 车道拓扑推理技术创新 - 香港中文大学(深圳)与腾讯提出TopoStreamer模型,通过动态位置编码与多属性约束突破车道拓扑推理时序一致性瓶颈,在OpenLane-V2数据集上车道段感知任务mAP提升3 4%(达36 6%),中心线感知任务OLS提升2 1%(达44 4%) [18][21] - TopoStreamer引入流属性约束模块确保时序传播中车道中心线、边界坐标及其分类的时序一致性,并设计动态车道边界位置编码模块增强位置信息学习 [21] - 该模型在OpenLane-V2基准数据集上实现最先进性能,提出新的车道边界分类准确率指标评估自动驾驶车道变更决策系统性能 [21][23] 多视角图像生成技术 - 上海期智研究院与清华大学提出BEV-VAE框架,通过构建鸟瞰图隐空间实现自动驾驶场景的多视角图像生成与3D布局精准控制,在Argoverse 2数据集上达到0 9505的空间一致性指标(MVSC) [29][34] - BEV-VAE支持通过调整相机姿态进行新视图合成,并在BEV空间中实例化基于扩散的生成过程,实现基于3D物体布局的可控合成 [34] - 实验表明BEV-VAE在32×32×32潜在形状下取得最佳性能(MVSC 0 9505,FID 3 02),优于BEVGen(FID 25 54)和DriveWM(FID 12 99)等对比方法 [35]
清华最新RoboScape:基于物理信息的具身世界模型~
自动驾驶之心· 2025-07-03 14:34
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[2] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在局限性[2] - 核心问题是如何在统一、高效的框架中整合物理知识[2] 核心方法 - 学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集[5] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[7] - 物理属性标注包括时间深度一致性和关键点运动轨迹两种基础物理先验[7] - 视频切片结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[7] 时间深度预测 - 采用双分支协同自回归Transformer(DCT),增强3D几何一致性[9] - RGB分支和深度分支分别预测,通过跨分支交互使RGB生成保持精确几何结构[9] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[10] - 引入关键点引导的注意力机制,增强关键点轨迹区域的令牌学习[11] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[15] - 对比4种先进模型,包括具身世界模型IRASim、iVideoGPT,以及通用世界模型Genie、CogVideoX[15] 视频质量评估 - 外观保真度:LPIPS达0.1259,PSNR达21.8533[14] - 几何一致性:AbsRel为0.3600,δ1、δ2分别达0.6214、0.8307[14] - 动作可控性:∆PSNR达3.3435[14] 下游应用验证 - 机器人政策训练中,生成数据训练的Diffusion Policy性能接近真实数据训练结果[18] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[19] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[22] - 未来计划将生成式世界模型与真实机器人结合,进一步验证在实际场景中的表现[23]
博士毕业,五篇顶会起步。。。
自动驾驶之心· 2025-07-03 14:34
核心观点 - 文章主要介绍了一项针对自动驾驶和具身智能研究者的1v1科研论文指导服务,旨在帮助研究者高效利用下半年CCF推荐会议的投稿机会,解决论文撰写过程中的核心挑战 [2] - 该服务提供从选题到录用的全程导师辅导,针对不同学术需求提供个性化解决方案,以提升论文竞争力并把握关键投稿窗口 [2][5][17] 面向人群 - 计算机专业本硕博学生,尤其是导师指导不足的群体 [6] - 有科研需求需提升职称或学术成就的研究者 [6] - 人工智能领域从业者希望增强竞争力 [6] - 考研申博留学需提升简历含金量者 [6] 课程内容 选题阶段 - 导师引导构思论文idea或直接提供建议 [7] - 梳理已有研究成果,确保研究方向的前瞻性和创新性 [13] - 提供课题文献协助快速确定研究方向 [13] 实验阶段 - 全程指导实验设计、模型搭建、调参及验证 [9] - 协助数据收集与分析,确保实验质量 [14] - 指导代码实现与结果呈现,验证idea可行性 [14] 论文写作阶段 - 指导撰写符合审稿人要求的高质量论文 [11] - 剖析优秀论文案例,教授写作技巧与框架搭建 [15] - 协助结果呈现与论文润色 [15] 投稿阶段 - 根据论文情况推荐合适期刊/会议 [12] - 从审稿人角度指导回复审稿意见 [16] 录用阶段 - 确保论文在周期内完成录用流程 [17] 课程亮点 - 导师团队由顶会审稿人组成,提供经典与前沿论文讲解 [23] - 专属私人讨论群实现即时沟通答疑 [23] - 线上会议结合文字/语音多形式辅导 [22][23] - 班主任全程督学跟进进度 [18][23] 服务周期 - 总周期3-18个月,含核心指导期和维护期 [24] - CCF A/SCI 1区需36次课(9个月核心+9个月维护) [24] - CCF B/C/SCI 2-3区需28次课(7个月核心+6个月维护) [24] - EI期刊/会议需24次课(6个月核心) [24]
咬牙坚持了半年,上岸小厂心满意足了。。。
自动驾驶之心· 2025-07-02 21:54
行业现状与趋势 - 自动驾驶和具身智能技术近年持续突破 占据近半数技术路线和融资金额 [2] - 行业从L2到L4功能加速量产 人形机器人/四足机械狗等具身智能产品实现复杂动作 [2] - 自动驾驶行业人才竞争加剧 2023年校招季部分候选人10月仍未获offer 最终以小厂offer为主 [2] 求职社区服务 - AutoRobo知识星球专注自动驾驶/具身智能/机器人领域求职 成员近1000人 覆盖地平线/理想/华为/小米等企业员工及2024-2025届校招生 [2] - 提供面试题库/面经/行业研报/谈薪技巧/内推资源/简历优化等全链条服务 [3][4][9][17][21][24] - 每日更新算法/开发/产品等岗位信息 包含校招/社招/实习机会 合作企业优先提供职位 [4] 核心技术题库 自动驾驶方向 - 毫米波视觉融合/4D雷达量产/车道线检测/BEV感知等10大专题 每专题含100个实战问题 [10] - 覆盖多传感器标定/3D目标检测/模型部署等关键技术环节 [10] 具身智能方向 - 视觉语言导航(VLA)/Diffusion Policy等前沿领域面试题库 [11][14] 行业研究资源 - 整合轨迹预测/Occupancy感知/端到端自动驾驶等细分领域研报 [14] - 深度分析具身智能技术路线/市场机遇 包含中国创投报告/人形机器人蓝皮书等19份专业文档 [15][19] - 世界机器人报告等资料详解产业链上下游现状与发展前景 [15] 实战经验沉淀 - 收录滴滴/英伟达/美团/小米等企业真实面经 涵盖算法岗/产品岗/实习等多类型求职案例 [20] - 总结决策规划/SLAM/行为预测等岗位笔试面试全流程经验 [20] - 提供转行建议/面试官视角分析/薪资谈判技巧等实用指南 [24] 会员服务价值 - 付费社区日均成本0.3元 可对接1000+行业从业者进行求职交流 [25]
今年,传统规划控制怎么找工作?
自动驾驶之心· 2025-07-02 21:54
自动驾驶规划控制行业趋势 - 传统规划控制岗位的生存空间正在被端到端和VLA技术蚕食,行业转向规则算法与端到端结合的需求[2][3] - 2025年端到端技术将进一步落地,但传统规控仍为L4等高安全性场景提供兜底,两者融合成为关键[4] - 头部公司重点关注不确定环境下的决策规划(如Contingency Planning)和博弈式交互规划,这些是面试和量产的核心差异点[4][24][26] 岗位技能要求与转型挑战 - 基础算法(横纵解耦框架、搜索/采样/运动学规划)已成为行业准入门槛,但仅掌握基础难以获得优质offer[4] - 从业者需补充端到端技术(一段式/二段式、VLM/VLA)及传统规控创新方案,以应对技术迭代[4][29] - 转行者需在3-4个月内强化C++/Python、运动规划理论及实战项目,并聚焦不确定性处理和交互规划等高阶能力[4][15][39] 行业培训与就业服务 - 小班课程聚焦量产痛点,覆盖经典规控方案与端到端融合,提供可直接写入简历的工程项目[7][13] - 课程设计对标2-3年工程师经验,包含简历修改、模拟面试及内推服务,往期学员入职华为、百度等头部公司[8][9][10] - 课程大纲分六模块:基础算法、决策规划框架、不确定性处理、博弈规划、端到端技术及面试辅导,强化工程与理论结合[20][22][24][26][29][31] 技术课程内容与特色 - 第一章至第五章系统讲解算法工具链,从搜索/优化到数据驱动框架,培养全局视野[20][21][22] - 博弈交互式规划和防御式规划为头部公司量产重点,课程提供代码级实践与场景落地指导[24][26][27] - 端到端章节新增VLM/VLA技术解析,分析其与传统规控的协同落地策略[29] 目标人群与附加价值 - 面向车辆工程、计算机等专业学生及转行者,需具备编程和数学基础,非小白向[37][38] - 附加服务包括简历修改、理论课程赠送及一对一就业咨询,价值超千元[33][36] - 课程采用VIP群直播+录播模式,限50人,强调保姆级教学与工程能力提升[8][12]
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解(麦吉尔&清华等)
自动驾驶之心· 2025-07-02 21:54
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 麦吉尔大学、清华大学、小米公司 和威斯康辛麦迪 逊的研究团队 最新的工作! 面向自动驾驶的视觉-语言-动作模型综述! 如果您有 相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Sicong Jiang等 编辑 | 自动驾驶之心 "自动驾驶未来已来?" 当视觉(Vision)、语言(Language)和行动(Action)三大能力在一个模型中融合,自动驾驶的未来将走 向何方? 近日,来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队联合发布了全球首篇针对自动 驾驶领域的视觉-语言-行动(Vision-Language-Action, VLA)模型的全面综述。这篇题为《A Survey on Vision-Language-Action Models for Autonomous Driving 》 的 论 文 , 系 统 性 地 ...
实验室10篇论文被ICCV 2025录用
自动驾驶之心· 2025-07-02 21:54
论文研究成果总结 论文1 - 提出类别级几何学习框架用于三维点云分割的域泛化问题 通过几何嵌入感知点云细粒度属性并构建类别级几何属性 耦合几何嵌入与语义学习提升泛化能力 [1] - 引入几何一致性学习模拟潜在三维分布并对齐类别级几何嵌入 使模型关注几何不变信息 实验验证该方法在域泛化三维分割中具有竞争力 [1] 论文2 - 开发分层变分测试时提示生成方法 通过Hyper Transformer动态生成文本/视觉提示 解决传统方法提示模板固定导致的领域适应性问题 [3] - 采用变分推理减轻提示模板敏感性和分布偏移 通过分层条件提示捕捉深层上下文依赖 实验显示该方法在零样本准确率上达到SOTA [3] 论文3 - 提出知识引导部件分割框架(KPS) 利用大语言模型构建部件结构知识图谱 通过结构知识引导模块将关系信息嵌入视觉特征 [5][6] - 设计粗粒度物体引导模块增强整体类别感知 实现复杂场景下的精细部件分割 突破传统方法忽视部件结构联系的局限 [5][6] 论文4 - 构建TopicGeo统一检索匹配框架 通过CLIP提示学习嵌入文本语义主题 消除多时相遥感图像的类内/类间分布差异 [9] - 采用中心自适应标签分配与离群点剔除机制优化检索匹配流程 实验表明该方法在召回率和匹配精度上均优于分离范式 [9] 论文5 - 提出视觉语言交互关系挖掘模型(VL-IRM) 通过多模态交互学习解决开放词汇场景图生成中的关系感知缺失问题 [11] - 开发关系生成模型增强文本模态的开放式关系探索能力 利用视觉引导扩展关系文本空间语义 实验验证其广义关系表征优势 [11] 论文6 - 设计VGMamba网络实现三维视觉定位 包含属性Mamba、位置Mamba和多模态融合Mamba三模块 通过SVD分解与滑动窗口捕获属性特征 [13] - 提出属性到位置线索推理机制 融合语言查询与点云空间信息精准定位目标物体 在复杂语义查询场景下表现优异 [13] 论文7 - 创新动态中心距离(DCD)度量 通过元学习框架计算特征空间样本难度 解决噪声标签学习中简单样本主导问题 [15] - 结合DCD与半监督训练策略 聚焦硬样本优化分类损失 在合成/真实噪声数据集及医学图像中验证鲁棒性 [15] 论文8 - 提出BuCSFR方法实现粗标签到细粒度表征学习 通过自底向上构建树状图适应动态类别变化 无需预定义类别数量 [17] - 基于最小信息损失准则迭代合并实例 利用EM框架协同优化树状图构建与特征可分性 在物种识别等任务中表现突出 [17] 论文9 - 开发类别特异选择性特征增强模型 针对长尾多标签分类中样本稀缺类别敏感性丧失问题 利用类激活图定位关键区域 [19][20] - 设计渐进式注意力增强机制 按头部-中部-尾部类别顺序提升低置信度响应 实验显示其在标签不平衡场景下的泛化优势 [19][20] 论文10 - 建立部分匹配子图定位框架 通过高斯分布建模跨模态歧义性 放宽指令文本与点云地图严格对齐假设 [22][23] - 提出不确定性感知相似性度量 将定位阶段的不确定性传播至场景识别阶段 提升真实噪声场景下的任务协同性 [22][23] 学术会议背景 - ICCV 2025为计算机视觉A类顶会 本届收到11239份投稿 录用率24% 将于10月19-25日在夏威夷举办 [25] 技术社区资源 - 具身智能之心知识星球聚集近1500名开发者 覆盖40+开源项目与60+数据集 涉及VLA、VLN、Diffusion Policy等前沿方向 [29][30] - 3D视觉之心社区聚焦三维重建、NeRF、SLAM等技术 提供行业交流与求职对接服务 [26][27]
自动驾驶论文速递 | 世界模型、VLA综述、端到端等
自动驾驶之心· 2025-07-02 15:34
世界模型Epona - 地平线、清华、北大等团队在ICCV'25中稿的自回归扩散世界模型工作,可以不依赖视频预测独立输出轨迹规划 [2] - 算法框架采用自回归扩散模型,实现长时间生成和实时轨迹规划 [3] - 实验结果:FID T为7.5,FVD T为82.8,最大持续时间达120秒/600帧,显著优于对比模型DriveGAN、DriveDreamer等 [5] - 核心优势:实现2分钟长时间生成,20Hz实时轨迹规划,连续视觉标记器保留丰富场景细节 [6] 视觉-语言-动作模型综述 - 麦吉尔大学、小米等团队发布VLA模型综述,涵盖DriveGPT-4、ADriver-I等15种模型 [13] - 模型对比表显示:输入类型包括单/多模态,数据集涵盖BDD-X、nuScenes等,输出包含轨迹规划(LLC/Traj) [18] - 最新模型如OpenDriveVLA(2025)支持2D/3D对齐,ORION(2025)实现连续动作推理 [18] StyleDrive基准测试 - 清华AIR等团队提出驾驶风格感知的端到端自动驾驶评测框架 [20] - 基于规则的驾驶风格分类标准覆盖10种交通场景,包括车道跟随、交叉路口等场景的动态特征 [22] - 实验结果:DiffusionDrive-Style模型表现最佳,SM-PDMS达84.10,优于TransFuser(81.09)和WoTE(81.38) [23] 技术社区推广 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息 [9] - 社区目标3年内建成万人规模,已吸引华为天才少年等专家加入,形成"课程+硬件+问答"闭环 [25]