Workflow
自动驾驶之心
icon
搜索文档
AI Day直播 | MemoryVLA:助力长时序机器人操作任务
自动驾驶之心· 2025-09-03 11:19
文章核心观点 - 现有视觉-语言-动作模型在长周期时序依赖任务中表现不佳 主要依赖当前观测而忽略历史时序信息 [2][7] - 受人类记忆机制启发提出MemoryVLA框架 通过工作记忆和长期记忆系统提升机器人操作性能 [3][7] - 该框架包含感知-认知记忆库和记忆条件化扩散动作专家 能够自适应融合历史信息生成时序感知动作序列 [3] 技术方案细节 - 预训练VLM将观测编码为感知token和认知token 分别形成工作记忆和长期记忆 [3] - 感知-认知记忆库存储低层级细节和高层级语义信息 并通过合并冗余实现记忆更新 [3] - 工作记忆从记忆库检索决策相关条目 与当前token融合后生成动作序列 [3] 应用场景与价值 - 专门针对长周期机器人操作任务设计 解决非马尔可夫性任务中的时序依赖问题 [2][3] - 通过模拟人类海马体系统和工作记忆机制 提升模型在复杂操作任务中的表现 [3][7] 研究背景与进展 - 论文已发表于arXiv平台 编号2508.19236 项目主页同步开放 [4] - 研究成果由清华大学自动化系团队开发 计划通过直播形式进行技术分享 [4][7]
自动驾驶论文速递 | DriveQA、闭环仿真、AIGC、世界模型等~
自动驾驶之心· 2025-09-03 11:19
DriveQA多模态驾驶知识基准 - 提出DriveQA数据集,整合美国51个地区驾驶手册文本与CARLA仿真视觉场景,构建包含474K样本的驾驶规则问答基准[2] - 数据集包含DriveQA-T(26K QA对)和DriveQA-V(68K图像与448K QA对),覆盖19个问题类别和220种美国交通标志[3] - 系统评估发现主流模型在数值推理、复杂路权场景、交通标志变体及空间布局理解存在显著缺陷[3] - 通过LoRA微调DriveQA后,模型在管制标志识别准确率提升至96.51%,交叉口决策准确率提升至91.15%[3][6] - 微调后的模型在nuScenes轨迹预测任务中降低L2误差,在BDD-OIA行为推理中提升F1分数,Mapillary真实标志识别准确率提升10%-26%[3] 生成式AI在自动驾驶测试中的应用 - 系统性分析91篇生成式AI用于ADS测试的研究,归纳出6类核心任务:场景生成、关键场景生成、场景转换等[9][11] - 梳理包括LLM、VLM、扩散模型、GAN、VAE等生成式模型谱系,详细阐述各类模型在测试任务中的核心机制[11] - 汇总Waymo Open Dataset、nuScenes、highD等14个常用数据集及Carla、LGSVL等仿真平台,提供统一评估资源框架[14][15] - 识别出27项核心局限性,包括LLM的幻觉问题、扩散模型计算开销、少样本数据泛化能力不足等[14] SKGE-Swin端到端自动驾驶模型 - 提出整合Swin Transformer与跨阶段跳跃连接的SKGE-Swin架构,解决高分辨率空间细节丢失问题[17][21] - 在CARLA仿真中驾驶分数达到37.10,显著优于基线模型的29.71,路线完成度达82.81%[17][22] - 采用混合精度优化后,SKGE-Swin-tiny模型推理速度提升至27.49 FPS,VRAM占用仅1016MiB[21][24] - 模型在对抗场景评估中展现强大鲁棒性,特别在交叉口转向和对向车辆切入等复杂场景表现优异[21] DrivingGaussian++动态场景重建 - 提出复合高斯溅射建模范式,将动态驾驶场景解耦为静态背景与动态目标分别建模[30][34] - 在nuScenes数据集上实现PSNR 28.74、SSIM 0.865、LPIPS 0.237的领先性能[30][35] - 支持无训练可控编辑,包括纹理修改、天气模拟和物体操作,执行时间仅约8分钟[34][35] - 结合LiDAR几何先验优化重建精度,通过多相机配准误差最小化提供精确几何约束[34] G²Editor驾驶视频编辑框架 - 构建统一编辑框架支持物体重定位、插入与删除三大任务,融合扩散模型与3D高斯渲染技术[37][42] - 在Waymo数据集上实现LET-mAP 0.781(重插入)、0.806(旋转5°)、0.725(平移1m)的领先性能[42][43] - 视觉保真度指标表现优异,LPIPS-Ref最低达0.151,FID-Ref最低达13.240[42][45] - 生成的编辑数据可有效扩展3D目标检测任务视角分布,提升检测器性能[42]
港科&地平线&浙大联手开源SAIL-Recon:三分钟重建一座城
自动驾驶之心· 2025-09-03 07:33
文章核心观点 - SAIL-Recon提出一种结合场景回归与定位的大规模运动恢复结构(SfM)方法 通过少量锚图像提取神经场景表征 实现数千张图像的高效精确重建 在精度和效率上均超越传统及学习方法 [5][7][10][34] 技术方法 - 采用锚图像采样策略 通过Transformer提取神经场景表征 并基于此对所有图像执行联合位姿与结构估计 [9][11] - 使用DINOv2提取图像特征 结合相机token与寄存器token 通过自注意力层和DPT头预测深度图及场景坐标图 [13] - 引入注意力掩码机制 使查询图像仅与锚图像表征交互 并通过相机头直接回归位姿 [17][19] - 训练阶段采用多任务损失函数 推理阶段通过KV-Cache缓存键值以节省GPU内存 [11][20] 性能表现 - 在Tanks & Temples数据集上 平均每场景处理300+张图像 FFD版本达到70.4% RRA@5和74.7% RTA@5 误差仅0.008 耗时233秒 [21][26] - 在7-Scenes数据集定位任务中 平均精度达93.8% 与ACE0持平 但训练加定位总耗时仅8分钟 远低于ACE0的2小时 [32] - 新视角合成任务中 PSNR指标全面领先:Mip-NeRF 360数据集平均PSNR达19.5 超越DROID-SLAM的16.9和BARF的18.1 [33] - 锚图像数量从10张降至2张时精度仅缓慢下降 300 token/图像配置实现精度与速度平衡 [32] 效率优势 - 处理数千张图像仅需数分钟 显著快于COLMAP的1977秒和ACE0的5499秒 [21][32] - 无需逐场景训练 支持大规模场景一次性前馈推理 后优化阶段10k次迭代仅需2-10分钟 [7][24] - 在TUM-RGBD数据集实现与SLAM相当的精度 且无需相机内参 [32]
某头部智驾公司最快或11月美股上市,估值或超60亿美金
自动驾驶之心· 2025-09-03 07:33
融资与上市进展 - 公司M于2025年完成两轮融资(C-12及C-13轮),投资方包括中东主权基金和地方国资基金,累计融资金额达数亿美金 [6][10] - C-13轮融资估值约为60亿美元,该轮即将关闭,部分投资人仍希望参与 [10] - 公司M最快可能于2025年11月登陆美股,估值或将突破60亿美元 [6][10] - 2024年中公司M已取得境外上市批文,原计划2024年底IPO,但因故延期 [9] 财务表现与盈利预测 - 公司M连续三年保持营收及毛利高速增长,但目前仍处于亏损状态 [7] - 行业测算显示公司M有望在2026年实现盈亏平衡 [7] - 公司M的毛利快速增长主要来自License业务,该模式毛利最高可达90%以上 [12] - 公司M的收入结构以NRE(量产车型适配费用)为主,License(单车软件授权费用)为辅 [12] 业务布局与战略动向 - 公司M近期对外投资布局重卡等产业链相关企业,其芯片子公司X于2025年8月完成新一轮融资,投资方包括深创投、IDG资本、蔚来资本、均胜电子等机构 [8][12] - 公司M与Uber达成战略合作,计划2026年初在欧洲启动自动驾驶车辆运营 [12] - 公司M累计合作量产车型达130款,并与宝马中国达成合作,集齐BBA三大豪华品牌订单 [12] - 公司M的芯片子公司X首款芯片已成功点亮并进入实车测试,对标英伟达Orin-X与高通8650 [12] 市场地位与交付能力 - 公司M累计交付超过30万辆,预计最快明年突破100万交付大关 [13] - 公司M是唯一证明过跨平台(英伟达和高通)、多客户(同时服务10+车企)交付能力的厂商,新车型适配和交付周期可缩短至3个月 [14] - 公司M满足传统车企智驾上车需求,客户覆盖国资合资、自主品牌三强、德系三强、日系三强 [14] 核心优势与行业评价 - 公司M以平台能力和快速执行见长,能快速跟进新技术并承诺交付量产时间,未出现过食言情况 [13] - 行业认为公司M是确定性最高的企业,其复制化交付能力强,NRE毛利逐步提高 [12][13] - 公司M的盈利路径清晰,主要依靠量产车型增加、高阶方案渗透率提高、License占比提升以及批量复制化交付摊薄研发成本 [15]
拿到offer了,却开心不起来。。。
自动驾驶之心· 2025-09-03 07:33
自动驾驶行业招聘趋势 - 金九银十招聘季开启 业内tier 1公司已开始发放测试岗位offer[1] - 感知算法岗位存在转岗难度 但行业仍存在算法岗机会[1] - 自动驾驶公司开出高薪挖人 大模型相关岗位需求激增[14] 自动驾驶技术发展方向 - 端到端自动驾驶成为智驾量产核心算法 分为一段式和二段式技术方向[7] - 理想汽车宣布E2E+VLM双系统架构量产 通过传感器数据直接输出规划控制信息[7] - 端到端技术需要掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等知识[8] - 2024年学术界端到端大模型工作爆发 工业界融资案例快速崛起[14] - 4D自动标注算法重要性凸显 需标注动静态元素 OCC和轨迹等复杂数据[11] 自动驾驶课程体系 - 推出499元超级折扣卡 享受全平台课程七折优惠[4][6] - 开设端到端与VLA自动驾驶小班课 涵盖多模态大模型 BEV感知等技术[7][8] - 推出自动驾驶4D标注算法小班课 聚焦多模态3D感知和数据闭环[12] - 开设多模态大模型与自动驾驶实战课程 涵盖通用多模态大模型到大模型微调[14] - 课程体系包含感知系列 多传感器标定融合 模型部署 规划控制与预测 仿真开发等模块[16][17][18][19][20] 行业人才需求与就业 - 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等公司[38] - 课程学员可获岗位推荐 绕开官网投递直接对接算法开发负责人[38] - 小班课针对秋招社招需求 解决项目经验不足 简历修改 面试指导等痛点[21] - 提供60小时入门教程和求职100问等会员独家福利[43] 技术实践与工程挑战 - 车端部署需要推理延迟低于200毫秒 理想目标低于100毫秒[34] - 路径规划成功率需保证99%以上 复杂场景需达99.9%[34] - 转向角误差理想目标小于1度 可接受范围小于2度[34] - 加速制动误差理想目标小于0.1 m/s² 可接受范围小于0.2 m/s²[34] - 视觉感知量产需数十万至百万级标注数据量[36] - 传感器升级需重新构建数据集和训练模型[36] - 多传感器联合标定存在精度验证挑战[36]
小米汽车招聘云端大模型算法工程师(BEV/3DGS/OCC等)
自动驾驶之心· 2025-09-03 07:33
小米汽车技术发展方向 - 公司专注于云端大模型算法研发 重点包括4D真值自动化标注和多模态大模型技术 [1][4] - 致力于提升自动驾驶算法的语义理解能力和空间感知能力 基于海量量产数据进行无监督/自监督算法开发 [4] - 构建数据驱动的自动驾驶算法迭代链路 通过自训练pipeline实现高效数据闭环 [4] 人才招聘需求 - 寻求具备C++或Python编程能力及数据结构算法知识的算法工程师 [4] - 优先考虑在BEV感知/3D检测/多传感器融合等自动驾驶感知算法领域有深入研究背景的候选人 [4] - 特别关注具有NeRF技术、3D场景生成和传感器仿真应用经验的专业人才 [4] 技术能力建设重点 - 要求候选人掌握计算机 数学 机器学习或机器人等相关专业领域知识 [4] - 重视自动驾驶相关项目实践经验 包括三维重建和深度估计等具体技术方向 [4] - 通过https://xiaomi.jobs.f.mioffice.cn/index/position/7483098801416421485/detail?spread=W6B69ND渠道接收人才投递 [2]
自动驾驶之心开学季活动来了(超级折扣卡/课程/硬件/论文辅导福利放送)
自动驾驶之心· 2025-09-02 17:57
自动驾驶技术发展历程 - 自动驾驶技术在过去十年经历了从基础图像分类到复杂3D世界感知的演进,包括ImageNet图像分类、COCO目标检测、nuScenes 3D感知、BEV统一感知模块以及端到端和VLA等关键突破[3] - 行业从2015年百度无人车测试时的乐观预期转向现实路况下的持续攻坚,特斯拉、华为、理想、小鹏、蔚来、地平线、英伟达等公司已建立起技术护城河[3] - 自动驾驶技术突破并非单点跃进,而是在现实约束下的持续迭代过程,未来方向可能包括VLA、WA、L4自动驾驶、具身智能或虚拟现实等领域[3] 自动驾驶之心平台定位 - 平台定位为自动驾驶与机器人的学习平台,强调创新是企业持续发展的核心,以小鹏VLA模型需要720亿参数为例说明扎实积累的重要性[6] - 平台致力于连接学术界与工业界,开发了涵盖近40个自动驾驶子领域的视频教程,包括VLA、世界模型、3DGS、感知、定位等方向[8] - 平台注重传递技术认知、持续学习和事物认知的价值观,并通过与行业大佬和学校同学的交流提升内容温度[8] 平台学员就业去向 - 学员就业覆盖国内领先自动驾驶公司如华为、理想、Momenta、蔚来、小鹏等,以及芯片和AI公司如地平线、商汤科技、旷视等[9] - 部分学员进入外企如博世、英伟达工作,或投身具身智能和大模型领域,亦有在清华、港科大、新加坡国立、UC伯克利、卡耐基等名校深造[9] 核心课程与技术方向 - 端到端自动驾驶作为智驾量产核心算法,可分为一段式和二段式技术方向,理想汽车已宣布E2E+VLM双系统架构量产[12] - 端到端技术需掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识,但学习路径存在碎片化挑战[13] - 自动驾驶4D标注算法小班课聚焦自动化4D标注需求,解决动静态元素、OCC和轨迹等复杂数据标注难题[16] - 多模态大模型与自动驾驶实战课程覆盖从通用多模态大模型到端到端自动驾驶应用的系统化学习,包括DriveGPT、OpenDriveLab等算法[20] - 平台课程体系涵盖感知系列(如BEV感知、Occupancy占用网络)、多传感器标定融合、模型部署、规划控制与预测、仿真开发等全栈内容[22][23] 课程特色与学习支持 - 小班课针对秋招和社招需求,聚焦实际工作痛点,提供简历辅导、面试指导和项目实战支持[24] - 课程配备专属VIP交流群,主讲老师每日群内交流并定期直播答疑,解决小白踩坑、工程问题和研究方向等关键问题[29] - 平台提供硬件优惠方案,包括全栈教研平台黑武士001、足式/强化学习科研平台TRON1等设备支持[14][46] 就业支持与行业合作 - 平台早期对接了理想、地平线、百度、上海人工智能实验室、蔚来、小鹏、华为车BU、大疆等公司,可绕开官网直接向算法负责人推荐学员[41] - 通过知识星球和求职星球第一时间获取最新岗位和技术信息,为学员提供持续的职业发展支持[42] 开学季促销活动 - 推出499元超级折扣卡,一年内购买平台任意课程享受七折优惠,包括新课程[11][46] - 附加福利包括知识星球立减88元、满1000元赠送2门带读课程、论文辅导最高抵扣10000元等限时优惠[10][46]
自动驾驶多传感器融合感知1v6小班课来了(视觉/激光雷达/毫米波雷达)
自动驾驶之心· 2025-09-02 14:51
多模态感知融合技术背景与核心优势 - 单一传感器如摄像头、激光雷达或毫米波雷达的感知能力已难以满足自动驾驶、机器人导航和智能监控等复杂场景的需求[1] - 多模态传感器融合通过结合激光雷达、毫米波雷达和摄像头的优势实现优势互补:摄像头提供丰富语义信息和纹理细节 激光雷达生成高精度三维点云并提供准确距离和深度信息 毫米波雷达在恶劣天气下穿透性强且能稳定探测物体速度和距离[1] - 传感器融合系统可实现全天候全场景下的可靠感知 显著提高自动驾驶鲁棒性和安全性[1] 多模态感知融合技术演进路径 - 传统融合方式分为三种:早期融合在输入端拼接原始数据但计算量巨大 中期融合将不同模态特征向量融合并统一到鸟瞰图视角 晚期融合在决策层面进行结果融合但难以解决信息冲突[2] - 基于Transformer的端到端融合成为最前沿方向 通过跨模态注意力机制学习不同模态数据间深层关系 实现更高效鲁棒的特征交互[2] - 端到端训练方式减少中间模块误差累积 直接从原始传感器数据输出感知结果如三维目标框 更好捕捉动态信息并提升整体性能[2] 多模态感知融合应用与挑战 - 技术已广泛应用于L2-L4级自动驾驶系统 包括高精度地图构建、全场景鲁棒感知和自动泊车等领域[2] - 面临三大核心挑战:传感器标定需确保不同传感器空间和时间上的高精度对齐 数据同步需解决传感器帧率不一致和时延不同步 融合算法需更高效处理不同传感器数据的异构性和冗余性[3] 课程体系结构与核心内容 - 课程周期为12周在线小组科研加2周论文指导再加10周论文维护期 总时长24周[4][14] - 课程内容覆盖经典论文与前沿论文分析 代码实现与创新点研究 baseline与数据集应用 选题方法、实验方法、写作方法及投稿建议[4][11] - 采用"2+1"式师资配置与全学习周期服务 配备科学制定的学员守则与表现评估体系[18][21] 技术实践资源与要求 - 提供多模态数据集包括ADUULM-360、nuScenes和KITTI等公开数据集[19][20] - 提供Baseline代码仓库覆盖多模态3D目标检测、BEV视角Transformer融合及点云图像融合等多个方向[23] - 硬件要求最好具备4张4090显卡或以上设备性能 最低不少于2张4090显卡 也可考虑租赁云服务器[15] 学员收获与产出目标 - 学员将获得经典及前沿论文分析方法 理解重点算法与原理 清晰不同算法优劣势[14] - 课程将提供研究idea 每位同学都能获得导师准备的具体idea方向[14] - 最终产出包括论文初稿、项目结业证书 并根据学生优秀程度提供推荐信[21] 课程安排与学习要求 - 详细课程安排包含14周专项主题:从课题概览与科研路径介绍 到BEV视角多模态融合 再到基于Transformer的端到端融合 最后涵盖论文写作方法与投稿意见[23][25] - 学习要求包括具备深度学习基础 熟悉Python语法和PyTorch使用 最好具备Linux系统开发调试能力[15] - 必须完成在线1v1面试 每周上课前按时阅读资料并完成作业 课后自学时长至少1-2小时[21]
业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-09-02 11:14
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM、3D目标检测等前沿技术领域[3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向也在招募范围内[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 拥有顶级会议论文发表经历者将获得优先考虑[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励方案[5] - 提供创业项目合作与推荐机会[5]
4000人的自动驾驶社区,开学季招生了!!!
自动驾驶之心· 2025-09-02 11:14
社区定位与规模 - 社区定位为综合类自动驾驶技术交流平台,集视频、图文、学习路线、问答与求职交流于一体,已吸引超过4000名成员,目标在未来2年内达到近万人规模[3] - 社区成员主要来自头部自动驾驶公司、具身智能公司、互联网企业、Top高校实验室及传统机器人公司,形成工业界与学术界互补的生态结构[1] - 社区覆盖近40个前沿技术方向,包括多模态大模型、VLM、VLA、闭环仿真、世界模型、端到端自动驾驶等主流方法论[1][3] 技术资源体系 - 汇总近40+技术路线、近60+自动驾驶数据集、行业主流仿真平台及开源项目,涵盖感知、规划控制、仿真等核心领域[12][23][24][25] - 提供超过100场专业技术直播分享,内容涉及VLA、3D检测、扩散模型等前沿课题,并邀请学术界与工业界专家参与[52] - 整理完备的学习资料库,包括数学基础、计算机视觉、深度学习、编程、经典书籍与课程课件,适配从入门到进阶的学习需求[7][24] 就业与产业链接 - 与近300家机构及自动驾驶公司建立内推合作机制,提供岗位推荐与简历直推服务,覆盖蔚小理、华为、大疆、英伟达等头部企业[8][12][59] - 定期开展行业趋势讨论,聚焦技术走向与量产痛点,并提供企业前景分析、跳槽建议及博士研究方向指导[4][16][57] - 构建求职交流板块,涵盖岗位开放信息、内推渠道及产业机会挖掘,强化社区与产业实践的连接[8][16][59] 内容服务特色 - 提供快速技术答疑服务,针对端到端入门、VLA学习路线、多传感器融合就业前景等实用问题提供解决方案[3][4][16] - 独家梳理自动驾驶100问系列专题,包括TensorRT部署、毫米波雷达融合、车道线检测等工程实践关键问题[7] - 打造多维度学习路径,如感知学习路线、仿真学习路线、规划控制学习路线等,系统性降低学习检索成本[12][13]