自动驾驶之心

搜索文档
死磕技术的自动驾驶黄埔军校,三周年了。。。
自动驾驶之心· 2025-07-19 11:04
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 2025年自动驾驶、具身智能、大模型Agent三大赛道是AI竞争高地 [2] - 端到端自动驾驶成为主流学习方向,建议从BEV感知开始逐步深入 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,拥有近4000名成员 [2] - 社区汇聚100+行业专家,提供30+技术方向学习路线 [2] - 覆盖端到端自动驾驶、世界模型、视觉大语言模型等前沿方向 [2][4] 视觉大语言模型研究 - CVPR 2024发布多篇视觉语言模型预训练论文,涉及效率提升和公平性优化 [11] - 视觉语言模型评估涵盖图像分类、文本检索、行为识别等任务 [16][17][18] - 大规模预训练数据集包括LAION5B(50亿图文对)、WebLI(120亿图文对) [15] 自动驾驶数据集 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等 [21] - 语言增强数据集支持自然语言导航、视觉问答等任务 [22] - 图像分类评估数据集包含ImageNet-1k(128万训练图)、CIFAR-100等 [16] 技术应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答系统 [23] - 自动驾驶感知方向研究语言引导3D检测、开放词汇分割等任务 [24] - 决策控制领域探索大语言模型在轨迹预测和运动规划中的应用 [25][26] 世界模型研究进展 - 2024年发布DriveWorld、GAIA-1等驾驶世界模型,支持场景生成与理解 [30][32] - 世界模型可预测未来视觉观测并辅助规划决策 [32] - 研究涵盖4D场景重建、占用预测等方向 [32] 扩散模型应用 - 扩散模型在自动驾驶中用于场景生成、数据增强和轨迹预测 [39] - CVPR 2024发布MagicDriveDiT等街景生成模型 [39] - 研究聚焦时空一致性、多视角生成等挑战 [39] 端到端自动驾驶 - 方法分为模仿学习、强化学习和多任务学习三大类 [61] - 最新工作如DriveGPT4、DriveMLM探索大模型与规划控制结合 [27][51] - 挑战包括长尾分布处理、安全验证等 [55][57] 行业资源与生态 - 社区提供TensorRT部署、BEV感知等工程问题解决方案 [71][73] - 与地平线、蔚来等公司建立内推渠道 [110] - 成员来自卡耐基梅隆、清华等高校及头部自动驾驶公司 [106][107]
ICCV'25南开AD-GS:自监督智驾高质量闭环仿真,PSNR暴涨2个点!
自动驾驶之心· 2025-07-18 18:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 南开大学团队 ICCV'25中稿的 最新工作! AD-GS: 自监督自动驾驶高质量闭环仿真,PSNR暴涨2个点! 如果您有相关工作需要分 享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Jiawei Xu等 编辑 | 自动驾驶之心 背景与挑战 自动驾驶场景的动态建模与渲染对仿真系统至关重要,但现有方法存在明显局限:依赖人工3D标注的方法 成本高昂,难以大规模应用;自监督方法则面临动态物体运动捕捉不准确、场景分解粗糙导致渲染伪影等 问题。 动态城市驾驶场景的高质量渲染需要精准捕捉车辆、行人等动态物体的运动,同时实现场景的有效分解。 传统自监督方法中,神经网络建模运动计算量大且局部细节捕捉不足,仅用三角函数等预定义函数虽提升 速度却难以处理局部运动;场景分解依赖复杂语义标注,噪声干扰严重,导致重建质量下降。 核心创新 AD-GS提出一种全新自监督框架,基 ...
端到端自动驾驶需要什么样的标注数据?
自动驾驶之心· 2025-07-18 18:32
自动驾驶4D自动标注技术 核心观点 - 自动驾驶数据闭环中4D自动标注(3D空间+时间维度)成为行业核心竞争力,需解决时空一致性下的多任务标注(动态障碍物、静态元素、OCC、端到端标注)[1] - 自动标注算法(auto-labeling)是高精度真值生成的核心,可突破车端算力限制,利用全时序数据优化结果,并挖掘corner case指导模型训练[1] - 行业痛点包括多传感器标定同步、跨传感器遮挡处理、算法泛化性、标注结果质量筛选及自动化质检[2] 技术难点 - 时空一致性要求:复杂场景下动态目标跨帧追踪易断裂(遮挡、形变、交互行为影响)[3] - 多模态数据融合:需同步激光雷达、相机、雷达数据,解决坐标对齐、语义统一和时延补偿[3] - 动态场景泛化:交通参与者突发行为(变道、急刹)及环境干扰(光照、恶劣天气)增加模型适应性挑战[3] - 效率与成本矛盾:高精度标注依赖人工校验,海量数据导致周期长、成本高[3] 课程核心内容 动态障碍物标注 - 离线3D目标检测算法(数据增广、BEV/多帧时序融合方案)及CVPR 2024 SAFDNet实战[7] - 3D多目标跟踪算法(数据匹配、速度模型、轨迹生命周期管理、ID跳变优化)[7] 静态元素与SLAM重建 - 激光&视觉SLAM重建算法(Graph-based方法)及在全局道路信息提取中的应用[8][10] - 基于重建图的静态元素标注,避免单帧感知偏差[10] 通用障碍物OCC标注 - 真值生成流程:基于Lidar/视觉的方案、点云稠密化、跨传感器遮挡优化[11] 端到端真值生成 - 动态障碍物、静态元素、可行驶区域、自车轨迹全流程打通[12] - DrivingGaussian算法实战(闭环仿真技术)[12] 行业趋势与数据闭环 - 数据闭环架构分析及当前痛点(跨传感器/感知系统协同问题)[13] - 自动驾驶数据scaling law有效性探讨[13] 技术应用与人才需求 - 课程目标:培养4D自动标注全流程能力(算法研发、问题解决、竞争力提升)[18] - 目标人群:高校研究人员、企业技术骨干、转行数据闭环者(需具备深度学习、Transformer、PyTorch基础)[17][19]
宇树科技,开启上市辅导
自动驾驶之心· 2025-07-18 18:32
公司上市辅导 - 宇树科技已开启上市辅导,由中信证券担任辅导机构 [1] - 公司控股股东及实际控制人为王兴兴,直接持有23.8216%股权,并通过上海宇翼企业管理咨询合伙企业控制10.9414%股权,合计控制34.7630%股权 [1][2] - 公司成立于2016年8月26日,注册资本为36,401.7906万元,法定代表人为王兴兴 [2] 公司基本信息 - 公司注册地址为浙江省杭州市滨江区西兴街道东流路88号1幢306室 [2] - 行业分类为计算机、通信和其他电子设备制造业(C39)及通用设备制造业(C34) [2] - 公司未在其他交易场所挂牌或上市 [2] 上市辅导安排 - 辅导协议于2025年7月7日签署,辅导机构为中信证券,律师事务所为北京德恒律师事务所 [4] - 辅导内容包括法规知识学习、公司治理完善等,辅导时间为2025年7月至9月 [5] - 辅导方式包括集中授课、自学及个别答疑,辅导人员来自中信证券、德恒律师及容诚会计师 [5] 自动驾驶行业社区 - 自动驾驶之心知识星球拥有近4000人的交流社区,近300+自动驾驶公司与科研机构加入 [7] - 社区覆盖30+自动驾驶技术栈学习路线,包括感知、定位建图、规划控制等领域 [7] - 提供端到端自动驾驶、大模型、BEV感知、多传感器融合等专业课程 [9]
AI Day直播 | LangCoop:自动驾驶首次以“人类语言”的范式思考
自动驾驶之心· 2025-07-18 18:32
多智能体协作自动驾驶 - 多智能体协作通过信息共享提升自动驾驶系统的安全性、可靠性和机动性,但现有通信方法受限于高带宽需求、智能体异构性和信息丢失等问题 [3] - LangCoop提出利用自然语言作为智能体间通信媒介,显著降低通信带宽达96%(每条消息<2KB),同时保持驾驶性能竞争力 [3] - 实验在CARLA仿真环境中进行,验证了LangCoop相比基于图像通信的优越性 [3] 技术方案与创新 - LangCoop包含两项关键创新(具体未展开),但明确其通过语言封装实现高效信息传递 [3] - 自然语言信息封装(LangPack)技术可将丰富信息打包为简洁的基于语言的消息 [4] 相关研究与资源 - 论文《LangCoop: Collaborative Driving with Language》已发布在arXiv,提供详细技术方案 [4] - 项目开源在GitHub,包含代码实现和仿真环境 [5] - 清华与博世合作开发Impromptu-VLA框架,实现SOTA性能的视觉语言模型 [6] - 清华与吉利推出Challenger框架,专注于自动驾驶对抗场景生成 [6] 行业动态与资源获取 - 自动驾驶之心知识星球提供技术细节、QA及未公开内容,包括复旦BezierGS驾驶场景重建方案 [4] - 混合模型模块化思维链(M³CoT)技术应用于零样本视觉-语言推理 [4]
做了个2000人的具身社区,大家在这里抱团取暖~
自动驾驶之心· 2025-07-18 08:58
具身智能社区发展 - 社区成立三周年,正在努力将规模推向2000人 [1] - 见证了ACT、RDT-1/RDT-2、CogACT、OpenVLA、π0、π0.5等工作的推出 [1] - 具身智能发展迅速,数据跟不上算法和本体 [1] - 社区成员来自国内外知名高校实验室和具身相关机器人头部公司 [11] - 高校包括斯坦福大学、加州大学、清华大学、西湖大学等 [11] - 公司包括智元机器人、有鹿机器人、云深处、优必选等 [11] 社区资源与支持 - 梳理了30+技术路线,缩短检索时间 [1] - 邀请了数十个具身领域嘉宾,来自一线产业界和工业界 [1] - 准备了圆桌论坛、直播,分享具身行业动态 [1] - 汇总了近40+开源项目、近60+具身智能相关数据集 [11] - 汇总了行业主流具身仿真平台、各类技术学习路线 [11] - 包括具身智能感知学习路线、强化学习全栈学习路线等 [11] 技术路线与学习资源 - 汇总了机器人导航、概率机器人、机器人动力学与运动学等PDF书籍 [22] - 汇总了机器人行业知名零部件制造厂商,涉及芯片、激光雷达等 [24] - 汇总了机器人仿真项目、机器人抓取、机器人控制等开源项目 [26] - 汇总了国内外知名ToF厂家、相关产品、技术手册等 [28] - 汇总了具身感知、触觉感知、导航等领域的数据集 [30] - 汇总了通用机器人仿真平台和真实场景仿真平台 [32] 行业交流与机会 - 和多家具身公司建立了岗位内推机制 [2] - 社区成员可以在内部自由提问,解答工作和研究方向选择问题 [66] - 汇总了国内外具身智能高校,供读研、申博、博后参考 [14] - 汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业等方向 [17] - 汇总了大模型、人形机器人等行业相关的研报 [19] - 不定期邀请行业大佬直播分享,内容可反复观看 [64] 项目与研究方向 - 针对机械臂抓取、任务数据表示、位姿估计、策略学习进行了汇总 [58] - 对开源的双足与四足机器人项目、仿真、源码、硬件进行了汇总 [60] - 汇总了常用的移动+执行硬件方案 [62] - 汇总了主流的VLA模型相关内容 [48] - 汇总了扩散模型设计、Diffusion Policy具体任务应用 [50] - 汇总了大模型部署框架、大模型轻量化方法 [54]
两篇EI,申中9博还有希望吗?
自动驾驶之心· 2025-07-18 08:58
就业与深造趋势 - 当前就业环境不佳,硕士学历也难以找到符合预期的工作,导致更多人选择继续深造攻读博士 [1] - 博士名额虽然逐年增加,但仍然供不应求,申请竞争异常激烈 [1] - 过去申请博士仅需一篇论文即可,现在需要达到博士毕业的成果水平才能成功申请 [1] 博士申请要求 - 中九高校(如武汉大学、华中科技大学等)对博士申请者的要求日益提高,需尽早规划并准备科研成果 [2] - 学校基本要求为一篇SCI论文,但实际竞争水平普遍达到2-3篇高区SCI论文 [2] - 申请者至少需具备一篇C会或3区论文才有成功可能 [2] 科研辅导服务 - 提供系统性研究方法培训,以流水线方式高效量产多篇论文,涵盖从选题到投稿的全流程服务 [2][3] - 目标人群包括计算机专业硕博生、人工智能从业者、考研申博留学人员等 [2] - 辅导流程包括个性化论文指导、导师实时互动、录播回看及24小时答疑服务 [2][6] 论文辅导成果 - 辅导目标涵盖CCF-A/B/C、SCI1-4区及EI会议论文,提供一站式科研服务 [3] - 优秀学员可获得清北/MIT等名校推荐信及实验室实习机会,表现突出者可内推至阿里达摩院、华为诺亚方舟等企业 [7] 课程与服务细节 - 课程形式包括腾讯会议在线1v1授课及微信群日常答疑 [7] - 提供精准导师匹配系统,从300+导师中筛选3-5位最契合的导师 [6] - 预收定金可试听课程,不满意可免费更换老师或退款 [8] - 收费根据论文分区及个人情况定制,学术顾问会提供详细报价 [8]
只因一个“:”,大模型全军覆没
自动驾驶之心· 2025-07-17 20:08
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)普遍存在被简单符号(如冒号、空格)或推理开头语(如"Thought process:"、"解")欺骗的问题,导致假阳性奖励信号 [4][5][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [22] - 漏洞具有跨语言普遍性,中文、日语等语言的开头语同样能诱发高假阳性率 [23] 对抗性攻击与模型表现 - 专用生成式奖励模型(如Multi-sub RM、Omni-Judge)和通用LLM在5个推理基准测试中均未能抵御对抗性响应 [17][19] - 模型大小与假阳性率无单调关系,7B-14B参数模型表现最佳,32B-72B模型因倾向自主解题导致假阳性率回升 [32] - 通过嵌入相似度搜索可自动生成新对抗性响应,使漏洞无限繁殖 [26] 解决方案与模型改进 - 腾讯AI Lab等机构构建增强训练数据集,结合2万条对抗样本与原始数据训练Master-RM模型 [29][30] - Master-RM基于Qwen2-5-7B-Instruct微调,跨数据集测试中对"万能钥匙"的假阳性率接近0%,与GPT-4o评估一致性达0.96 [31][33] - 研究团队包括腾讯AI Lab首席科学家俞栋、普林斯顿大学博士生Yulai Zhao等业界与学术专家 [38][39][41] 行业影响与研究方向 - 生成式奖励模型的核心机制漏洞暴露,依赖验证器反馈的RLVR流程面临挑战 [27][28] - 未来需加强模型稳健性研究,严格对抗评估RLHF工作流程 [35][36] - 相关论文与模型已开源,数据集和模型链接发布于Hugging Face平台 [48]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一~
自动驾驶之心· 2025-07-17 20:08
人工智能从虚拟空间向物理世界的转变 - 人工智能正从虚拟互联网空间向真实物理世界迈进 核心挑战是赋予智能体对三维空间的理解能力 实现自然语言与物理环境的对齐 [3] - 现有3D空间理解模型依赖静态观察 缺乏主动探索行为建模 清华大学等团队提出统一空间理解与主动探索的新型模型 被ICCV 2025接收并获满分评价 [3] 具身导航任务的关键挑战 - 具身导航要求智能体根据人类指令在复杂物理空间中找到目标位置 需同时具备"听懂任务"和"会探索"的能力 [5] - 导航过程包含理解与探索两个交织步骤 类似人类导航时的方向感与主动探索行为 二者互相推动交替进行 [5] 研究难点与核心思路 - 主要研究难点包括实时语义表征构建 探索-理解协同训练目标设计 以及高效虚实结合数据采集流程 [7][11] - 核心思路是将具身导航建模为探索与视觉落地协同进行的闭环过程 强化学习与3D视觉语言模型能力统一 [8][14] 模型设计与实现 - 模型包含在线空间记忆构建与空间推理决策两大模块 通过动态空间记忆库实现结构化空间知识持续更新 [17][18] - 采用虚实结合数据策略 融合ScanNet和HM3D场景数据 构建超90万条导航轨迹和上千万语言指令 覆盖多种任务类型 [23][25] 实验结果与性能表现 - 在GOAT-Bench测试中成功率达52.2% 48.4%和47.2% 较现有方法最高提升20% 展现多模态理解与长期规划优势 [27] - SG3D-Nav任务中所有指标显著提升 s-SR达23.8 验证任务规划与长期记忆能力 [28][29] - 协同训练策略VLE在OVON GOAT和SG3D任务中分别提升5.5% 13.9%和5.0%成功率 [30] 技术应用与行业意义 - 模型在真实机器人上验证有效 为具身智能提供新思路 推动AI从屏幕走向物理世界的关键转型 [40][42] - 构建国内首个具身智能全栈学习社区 覆盖近40+开源项目和60+数据集 形成专业开发者生态 [51]
近半年「自动驾驶」篇强化学习论文推荐~
自动驾驶之心· 2025-07-17 20:08
自动驾驶强化学习研究进展 核心观点 - 强化学习(RL)在自动驾驶领域展现出巨大潜力,可提升车辆安全性、可靠性和智能化水平[3] - 2025年精选的10篇RL应用论文聚焦实际挑战与创新解决方案,涵盖轨迹规划、决策制定、仿真训练等方向[4][7] - 技术突破包括:3DGS仿真训练、VLM与RL融合、GRPO优化等,部分成果性能超越传统方法35%[10][26][35] 关键技术突破 轨迹规划 - CarPlanner采用自回归结构和生成-选择框架,在nuPlan数据集上超越IL和规则方法的SOTA表现[9] - ReCogDrive结合VLM与扩散规划器三阶段训练,在NAVSIM基准达到89.6 PDMS,较纯视觉SOTA提升5.6分[17][19] 决策系统 - RRL-SG通过对抗摄动训练和RSS安全掩码,实现策略鲁棒性与碰撞安全双重保障[13] - LGDRL框架引入LLM专家指导,任务成功率90%,学习效率显著优于基线算法[23][24] - AlphaDrive基于GRPO奖励优化,仅用20%数据即超越SFT方法35%性能[26][28] 仿真训练 - RAD利用3DGS技术构建闭环训练环境,碰撞率较IL方法降低3倍[10] - RIFT通过双阶段仿真框架提升交通场景逼真度,采用dual-clip机制增强训练稳定性[33][36] 基础理论研究 - D2RL通过状态编辑解决高维空间训练难题,获Nature封面论文并提升测试效率10³–10⁵倍[42][43][44] - 同济大学综述系统分析RL在运动规划中的应用,提炼关键设计经验与前沿挑战[29][30] 多模态融合 - Drive-R1通过长/短COT数据集训练实现视觉推理与轨迹规划对齐,在nuScenes创SOTA记录[35][37] - 快慢架构整合LLM指令解析与RL实时决策,碰撞率降低同时更贴合用户偏好[41] 行业影响 - IEEE引用2600+的综述推动RL技术现实部署,覆盖控制器优化、路径规划等6大应用方向[43] - 4000人技术社区聚集300+企业与机构,形成30+技术栈的完整学习体系[47][48]