自动驾驶之心

搜索文档
科研论文这件小事,总是开窍后已太晚......
自动驾驶之心· 2025-07-31 18:00
科研开窍与论文发表 - 核心观点是科研需要尽早行动而非等待完美时机 强调从硕士入学开始就将发论文作为贯穿全程的核心目标而非毕业前的冲刺任务[2][4] - 典型问题包括被动等待导师安排、过度追求完美基础、畏难拖延以及低估论文发表周期[2] - 从idea到论文接收通常需要半年到一年甚至更久 审稿被拒会进一步延长周期[2] 时间规划与行动策略 - 研一暑假开始投入可拥有近2年时间打磨1-2篇高质量论文 研二下学期才开始则有效时间不足1年且容错率极低[3] - 建议研一第一学期明确毕业要求 了解领域主流期刊/会议 主动与导师沟通研究方向 研一暑假是进入科研状态的黄金窗口期[4] - 提倡迭代式科研:从小目标开始如复现经典论文、跑通基线模型 快速试错并整理成文投稿 审稿意见被视为提升能力的关键途径[5] 目标人群与服务模式 - 目标用户包括计算机专业被放养的硕博生、有职称晋升需求的科研人员、人工智能领域从业者以及考研申博留学群体[8] - 提供个性化论文指导服务 涵盖选题到中稿全流程 支持实时互动与录播回看 可匹配300+导师中的3-5位最契合人选[7][11] - 附加价值包括名校推荐信、实验室实习机会以及阿里达摩院、华为诺亚方舟等企业研发岗内推[12] 服务细节与承诺 - 零基础学员通过6个月系统学习可完成小论文 提供基础课程与文献带读支持[11] - 预收定金后可试听名师课程 不满意可免费更换或退款 价格根据目标期刊分区定制[13] - 采用腾讯会议1v1授课 日常通过微信群答疑 班主任全程督学跟进进度[11][12]
4000人了,死磕技术的自动驾驶黄埔军校到底做了哪些事情?
自动驾驶之心· 2025-07-31 14:19
社区定位与愿景 - 打造国内首个自动驾驶全栈技术交流平台,连接产业界与学术界,形成学术、产业、求职的闭环生态 [13] - 愿景是推动AI与自动驾驶技术普及,让相关资源触达每位有需求的学习者 [1] - 社区定位为培养未来行业领袖的孵化器,强调内容质量与实用性,避免形式化运营 [3] 核心资源体系 - **技术路线**:梳理40+技术路线,覆盖感知、仿真、规划控制三大方向,包括BEV感知、3DGS、世界模型等前沿领域 [14][15] - **学习资料**:提供原创视频课程(如数据工程、VLA技术等9大系列)、60+数据集、40+开源项目及行业书籍 [4][25][27][23] - **专家网络**:聚集数十位来自头部企业(蔚小理、华为、英伟达等)和顶尖高校(清华、CMU、ETH等)的一线专家 [14] 行业服务功能 - **求职对接**:与多家自动驾驶公司建立内推机制,实时分享实习/校招/社招岗位信息 [4][11][17] - **技术研讨**:组织超100场专业直播,内容涵盖VLA、3DGS、扩散模型等热点,部分场次由顶会论文作者主讲 [74] - **问题解答**:成员可自由提问技术难题(如3D车道线真值生成、BEV精度优化等),获得产业界实战解决方案 [75][79] 前沿领域覆盖 - **关键技术**:深度聚焦VLA(视觉语言模型)、端到端自动驾驶、世界模型等2025年重点方向,提供数据集、算法及量产方案 [35][37][29][33] - **工具链**:整合标定工具、CUDA加速、模型部署等工程化内容,覆盖从研发到落地的全流程 [55][59][61] - **创新应用**:探索3DGS与闭环仿真结合、扩散模型在场景重建中的应用等交叉领域 [31][40] 成员生态 - **用户构成**:成员来自上海交大、CMU等高校实验室及蔚来、大疆等企业,形成产学研协同网络 [14] - **互动模式**:通过圆桌讨论、开源项目协作、日常技术问答(如激光雷达数据处理)促进深度交流 [2][77][79] - **成长路径**:为小白提供入门路线图,为进阶者设计产业级项目方案,实现技术能力阶梯式提升 [8][10]
Qcnet->SmartRefine->Donut:Argoverse v2上SOTA的进化之路~
自动驾驶之心· 2025-07-31 14:19
本文只做学术分享,如有侵权,联系删文 写在前面--先聊聊为啥写这篇文章 笔者这段时间阅读了来自ICCV2025的论文 DONUT: A Decoder-Only Model for Trajectory Prediction 作者 | Sakura 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1933901730589962575 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 这篇论文以qcnet为baseline,基于 decoder-only架构配合overprediction策略 ,在argoversev2上取得了SOTA 联想到之前笔者所阅读的论文SmartRefine,该论文也是基于Qcnet的基础上对refine部分进行改进,也在argoverse v2上取得了SOTA; 因此,本着学习的态度,笔者想 在此简单总结这三篇论文 ; Query-Centric Trajectory Prediction--CVPR 2023 SmartRefin ...
ICCV 2025!首个自动驾驶RGB和Lidar紧耦合逆渲染框架InvRGB+L,直接SOTA~
自动驾驶之心· 2025-07-31 07:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 清华大学&UIUC 最新的工作! ICCV 2025 首个自 驾RGB和Lidar紧耦合逆渲染框架invRGB+L! 如果您有相关工作需要分享,请在文末联系我 们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 编辑 | 自动驾驶之心 1 简介 论文标题:InvRGB+L Inverse Rendering of Complex Scenes with Unified Color and LiDAR Reflectance Modeling 论文链接:https://arxiv.org/abs/2507.17613 本文提出了InvRGB+L,一种新颖的逆渲染(inverse rendering)模型,首次将LiDAR强度应用于逆渲染,可 以从单一的RGB+LiDAR序列中重建大规模、可重光照的动态场景。传统的逆渲染方法主要依赖RGB输 入,将LiDAR仅用于几何信息的重建,而图像输入常常由于可见光干扰导致材质估计不理想。我们发现, Li ...
老师让我搭建一台自驾科研平台,看到了这个就不想动手了......
自动驾驶之心· 2025-07-31 07:33
产品概述 - 黑武士001是自动驾驶之心团队推出的教研一体轻量级自动驾驶全栈小车解决方案,支持感知、定位、融合、导航、规划等功能平台,采用阿克曼底盘 [1] - 产品定位为科研&教学级工具,适用于本科生学习比赛、研究生科研发论文、高校实验室教具等场景 [4] - 原价36999元,促销期间赠送3门课程(模型部署+点云3D检测+多传感器融合)[1] 硬件配置 - 传感器配置: - 3D激光雷达Mid 360(FOV 360°×59°,测距0.1-40m)[8][16] - 2D激光雷达镭神智能M10p(最大测距25m)[8][16] - 奥比中光Gemini2深度相机(测量范围0.15-5m,精度≤2%@2m)[16][27] - 6轴IMU(采样率100Hz)[16] - 主控系统:Nvidia Orin NX 16G芯片 [8] - 底盘结构:铝合金/不锈钢钣金+CNC加工,车体尺寸620×400×320mm,自重30kg [10] 技术参数 - 运动性能:最大速度2m/s,续航时间>4小时(50W电池功率/24V供电)[10] - 负载能力:最大载荷30kg,轮毂伺服电机驱动(外径130mm)[10] - 软件框架:支持ROS、C++、Python,提供开发环境与一键启动功能 [12] 功能应用 - 感知与建图:支持2D/3D激光SLAM、视觉惯性SLAM、多传感器融合SLAM等13种建图方案 [13] - 算法开发:涵盖点云3D目标检测、语义分割、深度估计、人体姿态估计等计算机视觉任务 [5][13] - 场景测试:已验证室内地库建图、户外公园行驶、夜间场景、上下坡等复杂环境 [2][5][6][7] 研发支持 - 扩展性:预留传感器接口,支持加装相机、毫米波雷达等二次开发 [2] - 教学配套:提供完整产品说明书,包含硬件参数、软件配置、维修指南等内容 [12][15][35] - 操作支持:可通过手柄遥控(最大线速度/角速度可调)或脚本驱动传感器节点 [28][30]
端到端/大模型/世界模型秋招怎么准备?我们建了一个求职交流群...
自动驾驶之心· 2025-07-31 07:33
行业人才发展现状 - 学校学习内容与实际工作需求存在明显差距,导致应届生在求职时缺乏竞争力 [1] - 从业者转型需求强烈,方向包括大模型、世界模型、具身智能等前沿领域,但对行业实际动态了解不足 [1] 社群平台定位与功能 - 社群目标为搭建连接学校与企业的桥梁,整合全行业人才资源形成综合型平台 [1] - 社群内容聚焦产业动态、公司研究、产品研发及求职跳槽等实战话题 [1] - 提供行业人脉拓展渠道,帮助成员第一时间获取产业前沿信息 [1]
关于理想VLA司机大模型的22个QA
自动驾驶之心· 2025-07-31 07:33
VLA技术架构 - VLA架构源于机器人和具身智能,是长期架构,技术潜力大,能支持城区自动驾驶[2] - 相比端到端架构,VLA增加语言理解能力(L),使模型具备深度思考能力,提升复杂场景处理能力[2] - VLA的泛化能力通过强化学习形成自主思维能力,无需依赖大量数据输入即可处理新场景[2] 硬件性能与部署 - Thor-U芯片支持FP4精度,算力达1400(FP8为700),推理帧率可从10Hz提升至20Hz[2] - 双Orin平台与Thor平台功能表现同步,模型部署无差别,未来交付帧率将优于当前[2] - 扩散模型采用流匹配技术,2-3步即可生成轨迹,时延低至15毫秒[3] 模型训练与迭代 - 3.2B MoE车端模型升级周期:基座模型每月更新,后训练根据问题实时调整[2] - 模型通过强化学习实现个性化驾驶风格,未来可在用户车上训练专属模型[12] - 行车、泊车、AEB模块已实现一体化训练[11] 产品体验与功能 - 当前版本调优偏稳妥,未来将提供多种驾驶风格适配不同用户需求[12] - 远程召唤功能已实现手机查看车辆周围影像[8] - 地库车速上限从10公里提升至15公里,未来将继续提高[5] 行业对比与差异化 - 理想技术路线与特斯拉均瞄准高级别自动驾驶,但更注重全场景能力积累和逐步迭代[11] - VLA架构支持个性化驾驶风格,形成与友商的产品差异化[12] - 公司参与国家L4法规建设,内部目标MPI年底达400-500公里,明年达千公里量级[12] 安全机制 - AEB功能作为安全兜底,帧率高,极端场景下直接使用感知结果[13] - 超级对齐确保VLA的思维链符合人类价值观,通过RLHF优化驾驶行为[4]
自动驾驶论文速递 | GS-Occ3D、BEV-LLM、协同感知、强化学习等~
自动驾驶之心· 2025-07-30 11:01
自动驾驶技术研究进展 - 清华大学与奔驰合作提出GS-Occ3D算法 首次实现纯视觉的大规模3D占用重建 在Waymo数据集上以0.56倒角距离刷新几何精度SOTA 训练效率仅需0.8小时 并在Occ3D-nuScenes数据集实现33.4 IoU 超越激光雷达基线的31.4 [3][5] - GS-Occ3D创新性地开发了纯视觉占用标签生成管道 摆脱对LiDAR标注依赖 支持利用大规模众包数据进行自监督标注 在长轨迹和复杂场景中保持高几何保真度 [5] - 该算法在Waymo数据集验证中 IoU达44.7 F1分数61.8 在nuScenes零样本测试中IoU 33.4 超越基线31.4 显示强大泛化能力 [6] 多模态场景理解技术 - 慕尼黑应用技术大学提出BEV-LLM框架 通过融合LiDAR点云与多视角图像生成3D场景描述 在nuCaption数据集BLEU-4分数达20.28% 超越SOTA模型5% [9][15] - BEV-LLM采用1B参数轻量级模型 创新使用正弦-余弦位置嵌入技术 将特征空间划分为六个视图 在BLEU系列指标上全面超越7B参数级大模型 [15][16] - 研究团队同步发布nuView(205k样本)和GroundView(7.4k样本)两个新数据集 为环境感知和对象定位研究提供新基准 [9][15] 协同感知技术突破 - 清华AIR研究院联合团队提出CoopTrack框架 在V2X-Seq数据集实现39.0% mAP与32.8% AMOTA 传输成本降至V2X-ViT的2.2% [21][26] - 该框架采用可学习实例关联模块和"融合后解码"流程 实现协作与跟踪的无缝集成 在mAP指标上较Early Fusion提升12个百分点 [26][29] 强化学习应用创新 - 德国研究团队提出自适应行为课程框架 通过多智能体强化学习教师动态生成交通行为 使智能体在未信号化交叉口平均速度提升98%至1.63 m/s [33][39] - 该框架采用图网络架构和新型奖励函数 能生成不同难度水平的交通行为 在最高难度场景(λ=-1)下成功率提升至40% [33][39] 视觉行驶区域预测 - ContourDiff模型突破单目视觉多模态驾驶通道预测技术 在CARLA实现0.7767 IoU与0.02障碍物重叠率 支持6种驾驶行为生成 [45][48] - 该技术首次将行驶区域预测定义为图像感知任务 采用自监督样本生成方法 摆脱对密集标注数据的依赖 [48][49]
理想发布会三小时,最狠的是:VLA 要上路了?!
自动驾驶之心· 2025-07-30 11:01
理想i8与VLA技术发布 - 理想i8在品牌十周年之际上市,重点升级辅助驾驶功能并首发VLA(视觉-语言-动作模型)司机大模型[2] - VLA将于8月在i8上交付,其能力提升体现在多模态输入、思维链推理和人类驾驶直觉三大方向[3][4] - VLA具备四大核心能力:空间理解(视觉)、思维能力与沟通记忆(语言模型+RAG)、行为能力,可执行自然语言指令如"靠边停""找星巴克",并实现动态路径规划与障碍规避[5][7] 端到端自动驾驶技术演进 - 技术路径从E2E+VLM递进至VLA,成为行业新里程碑,吸引传统规控/感知领域人才转型[7] - 当前技术需融合多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等跨领域知识[16] - 主流范式包括:基于感知的UniAD/VAD、基于世界模型的Drive-OccWorld/OccLLaMA、基于扩散模型的DiffusionDrive/DiffE2E,以及最前沿的VLA方案如ORION/OpenDriveVLA[25] VLA人才市场需求 - 行业对VLA/VLM专家需求旺盛,算法专家岗位年薪达40-70万(15薪),博士顶尖人才可达90-120万(16薪)[13] - 技术岗位覆盖模型量化部署、多模态算法等方向,实习生日薪220-400元,反映人才争夺激烈[13] 端到端自动驾驶课程体系 - 课程设计直击学习痛点:通过Just-in-Time Learning理念快速入门,构建领域框架,结合RLHF微调等实战环节[17][18][19] - 知识体系覆盖:端到端发展史(模块化到VLA范式)、BEV感知/扩散模型/VLM等关键技术、二段式PLUTO/CarPlanner等经典算法[23][24][26] - 教学安排:8月15日开课,分5章三个月完成,配套VIP答疑与代码实战,目标培养具备1年经验的端到端算法工程师[27][32][33]
ICCV'25 Highlight|浙江大学MaGS:统一动态重建与物理仿真三维表示!
自动驾驶之心· 2025-07-30 07:32
点击下方 卡片 ,关注" 3D视觉之心 "公众号 第一时间获取 3D视觉干货 图 0:项目主页 如何仅通过单目视频实现对动态三维物体的高质量重建与物理仿真,一直是计算机视觉与图形学领域一个极具挑 战性的问题。近期,来自浙江大学等机构的研究者们提出了名为 MaGS (Mesh-adsorbed Gaussian Splatting) 的全 新统一框架,为解决这一难题提供了新的思路。MaGS 框架的核心是创建一种创新的"网格吸附高斯(Mesh- adsorbed Gaussian)"混合表示,它巧妙地结合了三维高斯泼溅(3DGS)的渲染灵活性与三角网格(Mesh)的结 构化特性。通过这种方式,MaGS 在动态场景重建和动态场景仿真两个任务上均取得了当前最优的性能。 图 1:MaGS 示意图 该研究目前已被 ICCV 2025 接收为Highlight Paper,Arxiv地址:2406.01593。 Project Page: https://wcwac.github.io/MaGS-page/ 在计算机图形学和计算机视觉领域,从视频中重建三维世界(Reconstruction)并对其进行物理交互和动画模拟 ( ...