自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

自动驾驶之心· 2025-07-31 18:00

科研开窍与论文发表 - 核心观点是科研需要尽早行动而非等待完美时机强调从硕士入学开始就将发论文作为贯穿全程的核心目标而非毕业前的冲刺任务[2][4] - 典型问题包括被动等待导师安排、过度追求完美基础、畏难拖延以及低估论文发表周期[2] - 从idea到论文接收通常需要半年到一年甚至更久审稿被拒会进一步延长周期[2] 时间规划与行动策略 - 研一暑假开始投入可拥有近2年时间打磨1-2篇高质量论文研二下学期才开始则有效时间不足1年且容错率极低[3] - 建议研一第一学期明确毕业要求了解领域主流期刊/会议主动与导师沟通研究方向研一暑假是进入科研状态的黄金窗口期[4] - 提倡迭代式科研：从小目标开始如复现经典论文、跑通基线模型快速试错并整理成文投稿审稿意见被视为提升能力的关键途径[5] 目标人群与服务模式 - 目标用户包括计算机专业被放养的硕博生、有职称晋升需求的科研人员、人工智能领域从业者以及考研申博留学群体[8] - 提供个性化论文指导服务涵盖选题到中稿全流程支持实时互动与录播回看可匹配300+导师中的3-5位最契合人选[7][11] - 附加价值包括名校推荐信、实验室实习机会以及阿里达摩院、华为诺亚方舟等企业研发岗内推[12] 服务细节与承诺 - 零基础学员通过6个月系统学习可完成小论文提供基础课程与文献带读支持[11] - 预收定金后可试听名师课程不满意可免费更换或退款价格根据目标期刊分区定制[13] - 采用腾讯会议1v1授课日常通过微信群答疑班主任全程督学跟进进度[11][12]

4000人了，死磕技术的自动驾驶黄埔军校到底做了哪些事情？

自动驾驶之心· 2025-07-31 14:19

社区定位与愿景 - 打造国内首个自动驾驶全栈技术交流平台，连接产业界与学术界，形成学术、产业、求职的闭环生态 [13] - 愿景是推动AI与自动驾驶技术普及，让相关资源触达每位有需求的学习者 [1] - 社区定位为培养未来行业领袖的孵化器，强调内容质量与实用性，避免形式化运营 [3] 核心资源体系 - **技术路线**：梳理40+技术路线，覆盖感知、仿真、规划控制三大方向，包括BEV感知、3DGS、世界模型等前沿领域 [14][15] - **学习资料**：提供原创视频课程（如数据工程、VLA技术等9大系列）、60+数据集、40+开源项目及行业书籍 [4][25][27][23] - **专家网络**：聚集数十位来自头部企业（蔚小理、华为、英伟达等）和顶尖高校（清华、CMU、ETH等）的一线专家 [14] 行业服务功能 - **求职对接**：与多家自动驾驶公司建立内推机制，实时分享实习/校招/社招岗位信息 [4][11][17] - **技术研讨**：组织超100场专业直播，内容涵盖VLA、3DGS、扩散模型等热点，部分场次由顶会论文作者主讲 [74] - **问题解答**：成员可自由提问技术难题（如3D车道线真值生成、BEV精度优化等），获得产业界实战解决方案 [75][79] 前沿领域覆盖 - **关键技术**：深度聚焦VLA（视觉语言模型）、端到端自动驾驶、世界模型等2025年重点方向，提供数据集、算法及量产方案 [35][37][29][33] - **工具链**：整合标定工具、CUDA加速、模型部署等工程化内容，覆盖从研发到落地的全流程 [55][59][61] - **创新应用**：探索3DGS与闭环仿真结合、扩散模型在场景重建中的应用等交叉领域 [31][40] 成员生态 - **用户构成**：成员来自上海交大、CMU等高校实验室及蔚来、大疆等企业，形成产学研协同网络 [14] - **互动模式**：通过圆桌讨论、开源项目协作、日常技术问答（如激光雷达数据处理）促进深度交流 [2][77][79] - **成长路径**：为小白提供入门路线图，为进阶者设计产业级项目方案，实现技术能力阶梯式提升 [8][10]

Qcnet->SmartRefine->Donut：Argoverse v2上SOTA的进化之路~

自动驾驶之心· 2025-07-31 14:19

自动驾驶轨迹预测技术研究进展 - 论文DONUT基于decoder-only架构配合overprediction策略在argoversev2数据集上取得SOTA表现 [1] - SmartRefine和DONUT均以QCNet为基础进行改进并取得SOTA成绩 [1] QCNet关键技术分析 - 采用以查询为中心的场景编码范式，使模型表示独立于全局时空坐标系 [2] - 提出propose+refine两阶段轨迹解码范式，首先生成无锚query轨迹proposal，再基于锚点细化预测 [2] - 传统场景编码方式依赖当前时刻直角坐标系，无法复用历史计算特征 [3] - 创新性使用极坐标系表示agent状态，以位置为极点、heading vector为极轴 [5] - 采用傅里叶特征编码agent位移矢量、速度矢量等状态信息 [5] - 构建4D描述符表示agent间相对状态，包含距离、相对方向等要素 [6][7] - 地图元素处理分为polygon级别和点级别，类似VectorNet方法 [12][13] SmartRefine改进要点 - 对QCNet的refine部分进行改进，提出自适应anchor选择机制 [30] - 引入动态上下文获取范围机制，范围取决于迭代次数和agent速度 [31] - 提出anchor-centric上下文编码，将特征转换到锚点坐标系下 [34] - 采用循环多迭代细化策略，每条轨迹分为N个片段逐步优化 [35] - 创新性提出质量评分机制，实现自适应控制refine迭代次数 [38] DONUT模型创新 - 采用decoder-only架构，包含proposer和refiner两个核心模块 [40] - 引入overprediction机制，预测当前及下一子轨迹片段 [41] - 使用tokenizer对轨迹片段进行编码，结合MLP输出多模态概率 [43] - 在非ensembling模型中表现优异，与DeMo互有胜负 [48] - 消融实验显示decoder-only架构带来显著性能提升 [49] 行业技术发展趋势 - 自动驾驶技术社区快速发展，已建立近百个技术交流群 [51] - 行业关注重点包括大模型、端到端自动驾驶、BEV感知等前沿方向 [51] - 轨迹预测领域持续创新，QCNet及其改进模型推动技术进步 [1][30][40]

Trajectory Prediction

Decoder-Only Model

Overprediction Strategy

Autonomous Driving

DONUT

SmartRefine

Trajectory Prediction

Decoder-Only Model

Overprediction Strategy

Autonomous Driving

DONUT

SmartRefine

ICCV 2025！首个自动驾驶RGB和Lidar紧耦合逆渲染框架InvRGB+L，直接SOTA~

自动驾驶之心· 2025-07-31 07:33

核心观点 - 提出InvRGB+L逆渲染框架，首次将LiDAR强度信息与RGB序列结合，用于大规模动态场景的重建和重光照 [4] - 通过物理建模实现RGB与LiDAR模态的材质一致性，解决传统方法依赖单一RGB输入导致的材质估计偏差问题 [4][6] - 在Waymo数据集上验证性能，PSNR达30.42，LiDAR强度建模误差（RMSE）0.063，优于现有方法 [18][20] 技术方法基于物理的LiDAR反射模型 - 提出新型LiDAR着色模型，采用Cook-Torrance模型扩展镜面反射项，公式化表达激光强度与表面材质（反射率、粗糙度）的关系 [7][9] - 建模激光能量衰减（与距离平方成反比）及入射角影响，实现物理准确的强度预测 [9][12] 逆渲染框架设计 - 采用带材质属性的3D高斯（3DGS）表示场景几何与光学属性，支持动态物体插入和时间一致性建模 [10][13][15] - 引入环境光照模型（天空光+太阳光）和可微分渲染流程，同步生成RGB与LiDAR强度输出 [14][15] - 训练损失函数包含RGB/LiDAR渲染误差、扩散先验监督及跨模态一致性约束 [16] 实验结果定量分析 - 重光照任务PSNR提升1.58（vs UrbanIR），LPIPS降低0.19，证明材质分离效果更优 [18] - LiDAR强度合成误差（RMSE 0.063）较LiDARsim降低47.5%，镜面反射建模更精准 [20] 应用场景 - 支持夜景模拟（街灯/车灯光照重建）和动态物体无缝融合（如车辆插入后物理光照匹配） [23] - 反照率估计误差减少，避免阴影误识别（如UrbanIR在车辆旁生成虚假阴影） [22] 局限性 - 高斯体元不透明性导致阴影渲染精度不足 [26] - 光照模型未覆盖复杂夜间环境（如多点光源），需进一步优化 [26]

逆渲染（inverse rendering）

自动驾驶

InvRGB+L

逆渲染（inverse rendering）

自动驾驶

InvRGB+L

老师让我搭建一台自驾科研平台，看到了这个就不想动手了......

自动驾驶之心· 2025-07-31 07:33

产品概述 - 黑武士001是自动驾驶之心团队推出的教研一体轻量级自动驾驶全栈小车解决方案，支持感知、定位、融合、导航、规划等功能平台，采用阿克曼底盘 [1] - 产品定位为科研&教学级工具，适用于本科生学习比赛、研究生科研发论文、高校实验室教具等场景 [4] - 原价36999元，促销期间赠送3门课程（模型部署+点云3D检测+多传感器融合）[1] 硬件配置 - 传感器配置： - 3D激光雷达Mid 360（FOV 360°×59°，测距0.1-40m）[8][16] - 2D激光雷达镭神智能M10p（最大测距25m）[8][16] - 奥比中光Gemini2深度相机（测量范围0.15-5m，精度≤2%@2m）[16][27] - 6轴IMU（采样率100Hz）[16] - 主控系统：Nvidia Orin NX 16G芯片 [8] - 底盘结构：铝合金/不锈钢钣金+CNC加工，车体尺寸620×400×320mm，自重30kg [10] 技术参数 - 运动性能：最大速度2m/s，续航时间>4小时（50W电池功率/24V供电）[10] - 负载能力：最大载荷30kg，轮毂伺服电机驱动（外径130mm）[10] - 软件框架：支持ROS、C++、Python，提供开发环境与一键启动功能 [12] 功能应用 - 感知与建图：支持2D/3D激光SLAM、视觉惯性SLAM、多传感器融合SLAM等13种建图方案 [13] - 算法开发：涵盖点云3D目标检测、语义分割、深度估计、人体姿态估计等计算机视觉任务 [5][13] - 场景测试：已验证室内地库建图、户外公园行驶、夜间场景、上下坡等复杂环境 [2][5][6][7] 研发支持 - 扩展性：预留传感器接口，支持加装相机、毫米波雷达等二次开发 [2] - 教学配套：提供完整产品说明书，包含硬件参数、软件配置、维修指南等内容 [12][15][35] - 操作支持：可通过手柄遥控（最大线速度/角速度可调）或脚本驱动传感器节点 [28][30]

端到端/大模型/世界模型秋招怎么准备？我们建了一个求职交流群...

自动驾驶之心· 2025-07-31 07:33

行业人才发展现状 - 学校学习内容与实际工作需求存在明显差距，导致应届生在求职时缺乏竞争力 [1] - 从业者转型需求强烈，方向包括大模型、世界模型、具身智能等前沿领域，但对行业实际动态了解不足 [1] 社群平台定位与功能 - 社群目标为搭建连接学校与企业的桥梁，整合全行业人才资源形成综合型平台 [1] - 社群内容聚焦产业动态、公司研究、产品研发及求职跳槽等实战话题 [1] - 提供行业人脉拓展渠道，帮助成员第一时间获取产业前沿信息 [1]

自动驾驶之心· 2025-07-31 07:33

VLA技术架构 - VLA架构源于机器人和具身智能，是长期架构，技术潜力大，能支持城区自动驾驶[2] - 相比端到端架构，VLA增加语言理解能力(L)，使模型具备深度思考能力，提升复杂场景处理能力[2] - VLA的泛化能力通过强化学习形成自主思维能力，无需依赖大量数据输入即可处理新场景[2] 硬件性能与部署 - Thor-U芯片支持FP4精度，算力达1400（FP8为700），推理帧率可从10Hz提升至20Hz[2] - 双Orin平台与Thor平台功能表现同步，模型部署无差别，未来交付帧率将优于当前[2] - 扩散模型采用流匹配技术，2-3步即可生成轨迹，时延低至15毫秒[3] 模型训练与迭代 - 3.2B MoE车端模型升级周期：基座模型每月更新，后训练根据问题实时调整[2] - 模型通过强化学习实现个性化驾驶风格，未来可在用户车上训练专属模型[12] - 行车、泊车、AEB模块已实现一体化训练[11] 产品体验与功能 - 当前版本调优偏稳妥，未来将提供多种驾驶风格适配不同用户需求[12] - 远程召唤功能已实现手机查看车辆周围影像[8] - 地库车速上限从10公里提升至15公里，未来将继续提高[5] 行业对比与差异化 - 理想技术路线与特斯拉均瞄准高级别自动驾驶，但更注重全场景能力积累和逐步迭代[11] - VLA架构支持个性化驾驶风格，形成与友商的产品差异化[12] - 公司参与国家L4法规建设，内部目标MPI年底达400-500公里，明年达千公里量级[12] 安全机制 - AEB功能作为安全兜底，帧率高，极端场景下直接使用感知结果[13] - 超级对齐确保VLA的思维链符合人类价值观，通过RLHF优化驾驶行为[4]

自动驾驶论文速递 | GS-Occ3D、BEV-LLM、协同感知、强化学习等~

自动驾驶之心· 2025-07-30 11:01

自动驾驶技术研究进展 - 清华大学与奔驰合作提出GS-Occ3D算法首次实现纯视觉的大规模3D占用重建在Waymo数据集上以0.56倒角距离刷新几何精度SOTA 训练效率仅需0.8小时并在Occ3D-nuScenes数据集实现33.4 IoU 超越激光雷达基线的31.4 [3][5] - GS-Occ3D创新性地开发了纯视觉占用标签生成管道摆脱对LiDAR标注依赖支持利用大规模众包数据进行自监督标注在长轨迹和复杂场景中保持高几何保真度 [5] - 该算法在Waymo数据集验证中 IoU达44.7 F1分数61.8 在nuScenes零样本测试中IoU 33.4 超越基线31.4 显示强大泛化能力 [6] 多模态场景理解技术 - 慕尼黑应用技术大学提出BEV-LLM框架通过融合LiDAR点云与多视角图像生成3D场景描述在nuCaption数据集BLEU-4分数达20.28% 超越SOTA模型5% [9][15] - BEV-LLM采用1B参数轻量级模型创新使用正弦-余弦位置嵌入技术将特征空间划分为六个视图在BLEU系列指标上全面超越7B参数级大模型 [15][16] - 研究团队同步发布nuView(205k样本)和GroundView(7.4k样本)两个新数据集为环境感知和对象定位研究提供新基准 [9][15] 协同感知技术突破 - 清华AIR研究院联合团队提出CoopTrack框架在V2X-Seq数据集实现39.0% mAP与32.8% AMOTA 传输成本降至V2X-ViT的2.2% [21][26] - 该框架采用可学习实例关联模块和"融合后解码"流程实现协作与跟踪的无缝集成在mAP指标上较Early Fusion提升12个百分点 [26][29] 强化学习应用创新 - 德国研究团队提出自适应行为课程框架通过多智能体强化学习教师动态生成交通行为使智能体在未信号化交叉口平均速度提升98%至1.63 m/s [33][39] - 该框架采用图网络架构和新型奖励函数能生成不同难度水平的交通行为在最高难度场景(λ=-1)下成功率提升至40% [33][39] 视觉行驶区域预测 - ContourDiff模型突破单目视觉多模态驾驶通道预测技术在CARLA实现0.7767 IoU与0.02障碍物重叠率支持6种驾驶行为生成 [45][48] - 该技术首次将行驶区域预测定义为图像感知任务采用自监督样本生成方法摆脱对密集标注数据的依赖 [48][49]

Autonomous Driving

Multi-Agent Reinforcement Learning

Multi-Agent Reinforcement Learning

理想发布会三小时，最狠的是：VLA 要上路了？！

自动驾驶之心· 2025-07-30 11:01

理想i8与VLA技术发布 - 理想i8在品牌十周年之际上市，重点升级辅助驾驶功能并首发VLA（视觉-语言-动作模型）司机大模型[2] - VLA将于8月在i8上交付，其能力提升体现在多模态输入、思维链推理和人类驾驶直觉三大方向[3][4] - VLA具备四大核心能力：空间理解（视觉）、思维能力与沟通记忆（语言模型+RAG）、行为能力，可执行自然语言指令如"靠边停""找星巴克"，并实现动态路径规划与障碍规避[5][7] 端到端自动驾驶技术演进 - 技术路径从E2E+VLM递进至VLA，成为行业新里程碑，吸引传统规控/感知领域人才转型[7] - 当前技术需融合多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等跨领域知识[16] - 主流范式包括：基于感知的UniAD/VAD、基于世界模型的Drive-OccWorld/OccLLaMA、基于扩散模型的DiffusionDrive/DiffE2E，以及最前沿的VLA方案如ORION/OpenDriveVLA[25] VLA人才市场需求 - 行业对VLA/VLM专家需求旺盛，算法专家岗位年薪达40-70万（15薪），博士顶尖人才可达90-120万（16薪）[13] - 技术岗位覆盖模型量化部署、多模态算法等方向，实习生日薪220-400元，反映人才争夺激烈[13] 端到端自动驾驶课程体系 - 课程设计直击学习痛点：通过Just-in-Time Learning理念快速入门，构建领域框架，结合RLHF微调等实战环节[17][18][19] - 知识体系覆盖：端到端发展史（模块化到VLA范式）、BEV感知/扩散模型/VLM等关键技术、二段式PLUTO/CarPlanner等经典算法[23][24][26] - 教学安排：8月15日开课，分5章三个月完成，配套VIP答疑与代码实战，目标培养具备1年经验的端到端算法工程师[27][32][33]

ICCV'25 Highlight｜浙江大学MaGS：统一动态重建与物理仿真三维表示！

自动驾驶之心· 2025-07-30 07:32

点击下方卡片，关注" 3D视觉之心 "公众号第一时间获取 3D视觉干货图 0：项目主页如何仅通过单目视频实现对动态三维物体的高质量重建与物理仿真，一直是计算机视觉与图形学领域一个极具挑战性的问题。近期，来自浙江大学等机构的研究者们提出了名为 MaGS (Mesh-adsorbed Gaussian Splatting) 的全新统一框架，为解决这一难题提供了新的思路。MaGS 框架的核心是创建一种创新的"网格吸附高斯（Mesh- adsorbed Gaussian）"混合表示，它巧妙地结合了三维高斯泼溅（3DGS）的渲染灵活性与三角网格（Mesh）的结构化特性。通过这种方式，MaGS 在动态场景重建和动态场景仿真两个任务上均取得了当前最优的性能。图 1：MaGS 示意图该研究目前已被 ICCV 2025 接收为Highlight Paper，Arxiv地址：2406.01593。 Project Page: https://wcwac.github.io/MaGS-page/ 在计算机图形学和计算机视觉领域，从视频中重建三维世界（Reconstruction）并对其进行物理交互和动画模拟（ ...

Three-dimensional reconstruction and physical simulation

Computer Graphics and Computer Vision

MaGS (Mesh-adsorbed Gaussian Splatting)

Three-dimensional reconstruction and physical simulation

Computer Graphics and Computer Vision

MaGS (Mesh-adsorbed Gaussian Splatting)

Previous Next