Workflow
自动驾驶之心
icon
搜索文档
双非硕多传感融合方向,技术不精算法岗学历受限,求学习建议。。。
自动驾驶之心· 2025-08-13 21:06
社区定位与价值主张 - 专注于为自动驾驶领域学生和从业者提供技术交流平台 特别关注双非院校学生在算法方向的就业困难问题 [2][3] - 通过知识星球社区构建产业、学术、求职、问答交流的闭环生态 已整合40+技术路线和数十位行业嘉宾资源 [6] - 社区成员覆盖国内外顶尖高校(上海交大、北京大学、CMU等)和头部企业(蔚小理、地平线、华为等)形成高端技术聚集地 [17] 技术资源体系 - 系统化整理近40+开源项目、60+数据集及主流仿真平台 涵盖感知、规划控制、仿真等全栈技术方向 [17] - 详细梳理前沿技术领域包括端到端自动驾驶(覆盖综述、里程碑方法、多模态方案等10个子类) [24][35] - 提供VLA(视觉语言模型)全链路资源 包含开源数据集、思维链推理及量产方案DriveVLM等关键技术 [41][43] - 整合3DGS与NeRF技术 涵盖算法原理、自动驾驶场景重建与闭环仿真等应用 [37] 实战与就业支持 - 设计100问系列实战专题 包括TensorRT模型部署、毫米波雷达融合、规划控制等7大方向工程化问题 [8] - 定期组织行业大佬直播分享 已完成超100场专业技术直播 涵盖VLA、3D检测、扩散模型等热点话题 [80] - 提供企业岗位对接服务 覆盖蔚小理、华为、大疆等头部公司 并针对应届生offer选择提供详细对比分析 [84] 细分技术模块 - BEV感知领域整合纯视觉、多模态方案及工程部署资源 形成量产方案技术基石 [48] - 多传感器融合方向涵盖强融合/弱融合/后融合方案 以及Lidar/Radar/Camera具体实施路线 [8][52] - 规划控制模块包含基于搜索/采样/数值优化的算法 以及横纵解耦与联合规划框架 [17] - 仿真技术汇总Carla、Apollo、Autoware等平台 并扩展闭环仿真与传感器仿真能力 [8][76]
传统感知逐渐被嫌弃,VLA已经上车了?!
自动驾驶之心· 2025-08-13 14:04
理想i8与VLA司机大模型 - 理想i8成为首款搭载VLA司机大模型的理想车型 核心能力包括空间理解 思维能力 沟通与记忆能力以及行为能力 [2] - VLA能力提升体现在三方面 更懂语义(多模态输入) 更擅长推理(思维链) 更接近人类驾驶直觉 [2] - 行驶中可响应自然语言指令如"靠边停一下""往前走50米" 并能根据记忆设定路段速度 主动规避障碍 [5] VLA技术发展现状 - VLA是自动驾驶量产新里程碑 技术从E2E+VLM递进发展 行业多家公司投入研发 [7] - 技术栈涉及大语言模型 BEV感知 扩散模型 强化学习等多领域 转行门槛较高 [19] - 当前招聘需求旺盛 VLA算法专家岗位薪资达40-70K 量化部署工程师40-60K [15] 端到端自动驾驶课程体系 课程内容架构 - 第一章概述端到端发展历史 从模块化到一段式 二段式及VLA范式的演进 [26] - 第二章重点讲解大语言模型 BEV感知 扩散模型等背景知识 覆盖未来两年高频技术关键词 [26][33] - 第三章解析二段式端到端 包括PLUTO CARPLANNER(CVPR'25)等经典算法 [27] - 第四章深度剖析一段式端到端子领域 涵盖UniAD 世界模型 扩散模型及VLA前沿方案 [28][30][32][35] 教学特色 - 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [21] - 配套RLHF微调大作业 可迁移至VLA算法 提供ORION等实战项目 [35][37] - 课程目标使学员达到1年经验算法工程师水平 掌握BEV感知 多模态大模型等关键技术 [42] 行业技术趋势 - 世界模型应用广泛 涵盖场景生成 端到端驾驶及闭环仿真 成为近年热门方向 [30] - 扩散模型与VLM结合实现VLA 多模轨迹预测提升环境适应性 多家公司尝试落地 [32] - VLA技术上限高但难度大 小米ORION 慕尼黑工大OpenDriveVLA等方案推动量产进程 [35]
成立了一个端到端VLA技术交流群!行业信息一手触达~
自动驾驶之心· 2025-08-13 14:04
自动驾驶技术交流群成立 - 自动驾驶之心大模型VLA技术交流群成立,聚焦端到端VLA技术交流 [1] - 交流内容包括VLA数据集制作、一段式VLA、分层VLA、基于大模型的端到端方案、基于VLM+DP的方案、量产落地、求职等 [1] - 感兴趣者可添加小助理微信AIDriver005进群,需备注昵称+VLA加群 [2]
2025年大模型研究热点是什么?
自动驾驶之心· 2025-08-13 07:33
大模型技术社区定位 - 平台专注于构建国内最大的大模型技术社区 目标为行业输送人才和产业学术信息[1] - 社区核心定位为"认真做内容的社区"和"培养未来领袖的地方"[2] 技术研究方向 - 重点覆盖四大技术领域:大模型RAG 大模型AI Agent 多模态大模型(预训练/微调/强化学习)以及大模型部署推理优化[1] - 多模态大模型技术包含完整技术链条从预训练到强化学习[1] 社区发展策略 - 通过知识星球形式快速搭建技术模块 吸引对大模型技术感兴趣的用户加入[1] - 社区筹备阶段积极扩大技术爱好者群体 形成技术同行生态[1]
突破SAM局限!美团提出X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-13 07:33
X-SAM技术突破 - X-SAM由中山大学、鹏城实验室和美团团队联合开发,将分割能力从"分割任何事物"扩展到"任何分割",支持文本指令、视觉提示及跨图像场景的精准分割[3][4] - 模型在20+数据集、7大核心任务上全面超越现有方案,包括通用分割、开放词汇分割、指代分割等,刷新像素级视觉理解基准[4][28] - 创新性提出视觉定位分割(VGD)任务,支持根据单点提示分割图像中所有同类实例,跨图像VGD分割AP达47.9-49.7,远超PSALM模型的2.0-3.7[26][35] 核心技术架构 - 采用统一输入格式设计,通过<p>和<region>标签标准化文本/视觉查询输入,实现多任务融合处理[13][15] - 双编码器架构包含SigLIP图像编码器和SAM-L分割编码器,分别提取全局场景特征与像素级细节特征[19] - 分割连接器生成1/8至1/32多尺度特征,结合Mask2Former解码器实现多对象同步分割,LLM采用Phi-3-mini-4k-instruct处理语言交互[19][20] 训练策略创新 - 三阶段训练流程:分割器微调(COCO数据集)→对齐预训练(LLaVA-558K)→混合微调(多任务数据集)[23][27] - 动态平衡数据集采样策略,解决样本量差异(0.2K-665K)带来的训练偏差,最优参数t=0.1[24] - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2升至57.1,验证多任务协同效应[37] 性能表现 - 指代分割任务在RefCOCO系列数据集cIoU达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和8B参数的Sa2VA[29][32] - 定位对话生成(GCG)任务mIoU 69.4,优于GLaMM(65.8)和OMG-LLaVA(65.5),实现文本描述与分割掩码同步输出[33] - 通用分割任务PQ 54.7接近Mask2Former(57.8),开放词汇分割AP 16.2远超ODISE(14.4)[31] 行业应用前景 - 技术突破使多模态大模型具备真正的像素级理解能力,可应用于智能医疗影像、自动驾驶场景解析等领域[4][8] - 统一框架解决工程落地需部署多个专用模型的问题,显著提升分割任务处理效率[6][36] - 未来计划扩展至视频分割领域,结合SAM2实现跨时空视觉定位,开拓动态场景理解新方向[43]
地平线&清华Epona:自回归式世界端到端模型~
自动驾驶之心· 2025-08-13 07:33
核心观点 - 提出一个统一框架Epona,能同时生成长时高分辨率视频(512×1024,2分钟)和端到端输出连续轨迹,解决现有方法在长时程预测与实时规划上的局限[5][12] - 首创解耦时空建模架构:GPT风格Transformer处理时间动态性,双Diffusion Transformer分别负责空间渲染(VisDiT)和轨迹生成(TrajDiT)[12][18] - 实现20Hz实时轨迹规划,推理算力降低90%,支持多模态异步生成(3秒轨迹与下一帧图像并行)[12] 方法论 模型架构 - **Multimodal Spatiotemporal Transformer (MST)**:1.3B参数,12层结构,将历史驾驶场景与动作序列编码为隐式表征,压缩率提升16倍[16][26] - **Trajectory Planning Diffusion Transformer (TrajDiT)**:50M参数,采用Dual-Single-Stream DiT结构,独立处理历史隐变量与轨迹数据,支持高斯噪声迭代去噪[18] - **Next-frame Prediction Diffusion Transformer (VisDiT)**:1.2B参数,结构类似TrajDiT但集成action control,通过DCAE解码器生成图像[21] 训练策略 - **Chain-of-Forward Training**:周期性用预测帧替代真值输入,抑制自回归漂移问题,通过速度估算加速去噪过程[24] - **Temporal-aware DCAE Decoder**:在32倍下采样的DCAE中增加时空注意力层,解决视频闪烁问题,微调时仅训练解码器[25] 性能表现 视频生成 - 在FID(6.9 vs 7.5)和FVD(82.8 vs 89.4)指标上优于Vista等基线,支持120秒/600帧生成长度,远超DriveDreamer(4秒/48帧)和GAIA-1(40秒/400帧)[28] 轨迹规划 - 在NC(97.9 vs 97.8)、DAC(95.1 vs 91.9)等6项指标上接近人类水平(100),显著超越UniAD、TransFuser等相机/LiDAR融合方案[34] 技术拓展性 - 框架可延伸至闭环仿真、强化学习、行为因果解释,但当前仅支持单相机输入,未解决多传感器一致性与点云生成问题[36] 行业应用 - 自动驾驶领域首个融合图像生成与轨迹预测的世界模型,参数量达2.5B(MST+VisDiT占95%),训练资源为48张A100 GPU/60万次迭代[26][36]
自驾VLA再升级!博世最新IRL-VLA:奖励世界模型打造全新闭环强化学习框架
自动驾驶之心· 2025-08-13 07:33
自动驾驶技术框架IRL-VLA - 提出三阶段闭环强化学习框架:模仿学习预训练VLA策略、逆向强化学习构建奖励世界模型(RWM)、RWM引导的PPO策略优化[3][11][26] - 核心创新点包括轻量化RWM替代高成本仿真器、扩散式轨迹生成规划器、语义与3D推理模块融合[11][18][19] - 在NAVSIM v2基准测试EPDMS达74.9,CVPR2025挑战赛获亚军成绩45.0 EPDMS[3][42][46] 技术架构创新 - VLA模型整合语义推理模块(Senna-VLM框架)、BEV编码的3D推理模块、基于扩散的轨迹规划器[18][19] - RWM通过逆向强化学习建模8项驾驶指标(碰撞/合规性/舒适度等),权重遵循EPDMS标准[22][24] - 采用分层去噪的扩散策略生成多模态轨迹,结合GAE优势估计优化PPO训练过程[29][32] 性能验证与对比 - NAVSIM数据集测试显示:预训练模型(IRL-VLA-PT)在扩展舒适度(EC 76.0)和自车进度(EP 83.9)显著优于GTRS-Aug(EC 54.2/EP 76.1)[42] - 消融实验证实:扩散规划器使EPDMS提升3.0,语义推理模块提升1.4;模仿学习权重0.5时效果最佳[44][45] - 相比传统方法(PDM-Closed EPDMS 51.3),实现46%的性能提升且保持计算效率[42] 行业应用价值 - 首个不依赖仿真器的闭环VLA方案,解决Sim2Real领域差距与计算瓶颈问题[11][23] - 方法可扩展至真实世界数据,支持多目标(安全/效率/规则)联合优化[26][33] - 为端到端自动驾驶提供新范式,推动感知-规划-控制全链路协同优化[46]
自动驾驶VLA工作汇总(模块化/端到端/推理增强)
自动驾驶之心· 2025-08-12 19:42
文章核心观点 - 文章梳理了近两年VLA(Vision-Language-Action)在自动驾驶领域的发展路线和算法汇总,涵盖前置工作、模块化VLA、端到端VLA和推理增强VLA等多个方向 [1][3][4][6] - 介绍了多个相关论文和开源项目,包括DriveGPT4、TS-VLM、DynRsl-VLM、RAG-Driver、OpenDriveVLA、DriveMoE等 [3][4][6][9] - 提供了自动驾驶之心知识星球的详细信息,包括技术路线、学习资源和行业资源 [7][10][15] VLA前置工作 - DriveGPT4提出通过大型语言模型实现可解释的端到端自动驾驶 [3] - TS-VLM采用文本引导的SoftSort池化方法用于多视角驾驶推理的视觉语言模型 [3] - DynRsl-VLM通过动态分辨率视觉语言模型增强自动驾驶感知能力 [3] 模块化VLA - RAG-Driver在多模态大型语言模型中通过检索增强的上下文学习实现通用驾驶解释 [4] - OpenDriveVLA致力于构建端到端自动驾驶的大型视觉语言动作模型 [4] - DriveMoE采用专家混合方法构建端到端自动驾驶的视觉语言动作模型 [4] - LangCoop探索语言协作驾驶 [4] - SafeAuto利用多模态基础模型实现知识增强的安全自动驾驶 [4] - ReCogDrive提出强化认知框架用于端到端自动驾驶 [4] 端到端VLA - ADriver-I构建自动驾驶通用世界模型 [6] - EMMA是端到端多模态自动驾驶模型 [6] - CoVLA提供全面的视觉语言动作数据集用于自动驾驶 [6] - SimLingo实现仅视觉的闭环自动驾驶与语言动作对齐 [6] - DiffVLA采用视觉语言引导扩散规划用于自动驾驶 [6] - S4-Driver是具备时空视觉表示的可扩展自监督驾驶多模态大型语言模型 [6] - ORION是通过视觉语言指令动作生成的整体端到端自动驾驶框架 [6] - Impromptu VLA提供开放权重和开放数据用于驾驶视觉语言动作模型 [6][9] 推理增强VLA - FutureSightDrive通过时空思维链实现视觉思考的自动驾驶 [9] - AutoVLA是具备自适应推理和强化微调的端到端自动驾驶视觉语言动作模型 [9] - Drive-R1通过强化学习桥接自动驾驶视觉语言模型中的推理和规划 [9] 自动驾驶之心知识星球 - 社区汇总40+技术路线、60+数据集和行业主流仿真平台 [7][15] - 提供自动驾驶感知、仿真、规划控制等多领域学习路线 [15] - 成员来自国内外知名高校和头部自动驾驶公司 [15] - 建立与多家自动驾驶公司的岗位内推机制 [11] - 为入门者提供完备的技术栈和路线图 [12] - 为研究者提供有价值的产业体系和项目方案 [13]
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 18:37
核心观点 - X-SAM是由中山大学、鹏城实验室和美团团队提出的突破性框架,将分割范式从"分割任何事物"推向"任何分割",实现了多任务、多模态的统一分割能力 [3][4] - X-SAM在超过20个分割数据集、7大核心任务上全面超越现有模型,包括文本指令驱动的分割任务和跨图像场景的精准分割 [4] - X-SAM通过三大支柱创新(统一输入格式、双编码器架构、多阶段训练)解决了SAM的局限性,如任务单一性、模态割裂和多任务壁垒 [12][6] 技术架构 统一输入格式 - 设计统一输入规则,用`<p>`和`</p>`标记文本查询,`<region>`标签代表视觉提示(点、框、涂鸦等),使不同任务能被模型统一处理 [13][15] 双编码器架构 - 图像编码器(SigLIP2-so400m)提取全局特征,分割编码器(SAM-L)捕捉像素级细节,双投影器将视觉特征转换为与语言模型匹配的维度 [19] - 分割连接器通过补丁合并和扩展操作生成1/8、1/16、1/32三种尺度特征,支持不同大小物体的分割 [19][17] - 分割解码器基于Mask2Former架构,能一次性输出多个分割掩码,并通过LLM生成的`<SEG>`标签关联类别或描述 [20] 多阶段训练 - 分割器微调:在COCO全景分割数据集上训练分割编码器和解码器,使用分类损失、掩码损失和dice损失 [27] - 对齐预训练:在LLaVA-558K数据集上训练双投影器,使视觉特征与语言模型词嵌入空间对齐 [27] - 混合微调:混合多种任务数据集训练,采用数据集平衡重采样策略(参数t=0.1)解决数据集大小差异问题 [24][27] 性能表现 基准测试 - 在COCO全景分割中PQ达54.7,接近Mask2Former(57.8);在A150-OV数据集上AP达16.2,远超ODISE(14.4)和PSALM(9.0) [31] - Referring分割任务中,RefCOCO/+/g的cIoU分别达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和Sa2VA(81.6/76.2/78.7) [32] - 推理分割任务gIoU达56.6,超过LISA-7B(52.9);GCG分割mIoU达69.4,远超GLaMM(65.8) [32][33] 新任务VGD分割 - 在COCO-VGD数据集上,点/涂鸦/框/掩码提示的AP分别达47.9/48.7/49.5/49.7,远超PSALM(2.0-3.7) [26][35] - 支持跨图像VGD分割,用一张图的视觉提示在另一张图中分割同类对象 [26] 消融实验 - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2跃升至57.1 [37] - 双编码器组合使GCG分割mIoU达69.4,远超单编码器方案(Swin编码器为62.5) [38] - 多阶段训练中,跳过分割器微调会使COCO全景分割PQ降至45.2,完整训练提升至54.7 [39] - Mask2Former解码器比SAM原生解码器PQ提升9.2,加入多尺度特征后PQ再提升1.3 [41] 未来方向 - 计划与SAM2结合拓展至视频分割,将VGD分割延伸到视频领域实现"跨时空视觉定位" [43] - 需解决任务平衡难题(部分分割任务因对话数据干扰性能下降)和性能不均问题(某些细分任务略逊于专门优化模型) [46]
打算升级下技术社区,跟大家汇报一下......
自动驾驶之心· 2025-08-12 18:37
业务转型与发展 - 公司从纯线上教育转型为硬件教具、线下培训、求职招聘等全栈式服务平台 [1] - 重点开拓硬件业务、论文辅导和求职业务 [1] - 成立三周年,业务成熟度显著提升 [1] 知识星球平台建设 - 知识星球平台投入最多时间搭建和维护,覆盖产业、学术、求职、问答交流等多个领域闭环 [1] - 平台梳理近40+技术路线,涵盖VLA benchmark、综述和学习入门路线 [3] - 邀请数十位自动驾驶领域一线产业界和工业界嘉宾答疑解惑 [3] - 社区成员来自上海交大、北京大学、CMU、清华大学、蔚小理、地平线、华为等知名高校和企业 [13] - 汇总近40+开源项目、近60+自动驾驶相关数据集及行业主流仿真平台 [13] 技术内容体系 - 技术路线包括自动驾驶感知学习路线、仿真学习路线、规划控制学习路线、端到端学习路线等 [13] - 详细梳理端到端自动驾驶技术,包括一段式、二段式、量产方案及VLA相关算法 [32] - 覆盖3DGS与NeRF技术领域,包括算法原理、场景重建与仿真应用 [34] - 汇总自动驾驶世界模型技术前沿和业界应用 [36] - 整理视觉语言模型(VLM)最新综述、开源数据集及量产方案 [38] - 重点布局自动驾驶VLA领域,涵盖综述、开源数据集及量产讨论 [40] - 扩散模型应用包括数据生成、场景重建、端到端结合等 [43] - BEV感知技术梳理涵盖纯视觉、多模态、多任务及工程部署 [45] - 3D目标检测技术覆盖环视方法、range-view、voxel及多模态方向 [47] - 多传感器融合技术全面整合 [49] - 在线高精地图技术为无图NOA量产方案核心 [51] 直播与专家分享 - 组织超过100场专业技术直播,邀请行业大佬分享最新研究成果 [77] - 直播内容涵盖VLA、V2X、3D检测、扩散模型等前沿技术 [77] - 分享包括Impompta VLA、LingCoop、Diffusion planner等创新工作 [77] 社区互动与支持 - 提供星友面对面线上环节,计划九月份推出以解决实际工作问题 [1] - 成员可自由提问职业规划、研究方向等问题并获得解答 [78] - 社区交流话题包括传统规控转VLA、多模态大模型数据集、3DGS闭环仿真等 [15] 资源汇总与工具 - 汇总国内外自动驾驶高校团队和公司,覆盖RoboTaxi、重卡业务及造车新势力 [22][24] - 整理自动驾驶及CV相关书籍,包括数学基础、计算机视觉、深度学习等 [26] - 开源数据集梳理涵盖通用CV数据集、感知数据集及多模态大模型数据集 [30] - 提供标注工具、仿真框架、传感器标定工具等实用资源汇总 [5] - 实战落地内容包括模型压缩、部署优化及自动驾驶100问系列 [5] 会员福利 - 提供星球内部专属学习视频及文档 [19] - 第一时间掌握学术进展和工业落地应用 [19] - 对接企业工作岗位推荐和行业机会挖掘 [19]