自动驾驶之心

搜索文档
2000人了,这个具身领域的黄埔军校有哪些料?
自动驾驶之心· 2025-08-09 16:21
具身智能社区核心价值 - 国内首个具身全栈技术社区 提供学术 工程 求职等多领域闭环服务 解决机器人调试 数据采集 VLA模型部署等实际问题 [3][17] - 社区成员来自斯坦福 清华等顶尖高校及智元机器人 优必选等头部企业 覆盖40+开源项目 60+数据集及30+技术路线 [17] - 建立企业内推机制 直接对接具身智能公司招聘需求 包括智元机器人 傅里叶机器人等知名企业 [11][22] 技术资源体系 - 汇总30+技术路线 涵盖VA/VLA模型 Diffusion Policy 机械臂抓取等前沿方向 提供benchmark和入门学习路径 [5][17] - 整理60+具身智能数据集 包含触觉感知 导航 大模型等多领域 解决数据采集难题 [17][37] - 收录主流仿真平台如Isaac Sim 覆盖机器人导航 抓取等场景 支持sim2real技术验证 [39][68] 行业研究支持 - 整合40+份行业研报 跟踪人形机器人 大模型等领域发展动态与商业化进展 [24] - 分析30家具身智能公司业务 涉及教育 医疗 工业等应用场景 包括零部件供应商与整机厂商 [22][29] - 汇总强化学习/VLA+RL等主流方案 展示LLM在机器人领域的应用训练方法 [41][43] 职业发展服务 - 提供自动驾驶转具身智能路径建议 技术栈相通 视觉语言导航等方向可平滑过渡 [82][84] - 制定差异化薪资策略 初创公司总包达70-80万 但稳定性低于头部企业 [84] - 设计SLAM工程师转型方案 推荐结合大模型 端到端技术切入具身感知领域 [83][85] 学习体系架构 - 划分20+学习路线 包括多模态大模型 机械臂策略 四足机器人等细分方向 [17][73] - 组织圆桌论坛与直播 邀请产业界嘉宾分享本体设计 算法优化等实战经验 [5][78] - 提供机器人导航 概率机器人等专业书籍PDF 夯实理论基础 [27]
给自动驾驶感知工程师的规划速成课
自动驾驶之心· 2025-08-09 00:04
自动驾驶规划技术演进 - 模块化系统中机器学习主要影响感知部分,下游规划组件变革较慢[3] - 传统系统易于解释和快速调整,但机器学习可扩展性更强[4] - 学术界和工业界推动下游模块数据驱动化,通过可微接口实现联合训练[4] - 生成式AI和多模态大模型在处理复杂机器人任务方面展现潜力[4] 规划系统核心概念 - 规划系统需生成安全、舒适、高效的行驶轨迹[11] - 输入包括静态道路结构、动态参与者、占用空间等感知数据[11] - 输出为路径点序列,典型为8秒视野内每0.4秒一个点共20个点[11] - 分为全局路径规划、行为规划和轨迹规划三个层级[12] 规划技术方法 - 搜索、采样和优化是规划三大核心工具[24] - 混合A*算法通过考虑车辆运动学改进A*算法[28] - 采样方法通过参数空间采样解决优化问题[37] - 优化分为凸优化和非凸优化,后者依赖初始解[41] 工业实践 - 路径-速度解耦方法解决约95%问题,耦合方案性能更高但实现复杂[52] - 百度Apollo EM规划器采用迭代期望最大化步骤降低计算复杂度[56] - 时空联合规划处理剩余5%复杂动态交互场景[59] - 特斯拉采用数据驱动与物理检查结合的混合系统[117] 决策系统 - 决策本质是注重交互的行为规划,处理不确定性和交互问题[68] - MDP和POMDP框架将重点从几何转向概率[69] - MPDM通过有限离散语义级策略集合简化POMDP问题[102] - 应急规划生成多条潜在轨迹应对不同未来情景[112] 神经网络应用 - 神经网络可增强规划器实时性能,实现数量级加速[130] - 端到端神经网络规划器将预测、决策和规划结合成单一网络[133] - 世界模型最终形式可能是由MCTS增强的原生多模态大模型[138] - 神经网络从树结构中提取知识,形成正反馈循环[142] 发展趋势 - 规划架构趋向"端到端",更多模块被整合到单一系统[151] - 机器学习组件在规划中应用比例持续增加[151] - 算法从理论完美向工程实用演进,如Value Iteration到MCTS[153] - 确定性场景规划成熟,随机性场景决策仍是挑战[153]
自动驾驶中常提的VLM是个啥?与VLA有什么区别?
自动驾驶之心· 2025-08-09 00:04
自动驾驶视觉语言模型(VLM)技术解析 核心观点 - VLM是融合视觉与语言处理能力的多模态AI系统,通过联合处理图像特征与文本信息实现场景深度理解与自然语言交互[6] - 在自动驾驶领域,VLM可识别交通标志文字、生成安全提示、支持语义问答,显著提升车辆环境感知与交互能力[12] - 与VLA相比,VLM侧重"视觉理解+语言表达",而VLA扩展至"感知-决策-执行"闭环,两者在架构与任务目标上存在本质差异[18] 技术实现路径 模型架构 - 采用视觉编码器(CNN/ViT)提取道路纹理、车辆轮廓等特征,语言模块(Transformer)处理语义关联,通过跨模态注意力机制实现图文对齐[8][9] - 训练分两阶段:预训练阶段使用互联网图文数据建立通用能力,微调阶段采用自动驾驶专属数据集(覆盖不同道路/天气/交通场景)[11] 应用功能 - 实时场景提示:识别施工标志/水坑等危险区域,生成"减速绕行"等自然语言提示并通过车载系统播报[12] - 交互式语义问答:结合图像与地图数据回答"最优车道选择""转向限制"等乘客语音询问[12] - 路牌文字识别:结构化输出"限高3.5米""禁止掉头"等交通标志信息至决策模块[12] 部署优化 - 采用边缘-云协同架构:云端完成模型训练/微调,车载单元部署轻量化推理模型(经剪枝/量化优化)实现毫秒级响应[14] - 数据标注需覆盖多光照/天气条件,标注内容包含物体框选与自然语言描述(如"左侧车道封闭需减速至60km/h")[14] 技术演进方向 - 融合雷达/LiDAR/V2X等多源数据提升环境感知全面性,整合实时交通法规/气象信息更新决策背景知识[16] - 通过模型集成/贝叶斯深度学习评估不确定性,低置信度时切换至传统传感器融合方案保障安全性[15] - 结合大语言模型(LLM)与大视觉模型(LVM)发展,推动多模态融合感知与交互能力升级[16]
从自动驾驶到具身智能,这几个社区撑起了半边天!
自动驾驶之心· 2025-08-09 00:04
行业动态 - 各家具身与自驾公司开始规模化量产相关产品,融资和招聘情况大幅增长 [1] - 可落地的技术成为行业争先占领的重点,具备相关能力的人才成为争夺目标 [1] - 行业对从业者能力要求较高,岗位竞争激烈 [1] 技术社区资源 - 智驾最前沿:自动驾驶领域专业的技术、资讯全媒体平台,提供超多份自动驾驶领域专业资料 [1][3] - 计算机视觉研究院:涉及AI研究和落地实践,致力于目标检测、目标跟踪、图像分割等方向,每日分享最新论文算法新框架 [3] - 视觉语言导航:专注于视觉语言导航、目标导航、无人机导航等前沿领域的成果分享 [5] - 具身智能研究室:聚焦强化学习、多智能体协同、运动控制等具身智能核心领域,汇聚2000+开发者形成活跃社区 [6][7] - 具身智能之心:国内首个具身智能全栈技术交流社区,聚焦数据采集、多模态大模型、VLA等方向 [7] - arXiv每日学术速递:每日全量更新arXiv学术论文速递,覆盖人工智能、计算机、金融等多个方向 [8] - 自动驾驶专栏:聚焦自动驾驶最新资讯,分享行业内相关技术研究 [8] - 北京市高级别自动驾驶示范区:全国首个高级别自动驾驶示范区,提供政策创新、技术突破与商业化落地的前沿信息 [9] - 自动驾驶之心:国内最大的自动驾驶开发者社区,关注VLA/VLM、端到端、BEV感知等方向,吸引了近300+自动驾驶与AI类公司/机构关注 [10]
基于开源Qwen2.5-VL实现自动驾驶VLM微调
自动驾驶之心· 2025-08-09 00:04
自动驾驶技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架,集成业界广泛使用的微调技术,GitHub星标超过4万,成为开源社区最受欢迎的微调框架之一 [3] - 项目基于Qwen2.5-VL-7B-Instruct模型,通过自然语言对话触发自动驾驶辅助功能,并以特定格式返回结果 [3] - Qwen2.5-VL是视觉-语言系列旗舰模型,支持视觉识别、物体定位、文档解析和长视频理解,旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 [4] 数据集与训练 - 使用CoVLA数据集,包含10,000个真实驾驶场景和超过80小时视频,通过自动数据处理生成精确驾驶轨迹和自然语言描述 [5] - 实际训练仅使用400张图片和对应QA问答对,数据量较小 [7] - 微调过程通过Web UI配置参数,训练日志显示loss进度,微调后模型保存在指定路径 [15] 技术应用与效果 - 微调后的模型在回答自动驾驶相关问题时,比原生Qwen2.5-VL-7B-Instruct模型更具参考价值,原始模型存在答非所问的情况 [19] - 测试显示模型能识别天气、道路类型等场景信息,并给出置信度(如多雨天气置信度0.978,宽阔道路置信度0.659) [10] - 模型可评估自动驾驶风险,如识别交通信号灯、其他车辆(置信度0.656)和行人(概率43.064%) [10] 社区与资源 - 自动驾驶之心知识星球拥有近4000人社区,300+自动驾驶公司与科研机构参与,覆盖30+技术栈 [22] - 提供端到端自动驾驶、大模型、BEV感知、轨迹预测等多方向专业课程 [23]
准备扩大自驾团队了,欢迎加入我们~
自动驾驶之心· 2025-08-08 11:20
公司介绍 - 公司致力于通过技术内容连接学术界和工业界,成为企业和学校沟通的桥梁,覆盖数十万AI开发者和创业者 [3] - 公司聚焦自动驾驶、具身智能、大模型等AI前沿技术领域,涵盖学术论文解读、量产方案分析、大模型评测、商业动态、行业招聘、开源项目等 [3] - 公司已与业内主流公司及高校建立深度合作,大模型方向正在快速搭建 [3] - 公司通过公众号、社群、视频号、知乎、小红书、B站等平台进行内容分享、粉丝交流及企业联系 [3] 岗位信息 - 招聘内容运营实习生,工作内容包括学术论文选题解读、知识星球搭建、原创视频制作、稿件撰写策划等 [5][6] - 岗位要求自驾、大模型、具身相关研究方向,本科及以上学历,硕士优先 [6] - 加分项包括技术背景、独立解读学术论文、运行部署开源项目、撰写代码demo等 [6] - 工作地点在杭州市余杭区,支持线下办公和线上远程 [10] - 工作时间要求每周四天及以上,实习三个月以上者优先 [7] - 待遇包括实习工资、合伙人1v1新人培养、行业资源推荐、岗位内推等 [8]
死磕技术的自动驾驶黄埔军校,4000人了!
自动驾驶之心· 2025-08-08 11:20
社区发展现状 - 自动驾驶之心知识星球成员已突破4000人 形成产业、学术、求职、问答交流的闭环生态 [1] - 社区持续优化内容 计划每月开展星友线上交流活动 并邀请学术界和工业界专家进行深度访谈 [1] - 社区定位为自动驾驶全栈技术交流平台 成员来自国内外顶尖高校和头部企业 包括上海交大、清华、ETH等高校及蔚小理、华为、大疆等企业 [14][15] 技术资源体系 - 梳理40+技术路线 涵盖算法进阶、规划控制、自动驾驶仿真等方向 [4] - 汇总60+自动驾驶数据集 包括通用CV数据集、感知数据集及多模态大模型专用数据集 [31] - 整理近40个开源项目 覆盖3D目标检测、BEV感知、世界模型等前沿领域 [29] - 提供完备学习路线图 包括感知学习、仿真学习、规划控制等七大技术方向 [15] 行业应用研究 - 深度研究端到端自动驾驶技术 涵盖一段式/二段式方案、量产方案及VLA算法 [33] - 聚焦3DGS与NeRF技术 探索其在场景重建和闭环仿真的应用 [35] - 系统梳理自动驾驶世界模型 覆盖技术前沿和产业落地应用 [37] - 跟踪视觉语言模型(VLM)发展 包括DriveVLM等量产方案 [39] 人才服务机制 - 建立企业内推渠道 与多家自动驾驶公司合作提供岗位推荐 [6] - 组织超过100场专业直播 邀请清华大学、上海交大等机构专家分享前沿技术 [78] - 提供职业规划咨询 覆盖华为车BU、Momenta等企业offer选择指导 [82]
手持激光雷达即可在线实时重建点云!超高性价比3D扫描仪来了~
自动驾驶之心· 2025-08-08 07:32
产品概述 - GeoScan S1是当前国内性价比最高的手持三维激光扫描仪,具备轻量化设计和一键启动功能,适用于校园、室内等场景重建需求[1] - 设备采用多模态传感器融合算法,实现厘米级精度(相对精度优于3cm,绝对精度优于5cm)的三维场景实时重构[1][20] - 支持每秒20万点云生成、70米测量距离、360°水平视角覆盖,适用于20万平米以上的大场景扫描[1][27][28] 核心技术 - 搭载微秒级同步模块,通过硬件IO同步触发实现多传感器(激光雷达/相机/RTK/IMU)数据融合,同步精度达微秒级[32][33] - 采用25°倾斜角设计的激光雷达安装方案,兼顾多方位采集效率,避免重复扫描[13] - 内置Intel N5095处理器(4核2.9GHz)、16GB内存/256GB存储,支持ROS系统和Ubuntu 20.04环境[20] 硬件配置 - 集成Livox Mid-360激光雷达、Intel D435i深度相机、T-RTK UM982 Mobile定位模块及9DOF IMU[11][21] - 配备5.5寸触控屏(1280x720)、双USB 3.0接口、千兆网口,支持WiFi/蓝牙双频连接[20][21] - 机身尺寸14.2×9.5×45cm,含电池重量1.9kg,采用航空铝外壳,续航3-4小时(88.8Wh电池)[20][24] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂室内外环境的三维建模[36][45] - 支持跨平台集成无人机/无人车/机械狗等设备,实现无人化作业[42] - 选配3D高斯模块可进行高保真实景还原,支持离线/在线渲染[6][49] 产品版本与定价 - 基础版售价19800元,深度相机版23800元,3DGS在线版39800元[56] - 提供1年售后服务,购买可通过优惠码DSAA-5T9R-K2M8获取折扣[58] 性能参数 - 点云输出支持PCD/LAS/PLV等通用格式,彩色点云融合功能[20] - 工业摄像头采用180°鱼眼镜头,分辨率1280×1024@201fps,全局曝光[21] - 扫描建图实时解算,支持动态场景下的三维点云地图构建[20][25]
DriveBench:VLM在自动驾驶中真的可靠吗?(ICCV'25)
自动驾驶之心· 2025-08-08 07:32
研究背景与动机 - 视觉语言模型(VLM)在自动驾驶领域的应用兴趣激增,但缺乏对其可靠性和可解释性的系统验证 [3] - 当前VLM能否为驾驶决策提供基于视觉的可靠解释仍属未经验证的假设 [3] DriveBench基准数据集 - 推出DriveBench基准数据集,旨在评估VLM在17种设置下的可靠性 [3] - 数据集包含19,200帧图像、20,498个问答对和三种问题类型 [3] - 覆盖四大核心驾驶任务:感知、预测、规划和行为 [3][7] - 引入15种OoD(Out-of-Distribution)类型以系统性测试VLM在复杂场景中的可靠性 [3][7] - 评估涵盖12个主流VLM模型 [3] 研究内容与结构 - 研究从可靠性、数据和指标三个角度对VLM在自动驾驶中的适用性进行实证分析 [5] - 分享内容包含VLM概述、可靠性基准评估、分析方法和未来应用前景 [9] 技术交流活动 - 加州大学尔湾分校博士生谢少远将于8月8日11:00-12:00通过直播分享DriveBench研究成果 [7][9] - 完整技术细节及深度解析内容已发布于自动驾驶之心知识星球平台 [11]
快慢双系统评测!Bench2ADVLM:专为自动驾驶VLM设计(南洋理工)
自动驾驶之心· 2025-08-08 07:32
视觉-语言模型在自动驾驶中的应用 - 视觉-语言模型(VLMs)成为自动驾驶领域的新范式,因其强大的泛化能力和可解释性受到关注 [3][4] - 当前基于VLM的自动驾驶系统(ADVLMs)评估主要局限于开环设置,无法反映真实交互行为 [3][4] - BENCH2ADVLM首次提出闭环评估框架,通过双系统架构实现仿真与物理平台的实时交互测试 [3][6] BENCH2ADVLM框架设计 - 采用双系统适应架构:快系统(目标ADVLMs)生成高级驾驶命令,慢系统(通用VLMs)转换为可执行控制动作 [14][16][17] - 物理控制抽象层将中级动作映射到真实车辆执行信号,支持Jetbot和LIMO平台的硬件在环测试 [19][20] - 自反性场景生成模块基于220条标准路线自动创建威胁场景,针对性暴露模型缺陷 [14][22][24] 实验验证与性能分析 - 测试四种主流ADVLMs:OmniDrive表现最优(成功率12.99%,驾驶分数43.75),其余模型闭环性能有限 [25][26] - LLaMA-3-8B与LLaVA-1.5-13B解析模型各具优势:LLaMA侧重成功率(10.45 vs 5.00),LLaVA提升驾驶分数(42.06 vs 38.79) [26][28] - 真实世界测试中,OmniDrive路线完成率达82%(Jetbot)和86%(LIMO),但整体性能较仿真下降26.1% [31][32][34] 技术改进方向 - 细粒度控制改进使DriveLM成功率从9.09%提升至12.52%,验证控制信号优化的必要性 [35] - 混合模式切换策略结合LLaMA与LLaVA优势,同步提升成功率(9.23)和效率(131.29) [36] - 当前局限包括真实场景复杂度不足(仅测试小型车辆)和缺乏多智能体交互评估 [38] 行业技术发展趋势 - 行业正从模块化流水线转向端到端系统,并进一步探索视觉-语言模型的集成 [4] - 闭环评估成为新需求,需解决语义决策与物理执行的接口问题 [5][6] - 轻量化设计(如EM-VLM4AD)与鲁棒性(如OmniDrive)是ADVLMs两大发展方向 [26][32]