Workflow
自动驾驶之心
icon
搜索文档
商汤绝影世界模型负责人离职。。。
自动驾驶之心· 2025-06-27 17:15
商汤绝影人事变动 - 商汤绝影世界模型研发负责人离职,该负责人曾负责云端技术体系建设和生成式智驾方案R-UniAD研发 [2] - 传闻该负责人离职后可能选择创业 [3] 中阶市场动态 - 商汤绝影已在广汽传祺量产交付基于J6M的中阶方案,但2025年中阶市场将迎来从高速NOA升级为全域NOA的迭代 [4] - 头部公司通过高阶方案蒸馏剪裁推出轻量版城区NOA,适配100 TOPS算力芯片,并已向主机厂推广演示 [4] - 算法方案每年迭代一次,未及时跟进的公司可能被市场淘汰 [4] 高阶市场战略 - 2025年高阶市场核心竞争点是一段式端到端方案,其性能表现惊艳,主机厂招标普遍倾向此类方案 [5] - 商汤绝影UniAD一段式端到端与东风汽车合作,目标2025年Q4量产交付 [5] - 商汤绝影过去两年高阶领域存在感较弱,需通过标杆项目证明能力以获取后续机会 [6] - 2025年是高阶项目大规模释放窗口期,自主与合资主机厂加速布局,后续机会将向10万价位车型下沉 [6] - 一段式端到端量产交付成果将决定商汤绝影能否在高阶市场站稳脚跟,并影响其融资前景 [7][8]
基于VLM的快慢双系统自动驾驶 - DriveVLM解析~
自动驾驶之心· 2025-06-27 17:15
自动驾驶大模型应用 - 核心观点:清华与理想汽车合作开发的DriveVLM系统通过大模型的few-shot能力解决自动驾驶长尾问题,推动L2向L4迭代 [2] - 创新点1:采用Chain-of-Thought(CoT)方法实现场景描述、分析与分层规划 [4] - 创新点2:DriveVLM-Dual快慢双系统集成传统模块,提升实时规划与空间推理能力 [4] - 创新点3:构建SUP-AD数据集聚焦自动驾驶五大维度,优化Corner Case处理 [4] 多模态大模型课程框架 - 第一章:涵盖多模态大模型基础概念、结构训练范式及公开数据集 [21] - 第二章:详解模态编码器、Input/Output Projector及LLM Backbone等核心模块 [23] - 第三章:聚焦图文/视频理解、轻量化模型等5类通用算法 [25] - 第四章:覆盖Adapter、LoRA等6种微调技术及强化学习应用 [28] - 第五章:重点解析DriveVLM等5种自动驾驶端到端大模型算法 [30] - 第六章:提供行业就业方向、面试准备等求职实战指导 [32] 技术实现与课程价值 - 数据构建:DriveVLM通过结构化LLM评估与pipeline流程优化数据集质量 [9][12] - 课程目标:培养通用大模型理论、自动驾驶前沿算法及工程部署能力 [41] - 适用人群:高校研究者、企业技术骨干及转行人员 [40] - 讲师背景:一线大厂算法专家,主导座舱与端到端大模型量产项目 [35]
如何看待目前VLA的具身智能技术?VLA还算是弱智人?
自动驾驶之心· 2025-06-27 17:15
VLA技术现状分析 - VLA本质上是升级版行为克隆(BC)技术 缺乏创新性突破 [1] - 当前VLA系统仅能处理极简化的pick-place任务 成功率计算存在严重水分 [3] - 行业存在将单一任务拆分为多个子任务来夸大通用性的现象 [4][5] 技术局限性 - 任务复杂度局限:仅能处理2D平面内1-2个物体的抓取放置 无法应对3D空间操作 [7][10] - 场景适应性差:要求纯色背景且物体数量≤2 与真实世界复杂环境严重脱节 [8][9] - 数据效率低下:需数百次演示数据训练单一简单任务 违背few-shot学习原则 [15] 行业实践问题 - 测试标准失真:通过精心设计的演示场景和拍摄角度人为提高成功率 [17] - 能力边界模糊:缺乏明确的能力评估体系 无法界定系统可处理任务范围 [16] - 技术路线争议:纯端到端训练方式难以实现真正的通用性和可解释性 [18][19] 核心批评观点 - VLA技术回避了机器人领域真正需要解决的复杂问题 [18] - 当前研究过度简化任务难度来获得表面上的高成功率 [3][6] - 行业存在将简单技术包装成突破性进展的泡沫现象 [18][20]
数据闭环的核心 - 静态元素自动标注方案分享(车道线及静态障碍物)
自动驾驶之心· 2025-06-26 21:33
4D自动标注技术发展 - 轻图算法量产已成为行业共识 公司通过标注数据训练云端模型 再反哺车端模型迭代 实现全场景静态元素标注[1] - 传统2D图像标注需逐帧标注 效率低下 3D场景重建技术可实现静态元素单次标注 显著提升效率[2][3] - 行业采用BEV视图转换技术 通过自车位姿滑动窗口截取局部地面重建图 优化云端自动标注模型训练流程[6] 技术难点与解决方案 - 4D自动标注面临时空一致性要求高 多模态数据融合复杂 动态场景泛化难度大等五大核心挑战[7] - 静态元素标注需结合SLAM重建输出 获取全局道路信息 避免单帧感知导致的道路偏差问题[14] - 通用障碍物OCC标注成为行业标配 需解决点云稠密化 噪声优化 跨传感器遮挡等工程难题[15] 技术应用与课程体系 - 端到端真值生成整合动态障碍物 静态元素 可行驶区域等模块 采用一段式和两段式实现方案[16] - 数据闭环专题涵盖scaling law验证 主流公司架构分析 跨系统问题解决等实战经验[18] - 课程体系覆盖动态障碍物检测跟踪 SLAM重建原理 OCC标注全流程等六大核心模块[8][11][12][15][16] 行业人才需求 - 课程目标群体包括高校研究人员 企业技术骨干 转行人员等 需具备深度学习和PyTorch基础[22][24] - 课程培养方向聚焦4D标注算法研发能力 实际问题解决能力 工作竞争力提升三大维度[23]
清华大学最新综述!当下智能驾驶中多传感器融合如何发展?
自动驾驶之心· 2025-06-26 20:56
具身AI与多传感器融合感知的重要性 - 具身AI是以物理实体为载体,通过实时感知实现自主决策和行动能力的智能形式,在自动驾驶、机器人群体智能等领域有广泛应用,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径 [2] - 传感器数据理解是连接物理世界与数字智能的核心环节,具身智能体需要融合视觉相机、毫米波雷达、激光雷达(LiDAR)、红外相机和IMU等多模态传感器数据以实现全景感知 [2] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,例如视觉相机易受光照变化干扰,而激光雷达在雨雾天气性能会大幅衰减 [2] 现有研究的局限性 - 当前基于AI的MSFP方法在具身AI中面临跨模态数据的异质性使得特征空间难以统一的挑战 [3] - 不同传感器之间的时空异步可能导致融合误差,传感器故障(如镜头污染、信号遮挡)可能导致多模态信息的动态丢失 [3][4] - 现有综述大多面向单一任务或研究领域,如3D目标检测或自动驾驶,缺乏对多智能体融合、时间序列融合等MSFP方法多样性的考虑 [4] 传感器数据 - 相机数据可捕捉物体的颜色、形状和纹理等丰富外观特征,但对光照条件敏感,在夜间和恶劣天气下图像质量显著下降 [7] - 激光雷达(LiDAR)数据直接输出包含空间几何信息的高精度3D点云,在3D感知中具有独特优势,但对天气敏感且点云数据稀疏不均匀 [7] - 毫米波雷达数据在恶劣天气下性能良好,可直接测量物体速度,但点云更稀疏难以准确描述物体轮廓 [10] 数据集 - KITTI包含14,999张图像及相应点云,数据采集车辆配备两台灰度相机、两台彩色相机、一个Velodyne 64线LiDAR等设备 [13] - nuScenes包括700个训练场景、150个验证场景和150个测试场景,总计5.5小时,包含140万张相机图像、39万次LiDAR扫描 [13] - Waymo Open包括感知和运动数据集,感知数据集中的注释包括126万个3D边界框、118万个2D边界框 [14] 感知任务 - 目标检测是通过传感器获取的数据准确定位和识别各种类型的物体,在3D目标检测场景中需包括目标的3D位置坐标、尺寸信息和航向角 [16] - 语义分割任务旨在将场景中的每个基本单元分类为语义类别,分割模型需要为每个基本单元分配相应的语义标签或类别概率分布 [16] - 深度估计旨在从传感器数据中获取场景的深度信息,为具身智能体提供3D几何理解,对路径规划和决策控制等下游任务至关重要 [16] 多模态融合方法 - 点级融合方法实现LiDAR点云与图像数据在单个点级别的特征融合,通过集成点云的几何坐标信息与图像的语义细节提高多模态感知精度 [21] - 体素级融合方法将不规则的LiDAR点云转换为规则网格,在保留几何信息的同时实现高效处理,相机图像被集成到基于体素的方法中以获得更好的感知能力 [23] - 区域级融合方法侧重于从2D图像和其他模态聚合特定区域的信息,在模态之间的空间对齐更容易实现的场景中特别有效 [28] 多智能体融合方法 - 协作感知技术可以集成来自多个智能体和基础设施的感知数据,对解决遮挡和传感器故障问题至关重要 [34] - CoBEVT是第一个通用的多智能体多相机感知框架,通过稀疏Transformer生成BEV分割预测以进行协作处理 [34] - V2VNet引入了一个基于图神经网络的框架,用于融合来自多辆车的中间特征表示 [35] 时间序列融合 - 密集查询方法为高分辨率3D空间或BEV空间中的每个查询点分配固定的光栅化空间位置,BEVFormer通过可变形注意力机制实现多个相机视图中的自适应特征交互 [44] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而在行业中越来越受欢迎,StreamPETR通过对象查询系统地在帧间传播长期信息 [47] - 混合查询方法结合密集和稀疏查询范式,以平衡计算效率和全面的场景理解,UniAD将感知、预测和规划集成在一个统一的框架中 [51] MM-LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,X-Driver利用具有思维链推理和自回归建模的多模态大型语言模型实现卓越的闭环自动驾驶性能 [57] - 视觉-LiDAR-语言方法将点云特征与文本特征对齐,DriveMLM采用时间QFormer处理多视图图像,有效捕捉不同视角之间的时间动态和空间关系 [59] - MAPLM将3D LiDAR点云数据投影到BEV图像,并通过视觉编码器提取特征,使强大的视觉模型的使用成为可能 [60]
等了十年,特斯拉Robotaxi终于上线!马斯克:仅需4.2美元一口价
自动驾驶之心· 2025-06-26 20:56
特斯拉Robotaxi服务启动 - 特斯拉在德克萨斯州奥斯汀正式启动自动驾驶出租车服务,兑现马斯克十年前的承诺[1] - 首批乘客支付固定价格4.2美元即可搭乘,并可选择支付小费[2][4] - 服务目前处于限定试运营阶段,仅限受邀用户使用,主要为知名社交媒体博主和科技内容创作者[7][8] 运营规模与范围 - 试运营投入10-20辆贴有Robotaxi标识的Model Y车辆[8] - 服务覆盖区域严格限制在特斯拉已绘制地图的地理围栏区域内,边界为科罗拉多河至Zilker公园范围[8] - 运营时间为每天6点至午夜12点,避开恶劣天气和复杂场景[8] - 计划未来几个月内将Robotaxi数量扩大至上千辆[25] 技术实现与安全保障 - 车内配有安全监控员,可紧急接管车辆[14] - 在某些情况下安排跟车车辆和远程驾驶员作为额外保障[15] - 默认不启用车内摄像头,仅在乘客请求或紧急情况下使用[15] - 自动驾驶部门实时监控多辆robotaxi的车载摄像头画面[23] 用户体验反馈 - 大部分行程表现平稳,能应对日常城市驾驶情境,车速控制在40英里/小时以下[18] - 车内乘客显示屏功能类似网约车应用,配有开始行程按钮和音乐App集成[19] - 部分情况下需要远程操作员介入,平均响应时间约两分钟[20] - 初期存在App推送缓慢、上车点定位不清晰等问题[22] 行业竞争格局 - Waymo已在多个城市运营超过1500辆无人车,计划2026年前扩大至2000辆[25] - 特斯拉计划将服务扩展至加州等高监管门槛地区[25] - 自动驾驶行业竞争加剧,特斯拉需验证后发先至能力[26]
自动驾驶之『多模态大模型』交流群成立了!
自动驾驶之心· 2025-06-26 20:56
自动驾驶技术平台 - 自动驾驶之心是国内领先的自动驾驶技术交流平台 [1] - 平台关注自动驾驶前沿技术、行业动态及职场成长 [1] - 平台覆盖具身智能、视觉大语言模型、世界模型等前沿技术方向 [1] - 涉及端到端自动驾驶、扩散模型、车道线检测等核心技术 [1] - 包含2D/3D目标跟踪、检测、BEV感知等多模态感知技术 [1] - 涵盖多传感器融合、transformer、大模型等AI技术 [1] - 涉及点云处理、在线地图、SLAM等空间感知技术 [1] - 包含光流估计、深度估计、轨迹预测等环境理解技术 [1] - 覆盖高精地图、NeRF、Gaussian Splatting等建模技术 [1] - 涉及规划控制、模型部署落地等应用技术 [1] - 包含自动驾驶仿真测试、产品经理、硬件配置等产业环节 [1] - 提供AI求职交流等职业发展支持 [1]
最近,一些自驾公司疯狂往一线『输送』人才。。。
自动驾驶之心· 2025-06-26 20:56
自动驾驶行业现状 - 多家自动驾驶公司面临营收压力,开始裁员或将研发人员转岗至销售一线[2][3] - 部分公司对入职不足1年的校招生也采取了裁员措施[2] - 行业普遍存在"输出一线"策略,即将研发人员转岗销售,这被视为变相裁员手段[3] - 下半年新车集中发布,若销量不及预期可能引发新一轮裁员潮[4] 行业人才发展建议 - 被裁人员应专注技术积累期,避免急于求职造成心理压力[6] - 建议利用空窗期学习新技术栈,关注市场需求旺盛的岗位方向[6] - 转岗销售一线的技术人员建议骑驴找马,利用在职时间准备跳槽[7] - 行业提供内推渠道帮助技术人员对接合适岗位[7] 自动驾驶技术前沿 - 视觉大语言模型领域涌现多篇CVPR 2024论文,涵盖预训练、迁移学习等方向[15][16] - 世界模型在自动驾驶中的应用成为研究热点,2024-2025年有多篇相关论文发表[33][34] - 扩散模型在自动驾驶视频生成、3D视觉等领域应用广泛,已有20+篇综述论文[36][38] - 端到端自动驾驶成为主流研究方向,两大GitHub仓库汇总了最新研究成果[43][46] 自动驾驶数据集 - 视觉语言预训练数据集规模从1M到12B不等,涵盖多语言场景[19] - 自动驾驶专用数据集包括KITTI、Cityscapes、nuScenes等,涵盖2D/3D目标检测等任务[25] - 语言增强的自动驾驶数据集聚焦视觉-语言导航、车辆检索等新兴方向[26] - 评估数据集覆盖图像分类、目标检测、语义分割等多项任务[20][23][24] 技术应用领域 - 智能交通领域主要研究语言引导的车辆检索和视觉问答系统[27] - 自动驾驶感知方向聚焦行人检测、3D目标检测等任务[28] - 定位规划领域探索语言引导导航和轨迹预测技术[29] - 决策控制方向研究大语言模型在自动驾驶决策中的应用[30] - 端到端自动驾驶整合感知、预测、规划全流程[31]
硕士毕业论文写不出来了怎么办?
自动驾驶之心· 2025-06-26 20:56
文章核心观点 - 公司针对自动驾驶、具身智能、机器人领域的学术论文发表难题,提供专业辅导服务,帮助学生高效完成高质量论文并提升录用概率 [2][3][4] - 公司拥有顶尖学术资源和导师团队,覆盖论文全流程辅导,中稿率高达96% [3][8][9] 公司背景与资源 - 国内最大的AI类技术自媒体平台,旗下拥有自动驾驶之心/具身智能之心/3D视觉之心等IP [3] - 300+专职导师来自全球QS前100高校,发表过多篇顶会/子刊/A会/B会论文 [3] - 近3年辅导学员超400名,中稿率96% [3] 服务内容与方向 - 覆盖本科生课程论文至博士生顶会投稿的全阶段需求 [4] - 辅导方向包括自动驾驶(端到端、BEV感知等)、具身智能(VLA、强化学习等)、机器人(SLAM、决策规划等) [5] - 提供选题开题、实验设计、写作修改、投稿策略等全流程服务 [12] 服务优势 - 领域聚焦自动驾驶/具身智能/机器人,深度理解技术细节与评审标准 [5] - 1对1精准匹配导师,定制化研究策略 [7][9] - 导师团队拥有顶会发表经验,熟悉审稿流程 [8] 解决的核心问题 - 选题创新性不足、文献梳理低效、实验失败率高、写作逻辑混乱、投稿被拒等 [13][15] - 提供清晰科研路径、突破性思路、高效解决方案及顶级写作支持 [15]
刚刚,何恺明官宣新动向~
自动驾驶之心· 2025-06-26 18:41
何恺明职业动态 - AI领域顶尖学者何恺明正式入职谷歌DeepMind担任杰出科学家,同时保留MIT终身副教授身份[1][3][4] - 此次跨界标志着何恺明实现"学界+业界"双轨并行发展模式[5][12] - DeepMind联合创始人Demis Hassabis曾预测AGI将在5-10年内实现,何恺明的加入将加速该目标[7][8] 学术成就与技术贡献 - 提出深度残差网络(ResNet)成为现代AI模型基石,相关论文在2016-2021年连续三年位居谷歌学术全领域被引榜首[18][19] - 开发的Faster R-CNN和Mask R-CNN是物体检测领域被引量最高的论文之一,分别被引用91993次和45582次[19][21][24] - 论文总被引量达713370次,h-index指数71,近五年被引量597873次[18][19] 近期研究成果 - 2024年与Yann LeCun合作提出无归一化层Transformer,仅用9行代码实现,成果被CVPR 2025收录[33][34] - 2024年2月提出分形生成模型,将像素级图像生成计算效率提升4000倍[36][37] - 2024年5月联合CMU团队开发MeanFlow框架,实现无需预训练的一步生成建模[38][39] 职业经历与教育背景 - 曾任职微软亚洲研究院(2011-2016)和Meta FAIR实验室(2016-2023)[12][32] - 2007年获清华大学学士学位,2011年获香港中文大学博士学位[29][30] - 2009年成为首位获得CVPR最佳论文奖的中国学者,累计获得4次国际顶会最佳论文奖[24][27]