自动驾驶之心
搜索文档
自驾方向适合去工作、读博还是转行?
自动驾驶之心· 2025-09-22 18:30
自动驾驶行业职业发展考量 - 个人需评估自身在自动驾驶领域的积累,包括算力、算法、硬件或机器人相关基础,高校实验室若缺乏实战经验可能导致与工业界需求脱节[2] - 读博需具备开拓者思维,能够独立探索前沿课题(如端到端VLA),并选择专业实验室,避免导师半路出家影响研究进度[2] - 职业选择应基于现有基础强弱,若基础薄弱需通过系统化学习避免踩坑,例如加入专业社区获取指导[3] 自动驾驶之心知识星球社区资源 - 社区集视频、图文、学习路线、问答、求职交流为一体,当前成员超4000人,目标2年内规模近万人[3] - 提供近40+技术路线梳理,涵盖VLA benchmark、综述、入门路线等,缩短检索时间[5] - 邀请数十位一线产业界和学术界嘉宾答疑,覆盖端到端自动驾驶、多模态大模型等热点话题[5] 社区技术内容体系 - 技术方向覆盖感知、规划控制、仿真等40+领域,包括BEV感知、扩散模型、世界模型等关键技术[7][14] - 学习路线包含自动驾驶感知、仿真、规划控制等模块,如端到端学习路线、3DGS算法原理等[14] - 汇总开源项目、数据集(近60+)、仿真平台,助力快速上手项目实践[14][31][33] 社区教育与实践支持 - 提供原创直播课程,涵盖感知融合、多传感器标定、SLAM、端到端自动驾驶等9大系列视频教程[8] - 与多家自动驾驶公司建立内推机制,直接对接岗位如端到端算法工程师、云端大模型工程师等[9] - 社区成员来自上海交大、CMU、蔚小理、华为等300家机构,促进学术与工业界交流[13][98] 行业前沿技术聚焦 - 重点布局端到端自动驾驶,梳理一段式/二段式量产方案、VLA算法及数据集[35][43] - 深入探讨3DGS与NeRF在自动驾驶仿真、场景重建中的应用,邀请学者分享最新工作[37][87] - 覆盖视觉语言模型(VLM)、世界模型、扩散模型等热点,整合量产方案与学术研究[41][47][49]
自动驾驶VLA发展到哪个阶段了?现在还适合搞研究吗?
自动驾驶之心· 2025-09-22 16:04
智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变 端到端方法虽能打通上下游视角 但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点 其本质是一种更直白干净的端到端架构 取消了复杂的3D感知任务 借鉴视觉语言模型的通用泛化能力 提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛 多种算法如雨后春笋般涌现 包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难 论文数量繁多且知识碎片化 缺乏高质量文档和系统实战指导 从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念 通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力 帮助学员梳理研究发展脉络 掌握核心框架 学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习 配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史 详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉 语言 动作三大模块的基础知识 并扩展大模型部署使用内容 以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法 包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等 重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型 涵盖BEV感知 动静态检测 占用网络 轨迹预测 序列建模 模态对齐 动作解码器 RAG 思维链 监督微调 强化学习 混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域 讲解思维链 记忆体 工具调用等推理模块 分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践 基于ms-swift框架开展自定义数据集训练和模型微调 提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例 包含预训练 模仿学习训练和强化学习训练三阶段 涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例 基于开源Qwen2.5 VL进行数据集制作 训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校 在ICCV IROS EMNLP等顶级会议发表多篇论文 具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果 包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课 预计两个半月完成 采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型 强化学习 BEV感知等技术背景 熟悉Python和PyTorch开发语言 [31]
NeurIPS'25 Spotlight!自驾新范式FSDrive: VLA + 世界模型双管齐下(阿里&西交)
自动驾驶之心· 2025-09-22 07:32
核心观点 - 提出一种名为时空思维链(spatio-temporal CoT)的新型推理方法,旨在解决现有视觉语言模型在自动驾驶中因使用离散文本思维链而导致的信息丢失问题 [1] - 该方法使视觉语言模型能够以可视化方式思考,通过生成统一图像帧来预测未来世界状态,从而增强轨迹规划能力 [1][5] - 提出统一的视觉生成与理解预训练范式,并设计渐进式生成策略,仅需极少量数据(约为现有方法的0.3%)即可激活模型的视觉生成潜力 [6][12] 技术方法 - 时空思维链推理:视觉语言模型作为世界模型生成统一图像帧,其中用红色车道分隔线和3D检测框表征未来空间关系,用普通未来帧表征时间演化动态关系 [5][16] - 统一视觉生成与理解预训练:基于现有MLLM架构,通过将VQ-VAE的图像码本加入大模型词汇表来扩展词汇空间,使其具备预测图像token的能力 [10][12] - 渐进式图像生成:采用由易到难的生成策略,先推理车道线token和3D检测框token以施加物理约束,再生成完整的未来帧补充细粒度细节 [6][15] 实验结果 - 在nuScenes数据集上的端到端轨迹规划实验中,FSDrive方法在多个指标上表现优异,例如在使用自车状态时,其L2距离在3秒预测 horizon 上达到0.46米,碰撞率为0.21% [19] - 在未来帧生成任务中,FSDrive取得了10.1的FID分数,优于对比方法如DriveDreamer(52.6 FID)和GenAD(15.4 FID) [20] - 在DriveLM GVQA基准测试中,FSDrive的最终得分达到0.57,准确率为72%,优于OminiDrive(0.56分,70%准确率)和Cube-LLM(0.50分,39%准确率) [22]
4D标注与数据闭环,对一家自动驾驶公司究竟有多么重要?
自动驾驶之心· 2025-09-22 07:32
自动驾驶数据闭环与4D自动标注行业趋势 - 自动驾驶技术的发展对高质量数据的需求日益增长,理想汽车AD Max V13的1000万Clips模型全量推送体现了数据闭环和自动化4D标注数据产出的核心作用[2] - 端到端自动驾驶和视觉-语言-动作模型的普及使得训练数据形式日趋复杂,动静态障碍物、OCC的独立标注已无法满足需求,需要时间同步后的传感器统一标注动静态元素、OCC和轨迹[2] - 自动化4D自动标注的重要性日益凸显,其核心在于高性能的自动标注算法,需解决不同城市、道路、天气和交通状况下的传感器标定同步、跨传感器遮挡、算法泛化性、高质量结果筛选和自动化质检等痛点[4] 4D自动标注技术难点 - 时空一致性要求极高,需在连续帧中精准追踪动态目标的运动轨迹,复杂场景下的遮挡、形变或交互行为易导致标注断裂[5] - 多模态数据融合复杂,需同步融合激光雷达、相机、雷达等多源传感器的时空数据,解决坐标对齐、语义统一和时延补偿问题[5] - 动态场景泛化难度大,交通参与者的行为不确定性及环境干扰显著增加标注模型的适应性挑战[5] - 标注效率与成本矛盾,高精度4D自动标注依赖人工校验,但海量数据导致标注周期长、成本高,自动化算法在复杂场景下精度仍不足[5] - 量产场景泛化要求高,不同城市、道路、天气、交通状况的数据挖掘和标注算法性能保证是当前业内量产的痛点[5] 4D自动标注课程核心内容 - 课程全面覆盖4D自动标注全流程及核心算法,包括动态障碍物检测跟踪、激光视觉SLAM重建、基于重建图的静态元素标注、通用障碍物OCC标注和端到端标注主流范式[6] - 动态障碍物标注部分详细讲解离线3D目标检测算法、数据增广、BEV/多帧时序融合方案,并实战CVPR 2024的SAFDNet算法,解决误漏检问题及3D多目标跟踪算法[9] - 激光视觉SLAM重建章节解答重建在4D自动标注中的用途,介绍重建算法基本模块和评价指标,讲解Graph-based常用激光SLAM算法[10] - 端到端真值生成章节解析业内广泛应用的一段式和两段式实现方式,将动态障碍物、静态元素、可行驶区域、自车轨迹全部打通,并扩展讲解闭环仿真DrivingGaussian算法[15] - 数据闭环专题分享行业主流公司数据驱动架构、当前面临痛点、跨传感器/跨感知系统问题以及相关岗位面试准备经验[17] 课程实施与受众 - 课程采用线上直播、代码讲解、线上答疑模式,配套资料和源码示例,购买后1年有效并可反复观看,预计3个月完成[21] - 课程面向高校研究人员与学生、初创企业技术团队、企业技术专家骨干以及希望转行从事数据闭环的人员,要求具备深度学习和自动驾驶感知算法基础、了解Transformer模型结构、掌握Python和PyTorch基础并自备不低于12G显存的GPU[23]
头部具身智能人形机器人公司最新估值/市值
自动驾驶之心· 2025-09-22 07:32
编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 头部具身智能人形机器人公司最新估值或市值一览。除了已上市公司外,这里展示的都是已完成或 正在交割的真实估值,未经实际交割、未获交易确认的估值均未列入,单位为人民币。注意,各公 司成立时间和融资阶段差异大。估值高低与技术、商业化水平不能简单划等号。 以下数字仅做参考,如有不足或者遗漏,欢迎后台留言。 Figure AI 2736亿 乐聚机器人 80亿 优必选 555亿 Sklid AI 324亿 Physical Intelligence 170亿 宇树科技 160亿 智元机器人 150亿 Apptronik 144亿 Field AI 144亿 Agility Robotics 126亿 云深处机器人 80亿 傅利叶机器人 80亿 World labs 70亿 Sanctuary AI 70亿 Boston Dynamics 70亿 银河通用 70亿 星海图 70亿 自变量 60亿 ...
和Seed大佬交流了下,自动驾驶大模型还有些小儿科。。。
自动驾驶之心· 2025-09-22 07:32
大模型技术社区业务方向 - 平台主要关注大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等技术领域 [1] - 社区目标是构建国内最大的大模型技术社区,持续为行业和个人输送各类人才及产业学术信息 [1] - 社区正在快速搭建相关模块,旨在培养未来领袖 [1][2]
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 14:59
公司业务与招聘计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 业务合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 招聘主要技术方向 - 招聘方向涵盖大模型/多模态大模型、扩散模型、视觉语言模型、端到端自动驾驶、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿技术领域 [3] 岗位要求与待遇 - 候选人需来自QS200以内高校,拥有硕士及以上学历,拥有顶会论文者优先 [4] - 提供的待遇包括自动驾驶行业资源共享、丰厚的现金激励以及创业项目合作与推荐机会 [5]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-21 00:03
技术交流社群建立 - 自动驾驶领域专业社群成立 涵盖世界模型 端到端 VLA等多个前沿技术方向[1] - 社群定位为技术交流平台 面向开学季和秋招期从业人员与学生群体[1] - 通过指定联系方式可申请加入 需备注昵称与研究方向[1]
头部具身智能人形机器人公司最新估值/市值
自动驾驶之心· 2025-09-21 00:03
头部人形机器人公司估值 - 文章核心观点为汇总头部具身智能人形机器人公司的最新估值或市值,数据基于已完成或正在交割的真实估值,单位为人民币[2] - Figure AI以2736亿人民币估值位居榜首,远超其他公司[4] - 优必选以555亿人民币估值位列第二[4] - 估值在100亿至400亿区间的公司包括Sklid AI(324亿)、Physical Intelligence(170亿)、宇树科技(160亿)、智元机器人(150亿)、Apptronik(144亿)和Field AI(144亿)[4] - Agility Robotics估值为126亿人民币[4] - 估值在70亿至80亿区间的公司包括云深处机器人(80亿)、傅利叶机器人(80亿)、乐聚机器人(80亿)、World labs(70亿)、Sanctuary AI(70亿)和Boston Dynamics(70亿)[4] - 银河通用和星海图估值均为70亿人民币[5] - 估值在25亿至60亿区间的公司包括自变量(60亿)、它石智航(50亿)、Dyna Robotics(42亿)、灵初智能(30亿)、星动纪元(30亿)、Genesis AI(30亿)和千寻智能(25亿)[5] 数据说明与行业背景 - 数据来源为具身智能之心公众号,所列公司成立时间和融资阶段差异较大[2] - 估值高低与技术、商业化水平不能简单划等号,仅作参考[2] - 该领域已形成近200家公司的产业生态,存在广泛的交流社区[5]
但我还是想说:建议个人和小团队不要碰大模型训练!
自动驾驶之心· 2025-09-21 00:03
大模型应用策略 - 对于小规模团队,部署开源大语言模型结合检索增强生成技术已能满足99%的需求,在触及开源模型性能边界前不建议进行模型微调[2] - 若开源模型在特定垂直领域效果不佳,应优先尝试检索增强生成技术和上下文学习等低成本方案,而非直接进行模型微调[3] - 建议将最复杂的任务分配给o1系列模型,将需要较高智能的任务分配给4o等第一梯队模型[3] - 除付费模型外,可考虑采用DeepSeek、豆包、Qwen等国产开源大模型[4] - 基础模型能力的每次重大提升都如同一次技术版本更新,从业者需敏锐识别现有模型能力与业务需求的差异[6] - 应避免在低收益赛道进行无意义投入,采取错位竞争和降维打击策略更为有效[7] 核心技术趋势与人才需求 - 检索增强生成和智能体技术是当前大模型领域最具代表性的技术,企业对掌握这些技能的人才需求高涨[8] - 行业正积极构建技术社区,汇集来自上海交通大学、清华大学、北京大学、上海人工智能实验室、香港科技大学、香港大学等顶尖高校及阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等头部企业的专家[10][43] 技术社区资源体系 - 社区提供集视频、图文、学习路线、问答、求职交流为一体的综合型大模型技术平台[8][10] - 技术学习路线图全面覆盖检索增强生成、智能体、多模态大模型三大方向,包括Graph RAG、知识导向RAG、多模态RAG、推理RAG、智能体强化学习、多模态智能体、多智能体等细分领域[10] - 社区已邀请40余位学术界和工业界专家,计划不定期举办行业大佬直播分享活动[41][43] - 提供大模型相关工作岗位推荐和行业机会挖掘服务,助力职业发展[13][44]