Workflow
自动驾驶之心
icon
搜索文档
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术发展 - 自动驾驶技术在结构化环境(如城市道路与高速公路)已取得显著进展,但非结构化场景(如乡村小径、标识模糊路段、灾后修复区域)仍是关键突破口 [4] - 非结构化场景的挑战包括道路边界模糊、非常规动态障碍物、临时交通规则变动及复杂路况,这些场景对自动驾驶系统的鲁棒性提出更高要求 [5][12][13] Impromptu VLA数据集 - 数据集包含8万余条精选视频片段,提炼自8个开源数据集的200余万条原始素材,聚焦四大非结构化场景:边界模糊道路、临时交通规则变动、非常规动态障碍物及复杂路况 [5][8][12] - 数据集采用多任务标注系统与路径规划轨迹数据增强,通过视觉-语言模型(VLMs)进行思维链推理和人工核验确保高质量标注 [5][16][17] - 数据集构建流程包括关键片段筛选、稳定性过滤、基于思维链的场景分类与结构化信息提取、多任务标注生成及全量人工核验 [15][16][17][18] 实验与性能提升 - 基于Impromptu VLA微调的视觉-语言模型(VLA)在NeuroNCAP闭环测试中平均得分从1.77/5.00提升至2.15/5.00,碰撞率从72.5%降至65.5% [6][21][22] - 在nuScenes开环轨迹预测评估中,微调模型的平均L2误差降至0.30m,性能逼近EMMA+等专用方法(0.29m) [6][23][24] - 模型在非结构化场景下的感知、预测与规划能力均呈现显著提升,例如交通弱势群体感知准确率从0.87提升至0.91,动态物体预测准确率从0.20提升至0.92 [26][27] 行业应用与展望 - Impromptu VLA数据集为开发更鲁棒、自适应的自动驾驶系统提供了关键资源,尤其在非结构化场景的应对能力上具有重大价值 [29] - 自动驾驶行业正围绕端到端自动驾驶、大模型、VLA、仿真测试等技术方向展开深入研究,涉及感知、定位、规划控制等多个领域 [31][33]
行车报漏检了,锅丢给了自动标注。。。
自动驾驶之心· 2025-07-22 15:28
占用网络(OCC)技术 - 占用网络将空间划分成小网格预测每个网格的占用情况 用于解决异形障碍物检测问题 [3] - 核心功能包括建模异形障碍物(如倒地树木 不规则车辆)和路面等背景元素 [4] - 自2022年特斯拉宣布Occupancy Network上车后 已成为纯视觉智驾方案标配 [2] 自动标注技术难点 - 时空一致性要求极高 需在连续帧中精准追踪动态目标运动轨迹 [9] - 多模态数据融合复杂 需同步激光雷达 相机 雷达等多源传感器数据 [9] - 动态场景泛化难度大 交通参与者行为不确定性增加标注模型挑战 [9] - 标注效率与成本矛盾 高精度依赖人工校验但海量数据导致周期长成本高 [9] - 量产场景泛化要求高 需应对不同城市 道路 天气等多样化数据 [9] 自动标注解决方案 - 生成OCC训练真值后 使用计算量更大模型训练生成伪标签 [8] - 质量把控方案包括:2D-3D目标检测一致性 与端侧模型比较 人工标注介入修改后质检 [8] - 自动化标注数据可用于车端模型训练和云端大模型迭代优化 [8] 4D自动标注课程内容 - 课程涵盖动静态 OCC和端到端自动化标注全流程 [10] - 包括动态障碍物检测跟踪 激光视觉SLAM重建 静态元素标注等核心模块 [10][13][14][16] - 重点讲解通用障碍物OCC标注 包括基于lidar和视觉的真值生成方案 [17][18] - 端到端真值生成章节包含动态障碍物 静态元素 可行驶区域等全流程打通 [19] - 数据闭环专题分享行业主流公司架构 痛点及面试准备等实战经验 [21] 行业技术发展 - 占用网络对训练数据标注需求旺盛 尤其需要更昂贵的点云标注 [2] - 业内正推进OCC自动化标注以快速迭代模型泛化性能 [2] - 4D自动标注(3D空间+时间维度)是自动驾驶数据闭环的算法核心 [11]
自动驾驶之心三周年优惠就要结束啦,最后一天...
自动驾驶之心· 2025-07-22 15:28
公司三周年发展回顾 - 三周年是重要里程碑 自动驾驶领域技术迭代加速 英伟达Thor芯片算力达2000 TOPS 较Orin的254 TOPS实现大幅提升[1] - 已打造四大IP矩阵:自动驾驶之心、具身智能之心、3D视觉之心、大模型之心 覆盖知识星球、公众号、视频号等多平台 其中具身智能方向表现突出[1] - 业务模式从纯线上教育拓展至硬件教具、线下培训、求职招聘等全栈服务 在杭州设立线下办公室并引入新团队成员[1] 创业理念与战略 - 反对短期功利主义 强调长期价值创造 通过平台影响力驱动行业发展[2] - 坚持"重全局 沿途下蛋"策略 既投入长期价值项目 也实现阶段性商业化目标[4] - 团队核心优势在于执行力、复盘能力和持续创新 认为创新是保持行业领先的关键[7] 业务运营反思 - 发现课程质量管控问题后 采取重录补录措施 建立1v1学员沟通机制[6] - 强调"逆着人性做事"原则 拒绝内容注水 通过深度思考保证输出质量[6][7] - 行业存在普遍模仿现象 但坚持创新才能持续获得先发优势[7] 未来发展规划 - 启动多领域研发投入 推动公司从教育向科技企业转型[9] - 计划2025年下半年完成教育体系搭建 进入稳定运营期[9] - 持续降低AI学习门槛 实现"让AI教育走进每个有需求同学"的目标[10] 三周年促销活动 - 推出自动驾驶全系列课程8折优惠 涵盖感知、定位等15个技术方向[12] - 知识星球新人加入享6折 老学员续费5折[14]
近日某头部自驾公司数据算法核心负责人离职。。。
自动驾驶之心· 2025-07-22 10:18
组织架构调整 - 头部自驾公司智能驾驶团队进行重要组织架构调整,原数据算法核心负责人离职,该负责人曾主导完成千万Clips数据交付并搭建两代量产及端到端方案的云端数据闭环链路 [1] - 公司引入多位行业顶尖专家强化团队技术实力,彰显在智能驾驶领域"不惜代价"投入的决心 [1] - 调整后智能驾驶团队分为三大核心板块:端到端辅助驾驶、L3级辅助驾驶和VLA预研,由业内顶级专家带队 [4] 技术研发与数据成果 - 公司近期交付1000万Clips版端到端辅助驾驶系统成为行业标杆,通过海量高质量数据训练显著提升实际驾驶体验 [5][6] - 最新车型全系标配行业顶配感知套件,包括高性能计算芯片、激光雷达及多颗高清摄像头 [7] - 1000万Clips系统已通过OTA推送至用户端,后续将结合大模型能力持续迭代 [7] 性能提升与数据质量保障 - 纵向舒适性提升57%,拥堵路况下加减速更平顺 [10] - 绕行成功率提高67%,窄路会车、占道绕行更从容 [10] - 路口通过率优化23%,复杂中国路况适应性更强 [10] - 通过专业司机团队(超20项评分标准)、智能评价系统(多模态大模型)和场景定向特训("错题本"机制)三大技术保障数据质量 [10] 长期投入规划 - 公司宣布智能驾驶领域首期投入规模巨大,专属团队超千人,测试车辆达数百台 [9] - 联合顶尖AI实验室与高校开展前沿技术研究,加速技术突破 [9] - 强调辅助驾驶技术仍需用户正确理解与使用,未来将持续以"用户体验为核心"推动创新 [11]
分析了102个VLA模型、26个数据集和12个仿真平台
自动驾驶之心· 2025-07-22 10:18
视觉-语言-动作(VLA)模型综述 - 核心观点:VLA模型通过整合视觉感知、语言理解和机器人控制,正在推动机器人技术的变革性发展[3][7] - 研究范围:全面梳理了102个VLA模型、26个基础数据集和12个仿真平台[3] - 发展趋势:从端到端框架向模块化架构演进,强调跨模态对齐和泛化能力[9][12] VLA模型架构 - 主流架构:基于Transformer的视觉和语言骨干网络,通过跨模态注意力机制融合[9] - 视觉编码器:CLIP、SigLIP和DINOv2等ViT变体成为主流选择[13] - 语言编码器:LLaMA、Vicuna系列和T5风格模型广泛应用[15] - 动作解码器:扩散策略因能建模复杂动作分布而受青睐[15][16] 数据集发展 - 数据集演进:从早期简单状态-动作映射发展到多模态、长时间跨度数据集[21] - 代表性数据集:Open X-Embodiment统一22个机器人实体和500多个任务数据[5] - 评估标准:建立任务复杂性和模态丰富度二维评估框架[22][24] 仿真平台 - 主要平台:AI2-THOR、Habitat和NVIDIA Isaac Sim等提供多模态支持[30][31] - 功能差异:从逼真室内导航到接触丰富的物理模拟各有侧重[31] - 发展趋势:强调GPU并行计算和大规模场景生成能力[33] 应用领域 - 主要方向:操作与任务泛化、自主移动、人机交互等六大领域[34] - 代表性模型:RT-2、Pi-0和CLIPort等在各自领域表现突出[37] - 技术路线:分为大型通用架构和模块化专用系统两大发展轨迹[38] 挑战与机遇 - 架构挑战:分词对齐、模态融合和跨实体泛化等关键技术瓶颈[39][40] - 数据限制:任务多样性不足、模态不平衡和注释成本高等问题[42] - 仿真差距:物理准确性、视觉真实性和语言接地API等亟待改进[44][45]
字节跳动2026校招来了!大模型算法、多模态、CV类有较多坑位
自动驾驶之心· 2025-07-22 09:47
字节跳动校招计划 - 筋斗云人才计划面向2022年9月至2026年8月毕业的博士生(全职)及2025年9月及以后毕业的在校博士生(实习),放宽了2022届博士生的招聘限制,涵盖大模型应用、搜索/推荐/广告、计算机体系结构等8大领域,支持学术研究与产业落地结合[2] - Top Seed计划针对2026届应届博士生及研究型实习生,聚焦大模型核心技术(如LLM、多模态生成、机器学习算法),提供高待遇与算力支持,目标培养顶尖人才[3] AutoRobo知识星球服务内容 - 社区定位为自动驾驶、具身智能、机器人方向求职交流平台,成员近1000人,覆盖社招(如地平线、小米汽车、华为)及2024/2025届秋招学生[8] - 提供面试题目汇总(如毫米波视觉融合一百问、BEV感知一百问)、行业研报(世界机器人报告、人形机器人量产研报)、面经(滴滴出行、英伟达等公司案例)及谈薪技巧[12][13][18][20] - 每日更新校招/社招/实习岗位信息,涉及算法、开发、产品等方向,同步公司第一手招聘资源[9] 行业研究与求职资源 - 汇总专业书籍与技能树(机器人、自动驾驶、AI类),包含转行经验、面试官建议及岗位复盘内容[23][25] - 提供宏观行业分析(技术路线、上下游产业)及实战资料(如多传感器标定技巧、Diffusion Policy面试题),帮助求职者深入理解领域发展[17][18]
为什么不推荐研究生搞强化学习研究?
自动驾驶之心· 2025-07-21 19:18
原文链接: https://www.zhihu.com/question/1900927726795334198 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 >> 点击进入→ 大模型没那么大Tech技术交流群 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨 询 写在前面 我已经很久没答学术上的问题了,因为最近审的申请书一半都是强化学习相关的?所以知乎老给我推强化 学习的各种东西……我就来简单的谈一谈强化学习吧。 强化学习如果说你要是 读到硕士研究生为止 ,哪怕你读的是清华北大的,最重要的基本功就是 调包 ,搞 清楚什么时候该调什么包就可以了,其次就是怎么排列组合,怎么缩小解空间,对一些算法只需要有个基 本的流程性了解就好了。 如果你读的是 博士 ,建议 换个方向 ,我觉得在现在的强化学习上雕花就是浪费时间和生命,当然你要是 以发很多papers,混个教职当然可以,就是你可能很久都做不出真正很好的工作来,混口饭吃也不注重这 个。 我对强化学习的感受就是 古老且原始 ,感觉就好像现在我还拿着一 ...
SceneDiffuser++:基于生成世界模型的城市规模交通仿真(CVPR'25)
自动驾驶之心· 2025-07-21 19:18
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今 天 自 动 驾 驶 之 心 为 大 家 分 享 Waymo LLC & UT Austin 最 新 的 工 作 ! SceneDiffuser++:首个端到端生成式世界模型实现60秒城市级交通仿真! 如果您 有相关工作需要分享,请在文末联系我们! 编辑 | 自动驾驶之心 引言与背景 交通仿真的核心目标是通过大量合成仿真里程,补充有限的真实驾驶里程,以支持自动驾驶系统的测试与 验证。理想状态下,一个生成式仿真城市(称为CitySim)应能基于城市地图和自动驾驶软件栈,无缝仿真 从A点到B点的完整行程——不仅能生成初始场景、驱动动态代理(车辆、行人等),还能控制交通灯等环 境因素,实现场景的全方面动态管理。 实现CitySim需要整合多项技术:场景生成(初始化场景)、代理行为建模(驱动场景动态)、遮挡推理、 动态场景生成(代理的生成与移除)以及环境仿真(如交通灯控制)。现有技术在动态场景生成和环境仿 真等方面关注较少,而SceneDiffuser++作为首个端到端生成式世界模型,通过单一损失函数训练,整合了 ...
70K?端到端VLA现在这么吃香!?
自动驾驶之心· 2025-07-21 19:18
端到端自动驾驶技术发展 - 端到端自动驾驶已成为国内主流新能源主机厂抢占的技术高地 上半年VLA概念掀起新一轮量产方案迭代 [2] - 行业薪资水平显示:3-5年经验的VLM/VLA算法专家年薪达百万 月薪高达70K [2] - 技术流派分化明显:二段式端到端以PLUTO为代表 一段式分为感知型(UniAD)、世界模型型(OccWorld)、扩散模型型(DiffusionDrive)等四大方向 [4] 技术流派与前沿进展 - 二段式端到端聚焦模型自车规划 包含港科技PLUTO、浙大CarPlanner(CVPR'25)、中科院Plan-R1等代表性工作 [7][22] - 一段式端到端四大子领域: - 感知型:UniAD为奠基作 地平线VAD和CVPR'24的PARA-Drive为最新进展 [23] - 世界模型型:AAAI'25的Drive-OccWorld和复旦OccLLaMA实现场景生成/端到端/闭环仿真多应用 [23] - 扩散模型型:DiffusionDrive开创多模轨迹时代 吉大DiffE2E为最新成果 [23] - VLA型:小米ORION、慕尼黑工大OpenDriveVLA和ReCogDrive代表大模型时代技术方向 [23] 行业人才需求 - VLA/VLM算法专家岗位需求旺盛: - 3-5年经验硕士薪资40-70K·15薪 [10] - 多模态方向博士应届生可达90-120K·16薪 [10] - 模型量化部署工程师1-3年经验薪资40-60K·15薪 [10] - 技术能力要求涵盖大语言模型 BEV感知 扩散模型 强化学习与RLHF等跨领域知识 [7][15] 技术培训体系 - 课程体系覆盖五大模块: - 端到端发展历史与VLA范式演变 [21] - 核心技术栈包括Transformer/CLIP/LLAVA/BEV感知/扩散模型理论 [24] - 二段式与一段式技术对比及工业落地 [22][23] - RLHF微调实战与大模型强化学习应用 [25] - 教学采用Just-in-Time Learning理念 三个月完成从理论到实践的闭环训练 [16][17][18][30] 技术门槛与挑战 - 学习路径需同时掌握多模态大模型 BEV感知 视觉Transformer 扩散模型等六大技术领域 [15] - 论文数量繁多且知识碎片化 高质量文档稀缺导致入门难度高 [15] - 硬件要求需配备4090及以上算力GPU 需具备Transformer和PyTorch基础 [32]
研究生入学,老板让手搓一辆自动驾驶小车。。。
自动驾驶之心· 2025-07-21 19:18
产品概述 - 黑武士001是自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,采用阿克曼底盘 [3] - 产品原价35999元,当前支付定金1000元可抵扣2000元,订单已启动优先安排组装发货 [2] - 目标用户包括本科生学习进阶/比赛、研究生科研/发论文/找工作、高校实验室教具、培训机构教具等场景 [6] 硬件配置 - 主要传感器包括:Mid 360 3D激光雷达(FOV360°×59°,范围0.1-40m)、镭神智能2D激光雷达(最大范围25m)、奥比中光深度相机(测量范围0.15-5m,精度≤2%)[10][18] - 主控芯片采用Nvidia Orin NX 16G,配备1080p显示器,底盘为阿克曼结构系统[10] - 车体参数:重量30kg,尺寸620×400×320mm,续航>4小时,最大速度2m/s,采用24V供电系统[12] 软件功能 - 开发框架基于ROS、C++、Python,支持一键启动并提供完整开发环境[14] - 功能覆盖2D/3D目标检测与分割、多模态SLAM(视觉/激光/惯性)、点云处理、车辆导航避障等15+方向[15] - 深度相机驱动节点可发布RGB图像(1280×800@30fps)、深度图像及相机内参数据[29] 应用场景 - 测试场景覆盖室内地库(2D/3D建图)、户外公园、夜间行驶、上下坡等复杂环境[4][7][8][9][10] - 教学应用包括语义SLAM、人体位姿估计、深度测量、多传感器融合等科研方向[15][18] - 提供手柄遥控功能,可通过修改YAML参数调整最大线速度(scale_linear)和角速度(scale_angular)[32] 产品服务 - 提供完整硬件配置说明、软件启动指南及产品说明书[17][20][24] - 售后支持1年非人为损坏保修,人为损坏提供付费维修服务[37]