自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

ICML 2025杰出论文出炉：8篇获奖，南大研究者榜上有名

自动驾驶之心· 2025-07-16 19:11

ICML 2025最佳论文奖项总结 - 本届ICML共评选出8篇获奖论文，包括6篇杰出论文奖和2篇杰出立场论文奖，南京大学研究者位列获奖名单[3] - 大会共收到12107篇有效投稿，接收3260篇，接收率26.9%，相比2024年9653篇投稿数量持续大幅增长[5] - ICML是全球人工智能领域三大顶会之一，与NeurIPS、ICLR并列，本届为第42届，在加拿大温哥华举行[3] 杰出论文奖主要研究成果 - 论文1提出自适应Token解码顺序策略，将掩码扩散模型在数独解题准确率从7%提升至90%，超越7倍参数量的自回归模型[8][10] - 论文2研究机器学习在政府项目中的应用，通过德国失业案例评估预测技术对福利分配的影响，为政策制定提供分析框架[11][13][14] - 论文3提出CollabLLM框架，通过多轮感知奖励增强人机协作，任务表现提升18.5%，用户满意度提高17.6%，减少10.4%用户时间[15][17][18][19] - 论文4分析语言模型创造性极限，证明多Token方法在生成多样性方面优于下一Token学习，提出噪声注入输入层的新方法[20][22][23] - 论文5从贝叶斯视角改进共形预测，提出基于贝叶斯求积的实用方案，提供更全面的损失范围表示[24][25][26][27] - 论文6调整分数匹配方法处理缺失数据，提出重要性加权和变分两种方法，分别在小样本低维和高维场景表现优异[28][30][31] 杰出立场论文奖核心观点 - 论文1建议改革AI会议评审系统，建立双向反馈机制和审稿人奖励系统，应对投稿量激增带来的评审质量挑战[35][36][39][40] - 论文2指出当前AI安全研究忽视对未来工作影响，主张建立以人为中心的全球治理框架，解决收入不平等和技术债务问题[41][44] 行业动态 - 自动驾驶领域技术社区已聚集近4000人，300+企业和科研机构参与，覆盖30+技术方向包括大模型、BEV感知、多传感器融合等[47] - 专业课程涵盖端到端自动驾驶、大模型应用、BEV模型部署、轨迹预测等前沿方向，提供系统学习路径[48][49]

自动驾驶之心· 2025-07-16 16:46

自动驾驶行业趋势与职业发展 - 自动驾驶行业当前处于快速发展阶段，大模型与端到端技术成为核心方向[4][6] - 小米汽车在自动驾驶领域势头强劲，虽薪资水平中等但短期发展潜力较大[7] - 医学图像与工业检测领域技术门槛低于自动驾驶，可作为从业者备选方向[6] 求职与技能提升策略 - 实习经历需适当包装，重点突出与目标岗位相关的技术亮点[3][6] - 建议利用公司资源补充自动驾驶算法实践经验（如BEV、端到端），同时学习VLA、SFT等技术[6] - 需同步准备秋招与实习转正，多offer可增强薪资谈判能力[5][6] 技术研究方向与资源 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶为四大前沿方向[10] - 自动驾驶数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务，包括NuScenes、BDD100K等主流数据集[25][26] - 扩散模型在自动驾驶中应用于场景生成、3D补全等任务，如DriveDreamer、MagicDriveDiT等创新方法[43] 社区与学习平台 - 知识星球提供自动驾驶课程、硬件资料及招聘信息，已形成学术-产品-就业闭环生态[8][62] - 社区目标3年内聚集万人规模，现有华为天才少年及领域专家入驻[8] - 会员可获取5000+干货内容、100+场行业直播及求职咨询等权益[62] 端到端自动驾驶进展 - 开源仓库收录E2E驾驶最新研究成果，涵盖感知、预测、规划全流程[45][49] - 特斯拉FSD验证了端到端模型可行性，但开环评估仍存争议[49] - 典型方法包括DriveGPT4（大模型驱动）、VADv2（概率规划）等[52][55]

三周年了！从自动驾驶到具身智能：一个AI教育平台的破局与坚守~

自动驾驶之心· 2025-07-16 16:14

公司发展里程碑 - 公司成立三周年，自动驾驶领域技术迭代加速，从端到端方案演进至VLM/VLA方案，索尔算力显著超越Orin芯片[2] - 业务矩阵扩展至四大IP：自动驾驶之心、具身智能之心、3D视觉之心、大模型之心，覆盖知识星球、公众号、视频号等多平台，其中具身智能业务实现学术与产业双突破[2] - 业务模式从纯线上教育升级为全栈式服务，新增硬件教具、线下培训、求职招聘板块，杭州办公室设立并引入核心团队成员[2] 战略与价值观 - 盈利被视为结果而非唯一目标，行业影响力与帮助从业者构成核心内驱力[3] - 坚持"重全局，沿途下蛋"策略，平衡长期价值投入与短期商业化落地[4] - 通过《长安的荔枝》案例强调"逆人性做事"原则，严控课程质量，对不合格内容实施重录补录，建立1v1学员反馈机制[5][6] 行业竞争与创新 - 小米汽车案例显示市场时机非绝对门槛，执行质量决定成败[4] - 行业普遍存在短期红利追逐现象，公司差异化聚焦长期价值赛道[4] - 将创新能力视为核心壁垒，主张"创新才能每天吃第一口热饭"，持续研发新体系对抗同业模仿[6][7] 业务转型与规划 - 启动科技公司转型，同步深耕AI教育领域，计划2025年下半年完成体系搭建并进入稳定运营期[8] - 教育产品目标定位降低AI学习门槛，覆盖自动驾驶、大模型等15个技术方向[9][10] 市场活动 - 推出三周年专项优惠：自动驾驶课程全线8折，知识星球新用户6折、老用户续费5折[10]

TACTILE-VLA：激活VLA模型的物理知识以实现触觉泛化（清华大学最新）

自动驾驶之心· 2025-07-16 12:05

核心观点 - 视觉-语言-动作模型（VLA）在接触密集型任务中存在触觉感知缺失的短板，难以实现精细力控制 [2] - Tactile-VLA通过深度融合视觉、语言、动作与触觉感知，激活VLA模型中隐含的物理知识，解决接触密集型任务的力控制与泛化问题 [2][6] - 研究发现视觉-语言模型（VLM）的先验知识中已包含对物理交互的语义理解，通过少量演示即可激活该知识实现零样本泛化 [6] 核心创新与研究目标关键发现 - VLM的先验知识包含物理交互语义理解，通过触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架：首次将触觉感知作为原生模态引入VLA模型，构建多模态深度融合架构 [6] - 混合位置-力控制器：将力目标转化为位置调整指令，解决位置与力控制的协同难题 [6][11] - Tactile-VLA-CoT变体：引入思维链推理机制，基于触觉反馈自主调整策略提升稳健性 [6][15] 主要解决的问题 - 触觉感知的指令遵循：理解"轻柔地""用力地"等力相关语言修饰词 [6] - 触觉相关常识运用：基于物体属性自主调整交互力 [6] - 触觉参与的自适应推理：通过触觉反馈诊断失败并制定纠正策略 [6] Tactile-VLA框架整体架构 - 多模态深度融合架构包含视觉、语言、触觉和本体感觉输入的统一token表示 [9][11] - 通过非因果注意力机制实现视觉、语言和触觉token的自由交互 [9] 混合位置-力控制机制 - 控制逻辑：以位置控制为主，力误差超过阈值时引入力反馈调整 [11][12] - 双通道分离：外部净力与内部抓取力分离实现精细化调节 [13] 思维链推理机制 - 触发机制：固定间隔评估任务进展，检测失败时启动推理 [18] - 推理流程：判定任务成功与否、分析失败原因、生成纠正指令 [18] 数据收集方法 - 硬件平台：基于通用操作接口（UMI）配备双高分辨率触觉传感器 [19] - 同步机制：100Hz触觉信号与20Hz视觉数据时间对齐 [19] - 标注方式：人类操作员结合触觉反馈提供演示并记录语言指令 [19] 实验验证与结果分析触觉感知的指令遵循实验 - 任务A（USB插拔）：Tactile-VLA成功率达35%，充电器任务中达90% [22][23] - 力控制精度：USB任务中"轻柔地"施加0.51N力，"用力地"施加2.57N力 [23] 触觉相关常识的运用实验 - 域内物体抓取成功率：90%-100%，域外物体达80%-100% [30] - 力调节策略：根据物体属性自主调整力度，如对易碎物体用轻力 [30] 触觉参与的自适应推理实验 - 黑板擦拭任务：Tactile-VLA-CoT成功率达80%，基线模型为0 [28][32] - 推理过程：首次尝试失败后自主增加剪切力并成功完成任务 [32]

每秒20万级点云成图，70米测量距离！这个3D扫描重建真的爱了！

自动驾驶之心· 2025-07-16 12:05

产品概述 - GeoScan S1是一款手持三维激光扫描仪，具有轻量化设计、一键启动和高性价比的特点，适用于多种作业领域[1] - 设备以多模态传感器融合算法为核心，实现厘米级精度的三维场景实时重构[1] - 产品由同济大学刘春教授团队和西北工业大学产业化团队合作开发，拥有多年科研和行业积累，经过上百个项目验证[4] 技术参数 - 扫描性能：每秒生成20万级点云，70米测量距离，360°全域覆盖，支持20万平米以上的大场景扫描[1][23] - 精度：相对精度优于3cm，绝对精度优于5cm[16] - 数据输出：支持pcd、las、ply等多种通用格式，可生成彩色点云[16] - 系统环境：运行Ubuntu 20.04，支持ROS[16] 硬件配置 - 传感器集成：包含3D激光雷达、9DOF IMU、双广角相机、深度相机等[7] - 计算单元：Intel N5095处理器，4核2.0GHz（睿频2.9G），16G内存/256G存储[16] - 同步模块：微秒级同步精度，最高800Hz频率[17] - 供电：88.8Wh电池容量，续航约3-4小时[16] 功能特点 - 实时建模：支持三维点云地图动态构建、色彩融合和实时预览[16] - 多传感器融合：结合相机、激光雷达、IMU、RTK数据[16] - 小倾角设计：激光雷达25°倾斜角度安装，提高采集效率[9] - 跨平台集成：适配无人机、无人车、机械狗等多种负载平台[38] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂室内外场景[32] - 可用于地理信息数据采集、城市规划、文物保护等领域[46] - 支持3D高斯实景还原，选配模块可实现高保真实景还原[44] 价格信息 - 基础版本：19800元[51] - 深度相机版本：23800元[51] - 3DGS在线版本：39800元[51] - 3DGS离线版本：67800元[51]

自动驾驶之心求职辅导推出啦！1v1定制求职服务辅导~

自动驾驶之心· 2025-07-15 20:30

求职辅导服务 - 推出1v1定制求职辅导服务目标人群为希望转型智能驾驶方向的应届生和职场人士周期2个月左右 [2] - 课程特色以求职成功为导向聚焦目标岗位迅速补足短板短时间内具备目标岗位所需知识和能力 [2] - 收费标准8000元/人包含不低于10次线上1v1会议每次不低于1小时 [4] - 基本服务包括8次答疑+1次面试前复盘+1次正式面试后复盘 [5] 服务内容 - 分析学员画像评估知识结构和能力模型找出与目标岗位差距 [8] - 制定全周期学习计划提供相关学习资料包括文档和网络资源 [8] - 每周定期会议答疑回顾学习进度并给出建议其他时间可随时提问 [8] - 简历优化建议提升与目标岗位匹配度提供合适内推机会 [9] 进阶服务 - 项目实战提供实际项目实践机会可写入简历补充费用3000元 [11] - 模拟面试包含HR面试和业务面试补充费用2000元 [11] 可辅导岗位 - 涵盖智能驾驶产品经理系统工程师算法软开测试工程师 [11] - 智能座舱产品经理汽车智能化行业分析师等方向 [11] 师资力量 - 辅导老师为智驾行业专家包括产品架构算法测试分析师等 [12] - 大多具备8年以上从业经验就职于国内自驾独角兽和主机厂 [12] - 主导头部车企智能驾驶产品方案熟悉供应商与整车厂方案 [13] - 参与早期多款车型座舱方案 10年算法/软件/测试实战经验 [13] - 对自驾行业有深度理解输出过多篇重量级行业研究报告 [13]

多模态大模型强化学习训练框架 - EasyR1代码走读（GRPO）

自动驾驶之心· 2025-07-15 20:30

多模态强化学习框架EasyR1分析 - EasyR1是基于纯语言强化学习训练框架verl修改而来的多模态强化学习训练框架，支持Qwen2.5-VL等模型的微调 [1] - 框架采用GRPO算法进行训练，该算法不涉及Value Model，从而简化了训练流程 [45] - 代码仍在频繁更新中，文章分析的是2024年6月10日左右的代码版本 [1] 启动配置 - 启动脚本位于examples目录，通过python3 -m verl.trainer.main命令启动训练任务 [5] - 配置文件分为data、algorithm、worker和trainer四类配置项，参数可通过启动脚本覆盖 [6] - 数据配置包括训练集/验证集路径、prompt/answer/image键名、最大长度限制等参数 [9] 数据处理流程 - 数据集必须包含problem、answer和images三个key，支持json等多种格式 [40] - 数据加载使用datasets.load_dataset函数，支持本地文件和远程Hugging Face数据集 [41] - 图像处理支持<image>占位符，可拼接多张图片内容 [39] - prompt会通过jinjia模板进行格式化渲染，支持单轮问答场景 [38] 训练流程 - 训练分为init和fit两个阶段，fit阶段包含数据采样、奖励计算、优势估计和模型更新等步骤 [44] - GRPO算法中每个prompt会采样多条响应(n≥2)，通过组内标准化计算优势 [81] - 训练使用KL散度约束模型更新，支持多种KL惩罚类型如low_var_kl等 [78] - 策略更新采用PPO算法，支持多epoch训练和梯度累积 [84] 性能优化 - 框架采用FSDP策略进行分布式训练，支持参数卸载以节省GPU内存 [16] - 数据在DP rank间进行平衡分配，确保每个rank获得相似数量的token [62] - 推理使用vLLM引擎，支持tensor并行和分块预填充等优化 [28] - 训练支持padding-free模式和Ulysses序列并行技术 [15]

自动驾驶之心· 2025-07-15 20:30

产品发布与市场反应 - 乐道L90开启预售，整车购买价格为27.99万元，超出市场预期[4] - BaaS方案价格19.39万元，现场反响热烈[6] - 发布会后蔚来美股股价大涨6.03%，收盘价3.690美元，成交额2.68亿美元[8][9] 产品设计与功能亮点 - 乐道L90为车长超5.1米的大型SUV，三排六座设计，空间表现突出[13][41] - 前备箱容积240L，支持电动开启和空气悬架自动降低10公分[15][17][43] - 车内配备35英寸AR-HUD、17英寸中控屏、17.3英寸吸顶屏及8英寸小屏[22][30][31] - 二排零重力座椅、可形成沙发床的设计及小冰箱（容纳12罐可乐）提升舒适性[24][26][32] - 三排空间宽敞，腿部余量一拳，两侧配备杯架和Type-C接口[35][39] 技术创新与性能 - 采用900V碳化硅电机，四驱版零百加速4.7秒，两驱版5.9秒[45] - 自研49合1热管理模块等技术创新节省空间，如前备箱通过集成化设计多出230L[43][45] - 百公里电耗14.5度，85度电池续航605km，支持换电体系（上千座换电站）[48] - 智能驾驶采用主视觉路线，配备30个感知硬件，支持城区领航辅助[48] 市场定位与用户评价 - 定价19.39万起，被视作30万内三排纯电SUV的标杆产品[12][50] - 国内外用户反响强烈，美国网友关注其高性价比与设计合规性[9][10]

一文尽览！近一年自动驾驶VLA优秀工作汇总~

自动驾驶之心· 2025-07-15 20:30

自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式，视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作，重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene，解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法：导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能，实现超视距推理能力[2][6] - 在NuInstruct基准测试中，Qwen2.5-7B模型表现最佳，多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA，统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练，在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力，可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据，通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS，创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集，包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准，包含16,185个QA对，覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术，但车端必要性存疑[50] - 时序处理研究不足，与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平，验证技术可行性[50]

自动驾驶之心· 2025-07-14 22:04

行业趋势与人才需求 - 自动驾驶和具身智能公司对人才要求较高，倾向于实力强、背景好的候选人 [3] - 大公司招聘需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向 [4] - 机器人初创公司融资活跃，未来几年发展前景可观 [4] - 传统机器人技术仍是产品主线，但具身智能是最前沿方向 [5] 技术方向与就业建议 - 双非学生可转向机器人/具身智能领域，从事SLAM、ROS相关优化和集成工作 [4] - LV融合、无图、BEV感知等技术已应用但人才饱和 [4] - 深圳、杭州的机器人公司提供全面技术培养机会 [5] 前沿技术资源汇总 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大技术方向 [9] - 提供10个Awesome和综述资源链接，涵盖智能交通、AIGC、视觉语言模型等领域 [10] - 列出17个VLM预训练数据集，最大规模达12B图像-文本对（LAION5B） [17] - 汇总图像分类、文本检索、行为识别等评估数据集，如ImageNet-1k（1000类）、Kinetics700（700类） [18][20] 自动驾驶数据集与应用 - 覆盖2D/3D目标检测、语义分割、跟踪等任务，如NuScenes（2020年，多模态）、Waymo Open Dataset（2020年） [23] - 语言增强数据集支持视觉-语言导航、车辆检索等应用，如NuScenes-QA（2023年） [24] - 智能交通领域方法聚焦语言引导的车辆检索和视觉问答 [25] - 自动驾驶感知技术包括语言引导的3D检测、开放词汇分割（如OpenScene） [26] 世界模型与扩散模型 - 世界模型研究集中在3D场景理解和生成，如HERMES（2025年）、DriveGPT（2024年） [32][33] - 扩散模型在自动驾驶中用于视频生成（如DriveDreamer）、数据增强（如Cityscape-Adverse） [35][41] - 汇总19篇扩散模型综述，涉及3D视觉、推荐系统等方向 [35][38][39] 端到端自动驾驶 - 开源仓库跟踪E2E最新研究，如opendilab/awesome-end-to-end-autonomous-driving [43][47] - 方法融合多模态感知与规划，如DriveGPT4（2023年）、VADv2（概率规划） [47][50] - 研讨会覆盖CVPR、ICRA等会议，探讨基础模型与规模化应用 [48] - 长尾分布问题通过对抗训练（如CAT）、场景生成（如KING）解决 [53][58]

Autonomous Driving

Visual Language Model

Visual Language Model