Workflow
自动驾驶之心
icon
搜索文档
硬核夜话:和一线量产专家深入聊聊自驾数据闭环工程
自动驾驶之心· 2025-08-02 00:03
自动驾驶数据闭环工程 - 数据闭环是涵盖数据采集、标注、训练、仿真验证到OTA更新的完整生命周期 而非简单的数据收集与回放 [3] - 自动驾驶从L2向更高级别演进过程中 数据量呈指数级增长 场景覆盖广度与深度决定系统安全性 [3] - 行业正经历从"功能堆砌"到"安全为本"的转变 需建立科学验证标准并平衡迭代速度与系统稳定性 [3] 数据闭环核心痛点 - 长尾问题:极端场景(如极端天气、复杂路况)发生概率低但安全影响大 捕捉和纳入训练体系难度高 [3] - 数据处理效率:单车每日产生TB级数据 需解决海量数据筛选、标注和利用的效率瓶颈 [3] - 验证难题:传统测试方法覆盖不足 需优化仿真测试与实车验证的科学互补机制 [3] 行业技术动态 - 复旦BezierGS利用贝塞尔曲线实现驾驶场景SOTA重建 [7] - 清华与博世联合开源纯血VLA框架Impromptu-VLA 性能达SOTA水平 [7] - 清华与吉利开发Challenger框架 可高效生成自动驾驶对抗场景 [7] 行业活动与测试 - 懂车帝联合央视新闻及公安部交管局开展辅助驾驶测试 技术角度客观讨论测试结果 [4] - 一线量产数据专家Ethan将探讨自动驾驶数据闭环的工程化落地挑战 [3]
智元机器人罗剑岚老师专访!具身智能的数采、仿真、场景与工程化~
自动驾驶之心· 2025-08-02 00:03
具身智能数据讨论 - 公司与多家传感器供应商合作,重点研发视觉触觉与高密度传感器,并构建跨平台数据采集API以实现标准化数据输入[2] - 机器人应用需达到95%成功率才能满足家庭场景需求,当前性能优化是主要门槛[2] - 仿真数据用于模型迭代但大模型训练100%使用真机真实数据,仿真流水线在扩展性上存在瓶颈[2][3] - 合成数据仅用于工程迭代与模型调试,发布与部署阶段完全依赖真实场景数据[3][4] - 真实数据成本核心在于缺乏标准化机制,公司尝试通过远程摇操、自动部署机器人等方式建立自动化数据采集闭环[6] - 机器人数据瓶颈与自动驾驶不同,需解决数据稀缺、性能优化及工程伦理等多方面挑战[7] 具身大模型评估 - 行业缺乏通用benchmark,公司计划搭建统一真机测试场供不同模型评估[8][9] - 评估维度包括具身技术路线与性能表现,当前从Demo炫技转向产业闭环但仍面临工程复杂性等挑战[9] - 公司世界模型基于统一平台,能生成视频、评测模型并训练策略,处理复杂场景能力较强[10] - VLA路线需结合大模型与优化策略,机器人执行要求远高于ChatGPT的50%-60%准确率[11] - 中美差异:美国重算法创新与开源生态,中国在工程集成与规模部署上更具优势[12] 遥操作vs自主决策 - 自主决策需机器人理解世界、生成策略并执行任务,关键技术门槛在于多模态信息融合与高成功率[13][14] - 当前"失控"问题源于软件设计不完善而非机器人意识,公司通过模拟测试与安全机制确保安全[14] - 数据积累路径从垂直场景逐步过渡到通用场景,无法直接实现通用能力[15] 具身智能应用场景与落地 - 场景部署流程分为任务建模、场景迁移、场景适配与安全验证四步,强调软硬件协同与人机安全[17][18] - 工业结构化环境更易落地,需满足近乎100%的性能要求,家庭场景因复杂性长期市场更大[20][21] - 工业场景中VLA需结合大模型与优化策略,相比传统方案具备更强泛化能力与更低调试成本[23] - 人形机器人技术路线未收敛,公司同时依赖外部厂商与自研技术探索模块化标准[23] - 家庭环境异质性带来工程挑战,需通过垂直场景数据积累逐步演化通用能力[23] - 执行速度慢源于模仿学习局限,需引入专门优化训练而非仅模仿原始操作[24] 具身未来展望 - 追求DeepSeek moment即高成功率+泛化能力+速度的统一提升,而非ChatGPT式低成功率泛化[26] - 数据驱动成为科学范式,通过大规模数据与统计验证建立结论[27] - 未来架构可能超越Transformer,类脑架构更贴近生物大脑处理模型[28] - 传感器选择关键在"对的传感器"而非数量,方法论与算法架构更重要[28] 具身软硬件协同 - 公司构建平台化操作系统(类似"机器人Android")为硬件与传感器提供统一接口[30] - 行业需开放合作共建生态,单靠操作系统无法推动性能级模型创新[31][32]
ACM MM'25 | 自驾2D目标检测新SOTA!超越最新YOLO Series~
自动驾驶之心· 2025-08-02 00:03
自动驾驶目标检测技术 - 当前主流架构如YOLO、DETR在追求轻量化和速度时牺牲了特征一致性与层次表达能力,难以兼顾小目标检测与复杂场景理解[2] - 频率混叠和融合过程僵化是现有Neck结构的主要问题,导致特征表达能力下降和检测器感知能力受限[9][10] - Butter框架通过解耦式设计实现精度与效率的统一,在Neck层引入频率一致性增强模块和渐进式层次特征融合网络[11] Butter框架核心技术 - 频率一致性增强模块(FAFCE)融合高频细节增强与低频噪声抑制,提升边界分辨率[3][20] - 渐进式层次特征融合网络(PHFFNet)逐层融合语义信息并引入空间感知机制,强化多尺度特征表达[3][29] - Backbone采用轻量化改进的HGNetV2,使用GhostConv、RepConv等模块减少参数量,提升推理效率[17] 性能表现 - 在KITTI数据集上mAP@50达到94.4%,比TOD-YOLOv7高出1.2个百分点,计算量仅为后者约1/3[32] - 在BDD100K和Cityscapes数据集上分别取得53.7%和53.2%的mAP@50,显著优于Hyper-YOLO-S方法[32] - 参数量比Hyper-YOLO-S减少约64%,显示更优的部署适应性[32] 技术细节 - FAFCE模块通过高频增强与低频抑制两种机制提升多尺度特征融合准确性[20] - PHFFNet采用从低层向高层的逐级融合策略,缓解非相邻层间语义差异[29] - 引入空间动态权重机制(CASF)动态分配不同空间位置的多层特征权重[31] 应用前景 - 方法具备良好的通用性与部署适配性,适用于主流SOTA检测器[15] - 具备轻量化潜力,可用于高性能自动驾驶视觉系统部署[15] - 在复杂道路场景中实现高精度目标检测与结构感知[14]
告别被动感知!DriveAgent-R1:主动视觉探索的混合思维高级Agent
自动驾驶之心· 2025-08-01 15:05
核心观点 - DriveAgent-R1是一款为解决长时程、高层级行为决策挑战而设计的先进自动驾驶智能体,通过混合思维和主动感知机制推动基于VLM的自动驾驶发展 [3][4] - 该智能体在SUP-AD数据集上取得SOTA性能,超越Claude Sonnet 4等顶尖多模态大模型,首帧联合准确率达61.42%,启用工具后提升至70.11% [4][27] - 创新性地提出三阶段渐进式强化学习策略和模式分组GRPO算法,将工具使用从性能干扰源转化为性能放大器,序列平均准确率提升15.9% [4][28] 技术架构 - 基于Qwen2.5-VL-3B模型构建,处理6个环视摄像头低分辨率图像、车速和导航指令,生成未来8秒驾驶意图决策 [11] - 决策由4个时间步(每步2秒)的离散元动作序列组成,包含速度和轨迹两部分 [11] - 集成视觉工具箱:高分辨率视图获取、关键区域检查、深度估计和开放词汇表3D物体检测 [19] 核心创新 - 混合思维框架:智能体根据场景复杂度在纯文本推理和工具辅助推理间自适应切换 [5][18] - 主动感知机制:配备视觉工具箱主动探查环境解决感知不确定性 [5][16] - 三阶段训练策略:双模式监督微调→强制对比模式强化学习→自适应模式选择强化学习 [17][24][25] 性能表现 - 在SUP-AD数据集上,首帧联合准确率61.42%(无工具)和70.11%(有工具),序列平均准确率38.03%和44.06% [27] - 推理质量评分7.16(无工具)和8.00(有工具),模式选择准确率达65.93% [25][27] - 消融实验显示完整三阶段策略最优,FCM-RL阶段强化单模式能力,AMS-RL阶段优化模式选择 [29] 技术验证 - 视觉工具对SOTA VLMs普遍有效,如Claude Sonnet 4联合准确率提升25.0% [27] - 未经训练的模型使用工具会导致性能暴跌42.1%,而DriveAgent-R1成功将工具转化为性能放大器 [28] - 移除图像输入后性能下降43.1%,证实决策是真正视觉驱动 [30]
智源研究院具身智能大模型研究员岗位开放了 ,社招、校招、实习都可!
自动驾驶之心· 2025-08-01 15:05
招聘信息 - 智源研究院开放具身智能大模型研究员岗位 招聘形式包括社招、校招和实习 [1] - 岗位职责包括具身智能大模型研究开发、模型架构设计优化、前沿技术调研及应用探索 [4] - 要求计算机相关领域硕士学历 精通Python和深度学习框架 具备大模型研究及机器人控制经验 [4] 求职社区资源 - AutoRobo知识星球聚焦自动驾驶/具身智能求职 成员近1000人 涵盖多家头部企业员工及应届生 [6] - 社区提供面试题库、行业研报、谈薪技巧、内推资源及简历优化服务 [6][7][9][15][19][24] - 汇总自动驾驶/具身智能领域100问 涵盖传感器融合、标定、部署等核心技术点 [10][11][12] 行业研究资料 - 社区收录具身智能/机器人领域深度研报 包括技术路线、市场机遇及产业链分析 [15][16][17] - 重点报告涵盖中国具身智能创投、人形机器人量产硬件等方向 [16][17] 面试经验分享 - 整理多企业面经 包括滴滴、英伟达、小米汽车等算法岗及产品岗实战案例 [21][25] - 提供面试技能树梳理、转行经验及面试官建议等宏观指导 [26] - 汇总HR面常见问题及谈薪关键技巧 [24][30] 企业校招动态 - 字节跳动启动2026校招计划 覆盖大模型算法、多模态等方向 工作地含北京/上海/深圳 [8] - 开放实习岗位包括PyTorch框架研发、C++开发等技术岗 [8]
万字长文!首篇智能体自进化综述:迈向超级人工智能之路~
自动驾驶之心· 2025-08-01 07:33
自进化智能体综述核心观点 - 自进化智能体是AI领域从静态模型转向动态持续学习的关键范式转变 旨在解决LLMs在开放环境中无法实时调整参数的瓶颈问题 [2][3][5] - 研究围绕三大基础维度构建框架:进化对象(模型/记忆/工具/架构)、进化时机(测试时内/外)、进化机制(奖励/反馈/搜索等) [2][6][21] - 该领域首次系统性梳理了自进化智能体的算法、评估指标和应用场景 为人工超级智能(ASI)的实现提供路线图 [3][6][52] 进化对象(What to Evolve) - **模型进化**:通过参数微调(SFT/RL)实现推理和行为优化 如AgentGen支持策略网络动态更新 [22][24] - **记忆进化**:长期记忆模块(如Mem0)可存储历史交互数据 支持经验复用和知识迁移 [24][29] - **工具进化**:智能体自主创建/掌握新工具(如Voyager生成代码工具)以扩展能力边界 [24][42] - **架构进化**:单智能体向多智能体系统扩展(如MAS-Zero) 通过协作提升复杂任务处理能力 [24][159] 进化时机(When to Evolve) - **测试时内进化**:任务执行中实时调整(如通过ICL) 典型场景包括动态环境交互和即时错误修正 [25][26][27] - **测试时外进化**:任务间隙离线优化 含监督微调(SFT)和强化学习(RL)两种范式 需平衡计算成本与长期收益 [26][28][33] 进化机制(How to Evolve) - **奖励驱动**:利用标量奖励(如TextGrad)或自然语言反馈引导进化 需注意奖励稀疏性问题 [31][32][36] - **模仿学习**:通过高质量示范(人类/智能体生成)快速提升能力 但依赖数据多样性 [32][36] - **群体进化**:多智能体系统(如AlphaEvolve)采用选择/变异机制 促进策略创新但计算成本高 [32][36][61] 应用场景 - **通用领域**:编程(Voyager自动生成代码)、教育(个性化学习助手)等数字环境任务 [38][42] - **专业领域**:医疗(WIN-GPT电子病历分析)、科研(文献自动归纳与实验设计)等高专业性场景 [43][47] 未来挑战 - **个性化进化**:需解决冷启动问题 开发轻量级评估指标以跟踪长期用户偏好适应 [43][44] - **安全可控性**:构建"智能体宪法"框架 防止有害行为生成和隐私泄露 [49][50] - **多智能体协同**:平衡个体推理与群体决策 开发动态评估基准反映长期交互效应 [51]
聊聊算法秋招岗该如何准备?2025我的秋招总结~
自动驾驶之心· 2025-08-01 07:33
求职视频课程 - 提供小厂、大厂面试、秋招校招准备、公司选择等求职指导 [1] - 涵盖大模型、自动标注、端到端岗位介绍与分析 [1] - 针对算法岗竞争激烈现状提供行业、岗位、工作内容的教学视频 [1] AutoRobo知识星球 - 专注自动驾驶、机器人、大模型求职社区 成员近1000人 [4] - 成员包括智元机器人、地平线、华为、小米汽车等公司社招及2024/2025秋招学生 [4] - 提供面试题目、面经、行业研报、谈薪技巧、内推及简历优化服务 [4] 招聘信息 - 实时分享算法、开发、产品等校招、社招、实习岗位 [5] 面试资源 - 汇总自动驾驶、具身智能领域100问实战干货 [7] - 细分方向包括毫米波融合、BEV感知、轨迹预测等20+专题 [10] - 收录滴滴、英伟达、小米汽车等公司算法岗面经案例 [18][19] 行业研究 - 提供机器人、具身智能领域深度研报如《中国人形机器人发展蓝皮书》 [13][14] - 分析行业技术路线、发展前景及上下游产业链 [13] 求职辅助 - 整理成功与失败面试经验 覆盖社招、校招全流程 [16] - 包含岗位谈薪技巧、HR面问题汇总等实用内容 [22] - 提供转行心得、面试官建议等宏观视角分析 [21][22]
一文尽览!扩散模型在自动驾驶基础模型中的应用汇总,30+工作都在这里了~
自动驾驶之心· 2025-08-01 07:33
扩散模型在自动驾驶领域的应用 - 扩散模型凭借多模态建模能力,能从复杂数据分布中生成多样性强、符合物理约束的结果,为自动驾驶系统提供新解决方案 [2] - 在自动驾驶领域可显著提升数据多样性、增强感知系统鲁棒性,并有效辅助决策模块处理各类不确定性 [3] - 已成为自动驾驶基础模型重要一环,包括提升三维占用预测精度、驾驶场景精准图像翻译、车辆轨迹预测等核心功能 [3][4] 关键技术突破 - 双条件时间扩散模型(DcTDM)通过引导帧转换结合双条件增强时间一致性,生成长达40秒的连贯驾驶视频,性能优于其他模型25%以上 [3] - DriveSceneDDM数据集包含文本场景描述、密集深度图和坎尼边缘数据,为长时间驾驶视频生成提供全面支持 [3] - 扩散模型在三维占用预测中显著优于传统方法,尤其在处理遮挡或低可见度区域表现突出 [4] 多模态数据生成 - 扩散模型有效解决自然驾驶数据集多样性不足问题,为自动驾驶验证提供高质量合成数据 [4] - 可控生成技术对解决3D数据标注挑战尤为重要,未来将探索视频生成进一步提升数据质量 [4] - 条件扩散模型应用于驾驶场景精准图像翻译,帮助系统更好理解和适应各种道路环境 [4] 感知与决策优化 - 稳定扩散模型可高效完成车辆轨迹预测任务,生成高精度运动轨迹预测结果 [4] - DiffusionDrive框架利用扩散模型对多模态动作分布的建模能力,实现端到端自动驾驶创新应用 [4] - 通过多模态锚点和截断扩散机制处理驾驶决策中的不确定性 [4] 行业研究进展 - 东北大学提出的DcTDM模型在ICRA2025中稿,展示扩散模型在长时间驾驶视频生成的突破 [3][5] - 香港科技大学等机构提出LD-Scene框架,融合大语言模型与潜在扩散模型实现用户可控对抗性场景生成 [9] - 西安交通大学团队开发DualDiff模型,在FID分数上达到最先进水平,BEV分割任务性能显著提升 [15][18]
高保真实景还原!最强性价比3D激光扫描仪~
自动驾驶之心· 2025-08-01 07:33
产品概述 - GeoScan S1是国内目前最强性价比实景三维激光扫描仪,轻量化设计,一键启动,提供高效实用的三维解决方案 [1] - 以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构,可广泛用于多种作业领域 [1] - 设备自带手持Ubuntu系统和多种传感器设备,手柄集成电源,为雷达、摄像头及主控板供电 [1] 技术参数 - 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景 [1][24] - 相对精度优于3cm,绝对精度优于5cm,支持彩色点云输出及多种通用数据格式(pcd, las, plv等) [17] - 尺寸14.2cm*9.5cm*45cm,重量1.9kg(含电池),续航3-4小时,存储容量256G [17] - 搭载Intel N5095处理器(4核2.0GHz)、16G内存、千兆网口及双USB 3.0接口 [17][18] 核心功能 - 多传感器融合(激光雷达、IMU、RTK、双广角相机等),微秒级数据同步,实时输出高精度点云数据 [8][29][30] - 支持离线/在线3D高斯渲染版本,实现高保真实景还原 [2][46] - 跨平台集成,适配无人机、无人车、机械狗等多种负载平台,实现无人化作业 [39] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂室内外场景 [33][42] - 地理信息数据采集、城市规划、文物修复研究、虚拟现实等领域 [48][50] 价格与版本 - 基础版19800元,深度相机版23800元,3DGS在线版39800元,离线版67800元 [53][54] - 首发优惠提供1年售后服务,支持定制化需求 [54] 研发背景 - 由同济大学刘春教授团队与西北工业大学产业化团队合作开发,经过上百个项目验证 [4]
从今年的WAIC25看具身智能的发展方向!
自动驾驶之心· 2025-07-31 18:00
具身智能行业发展现状 - 2023年WAIC大会具身智能参展公司数量显著增加,产品形态多样化,包括宇树铁甲拳王等敏捷型机器人[1] - 移动操作机器人应用场景扩展至服务和工业领域,但双臂系统在人工干预场景下仍存在认知障碍和鲁棒性问题[3] - 灵巧手技术取得进展,傲意科技等公司产品已实现触觉和力控方案标配化,市场出货表现良好[7] - 人形机器人自主决策能力仍处于初级阶段,医疗领域应用demo功能简单,多数产品依赖遥控操作[8] - 行业从demo展示转向产业闭环,技术路线呈现大模型融合趋势,30+公司推进全栈商业化进程[8][22] 技术发展动态 - 视觉-语言-动作(VLA)模型取得突破:SafeVLA成为首个安全架构,BridgeVLA实现32%真机性能提升[11] - 3D视觉定位技术TSP3D实现高效化,视触力觉融合框架RDP推动多模态感知发展[12] - 全球最大双臂机器人扩散大模型问世,GaussianProperty实现零样本物体材质重建[14] - 具身4D世界模型EnerVerse和空间智能框架HYPERmotion推动决策系统升级[13][14] - 异构操作系统EMOS和时空约束检测范式提升机器人系统可靠性[12][13] 产业生态建设 - 具身智能之心社区汇聚近200家机构,覆盖斯坦福、清华等高校和优必选、小米等企业[21][22] - 社区建立40+开源项目库和60+数据集,提供47类技术路线包括VLA、Diffusion Policy等[22][23] - 行业岗位需求集中在多模态大模型(40-80k/月)和强化学习方向,要求具备ICRA等顶会论文经验[15] - 建立覆盖零部件品牌、仿真平台、研报资料的产业数据库,汇总30+头部公司信息[28][35][43] - 形成高校-企业人才输送机制,提供岗位内推和项目对接服务,加速技术商业化[13][20] 技术应用方向 - 医疗康复领域展示认知障碍辅助demo,但替代护工功能仍需技术突破[8] - 工业场景移动操作双臂系统面临动态环境适应性挑战[3] - 仿真环境项目成为研究热点,Isaac Sim等平台支持无实物设备开发[78][79] - 导航领域应用视觉语言模型(VLN),MapNav创新记忆表征方法提升性能[11] - 触觉感知技术形成完整技术路线,涵盖传感器应用和多模态算法集成[53][47]