自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

自动驾驶之心· 2025-08-02 00:03

自动驾驶数据闭环工程 - 数据闭环是涵盖数据采集、标注、训练、仿真验证到OTA更新的完整生命周期而非简单的数据收集与回放 [3] - 自动驾驶从L2向更高级别演进过程中数据量呈指数级增长场景覆盖广度与深度决定系统安全性 [3] - 行业正经历从"功能堆砌"到"安全为本"的转变需建立科学验证标准并平衡迭代速度与系统稳定性 [3] 数据闭环核心痛点 - 长尾问题：极端场景（如极端天气、复杂路况）发生概率低但安全影响大捕捉和纳入训练体系难度高 [3] - 数据处理效率：单车每日产生TB级数据需解决海量数据筛选、标注和利用的效率瓶颈 [3] - 验证难题：传统测试方法覆盖不足需优化仿真测试与实车验证的科学互补机制 [3] 行业技术动态 - 复旦BezierGS利用贝塞尔曲线实现驾驶场景SOTA重建 [7] - 清华与博世联合开源纯血VLA框架Impromptu-VLA 性能达SOTA水平 [7] - 清华与吉利开发Challenger框架可高效生成自动驾驶对抗场景 [7] 行业活动与测试 - 懂车帝联合央视新闻及公安部交管局开展辅助驾驶测试技术角度客观讨论测试结果 [4] - 一线量产数据专家Ethan将探讨自动驾驶数据闭环的工程化落地挑战 [3]

智元机器人罗剑岚老师专访！具身智能的数采、仿真、场景与工程化~

自动驾驶之心· 2025-08-02 00:03

具身智能数据讨论 - 公司与多家传感器供应商合作，重点研发视觉触觉与高密度传感器，并构建跨平台数据采集API以实现标准化数据输入[2] - 机器人应用需达到95%成功率才能满足家庭场景需求，当前性能优化是主要门槛[2] - 仿真数据用于模型迭代但大模型训练100%使用真机真实数据，仿真流水线在扩展性上存在瓶颈[2][3] - 合成数据仅用于工程迭代与模型调试，发布与部署阶段完全依赖真实场景数据[3][4] - 真实数据成本核心在于缺乏标准化机制，公司尝试通过远程摇操、自动部署机器人等方式建立自动化数据采集闭环[6] - 机器人数据瓶颈与自动驾驶不同，需解决数据稀缺、性能优化及工程伦理等多方面挑战[7] 具身大模型评估 - 行业缺乏通用benchmark，公司计划搭建统一真机测试场供不同模型评估[8][9] - 评估维度包括具身技术路线与性能表现，当前从Demo炫技转向产业闭环但仍面临工程复杂性等挑战[9] - 公司世界模型基于统一平台，能生成视频、评测模型并训练策略，处理复杂场景能力较强[10] - VLA路线需结合大模型与优化策略，机器人执行要求远高于ChatGPT的50%-60%准确率[11] - 中美差异：美国重算法创新与开源生态，中国在工程集成与规模部署上更具优势[12] 遥操作vs自主决策 - 自主决策需机器人理解世界、生成策略并执行任务，关键技术门槛在于多模态信息融合与高成功率[13][14] - 当前"失控"问题源于软件设计不完善而非机器人意识，公司通过模拟测试与安全机制确保安全[14] - 数据积累路径从垂直场景逐步过渡到通用场景，无法直接实现通用能力[15] 具身智能应用场景与落地 - 场景部署流程分为任务建模、场景迁移、场景适配与安全验证四步，强调软硬件协同与人机安全[17][18] - 工业结构化环境更易落地，需满足近乎100%的性能要求，家庭场景因复杂性长期市场更大[20][21] - 工业场景中VLA需结合大模型与优化策略，相比传统方案具备更强泛化能力与更低调试成本[23] - 人形机器人技术路线未收敛，公司同时依赖外部厂商与自研技术探索模块化标准[23] - 家庭环境异质性带来工程挑战，需通过垂直场景数据积累逐步演化通用能力[23] - 执行速度慢源于模仿学习局限，需引入专门优化训练而非仅模仿原始操作[24] 具身未来展望 - 追求DeepSeek moment即高成功率+泛化能力+速度的统一提升，而非ChatGPT式低成功率泛化[26] - 数据驱动成为科学范式，通过大规模数据与统计验证建立结论[27] - 未来架构可能超越Transformer，类脑架构更贴近生物大脑处理模型[28] - 传感器选择关键在"对的传感器"而非数量，方法论与算法架构更重要[28] 具身软硬件协同 - 公司构建平台化操作系统（类似"机器人Android"）为硬件与传感器提供统一接口[30] - 行业需开放合作共建生态，单靠操作系统无法推动性能级模型创新[31][32]

ACM MM'25 | 自驾2D目标检测新SOTA！超越最新YOLO Series~

自动驾驶之心· 2025-08-02 00:03

自动驾驶目标检测技术 - 当前主流架构如YOLO、DETR在追求轻量化和速度时牺牲了特征一致性与层次表达能力，难以兼顾小目标检测与复杂场景理解[2] - 频率混叠和融合过程僵化是现有Neck结构的主要问题，导致特征表达能力下降和检测器感知能力受限[9][10] - Butter框架通过解耦式设计实现精度与效率的统一，在Neck层引入频率一致性增强模块和渐进式层次特征融合网络[11] Butter框架核心技术 - 频率一致性增强模块(FAFCE)融合高频细节增强与低频噪声抑制，提升边界分辨率[3][20] - 渐进式层次特征融合网络(PHFFNet)逐层融合语义信息并引入空间感知机制，强化多尺度特征表达[3][29] - Backbone采用轻量化改进的HGNetV2，使用GhostConv、RepConv等模块减少参数量，提升推理效率[17] 性能表现 - 在KITTI数据集上mAP@50达到94.4%，比TOD-YOLOv7高出1.2个百分点，计算量仅为后者约1/3[32] - 在BDD100K和Cityscapes数据集上分别取得53.7%和53.2%的mAP@50，显著优于Hyper-YOLO-S方法[32] - 参数量比Hyper-YOLO-S减少约64%，显示更优的部署适应性[32] 技术细节 - FAFCE模块通过高频增强与低频抑制两种机制提升多尺度特征融合准确性[20] - PHFFNet采用从低层向高层的逐级融合策略，缓解非相邻层间语义差异[29] - 引入空间动态权重机制(CASF)动态分配不同空间位置的多层特征权重[31] 应用前景 - 方法具备良好的通用性与部署适配性，适用于主流SOTA检测器[15] - 具备轻量化潜力，可用于高性能自动驾驶视觉系统部署[15] - 在复杂道路场景中实现高精度目标检测与结构感知[14]

告别被动感知！DriveAgent-R1：主动视觉探索的混合思维高级Agent

自动驾驶之心· 2025-08-01 15:05

核心观点 - DriveAgent-R1是一款为解决长时程、高层级行为决策挑战而设计的先进自动驾驶智能体，通过混合思维和主动感知机制推动基于VLM的自动驾驶发展 [3][4] - 该智能体在SUP-AD数据集上取得SOTA性能，超越Claude Sonnet 4等顶尖多模态大模型，首帧联合准确率达61.42%，启用工具后提升至70.11% [4][27] - 创新性地提出三阶段渐进式强化学习策略和模式分组GRPO算法，将工具使用从性能干扰源转化为性能放大器，序列平均准确率提升15.9% [4][28] 技术架构 - 基于Qwen2.5-VL-3B模型构建，处理6个环视摄像头低分辨率图像、车速和导航指令，生成未来8秒驾驶意图决策 [11] - 决策由4个时间步(每步2秒)的离散元动作序列组成，包含速度和轨迹两部分 [11] - 集成视觉工具箱：高分辨率视图获取、关键区域检查、深度估计和开放词汇表3D物体检测 [19] 核心创新 - 混合思维框架：智能体根据场景复杂度在纯文本推理和工具辅助推理间自适应切换 [5][18] - 主动感知机制：配备视觉工具箱主动探查环境解决感知不确定性 [5][16] - 三阶段训练策略：双模式监督微调→强制对比模式强化学习→自适应模式选择强化学习 [17][24][25] 性能表现 - 在SUP-AD数据集上，首帧联合准确率61.42%(无工具)和70.11%(有工具)，序列平均准确率38.03%和44.06% [27] - 推理质量评分7.16(无工具)和8.00(有工具)，模式选择准确率达65.93% [25][27] - 消融实验显示完整三阶段策略最优，FCM-RL阶段强化单模式能力，AMS-RL阶段优化模式选择 [29] 技术验证 - 视觉工具对SOTA VLMs普遍有效，如Claude Sonnet 4联合准确率提升25.0% [27] - 未经训练的模型使用工具会导致性能暴跌42.1%，而DriveAgent-R1成功将工具转化为性能放大器 [28] - 移除图像输入后性能下降43.1%，证实决策是真正视觉驱动 [30]

智源研究院具身智能大模型研究员岗位开放了，社招、校招、实习都可！

自动驾驶之心· 2025-08-01 15:05

招聘信息 - 智源研究院开放具身智能大模型研究员岗位招聘形式包括社招、校招和实习 [1] - 岗位职责包括具身智能大模型研究开发、模型架构设计优化、前沿技术调研及应用探索 [4] - 要求计算机相关领域硕士学历精通Python和深度学习框架具备大模型研究及机器人控制经验 [4] 求职社区资源 - AutoRobo知识星球聚焦自动驾驶/具身智能求职成员近1000人涵盖多家头部企业员工及应届生 [6] - 社区提供面试题库、行业研报、谈薪技巧、内推资源及简历优化服务 [6][7][9][15][19][24] - 汇总自动驾驶/具身智能领域100问涵盖传感器融合、标定、部署等核心技术点 [10][11][12] 行业研究资料 - 社区收录具身智能/机器人领域深度研报包括技术路线、市场机遇及产业链分析 [15][16][17] - 重点报告涵盖中国具身智能创投、人形机器人量产硬件等方向 [16][17] 面试经验分享 - 整理多企业面经包括滴滴、英伟达、小米汽车等算法岗及产品岗实战案例 [21][25] - 提供面试技能树梳理、转行经验及面试官建议等宏观指导 [26] - 汇总HR面常见问题及谈薪关键技巧 [24][30] 企业校招动态 - 字节跳动启动2026校招计划覆盖大模型算法、多模态等方向工作地含北京/上海/深圳 [8] - 开放实习岗位包括PyTorch框架研发、C++开发等技术岗 [8]

万字长文！首篇智能体自进化综述：迈向超级人工智能之路~

自动驾驶之心· 2025-08-01 07:33

自进化智能体综述核心观点 - 自进化智能体是AI领域从静态模型转向动态持续学习的关键范式转变旨在解决LLMs在开放环境中无法实时调整参数的瓶颈问题 [2][3][5] - 研究围绕三大基础维度构建框架：进化对象（模型/记忆/工具/架构）、进化时机（测试时内/外）、进化机制（奖励/反馈/搜索等） [2][6][21] - 该领域首次系统性梳理了自进化智能体的算法、评估指标和应用场景为人工超级智能（ASI）的实现提供路线图 [3][6][52] 进化对象（What to Evolve） - **模型进化**：通过参数微调（SFT/RL）实现推理和行为优化如AgentGen支持策略网络动态更新 [22][24] - **记忆进化**：长期记忆模块（如Mem0）可存储历史交互数据支持经验复用和知识迁移 [24][29] - **工具进化**：智能体自主创建/掌握新工具（如Voyager生成代码工具）以扩展能力边界 [24][42] - **架构进化**：单智能体向多智能体系统扩展（如MAS-Zero）通过协作提升复杂任务处理能力 [24][159] 进化时机（When to Evolve） - **测试时内进化**：任务执行中实时调整（如通过ICL）典型场景包括动态环境交互和即时错误修正 [25][26][27] - **测试时外进化**：任务间隙离线优化含监督微调（SFT）和强化学习（RL）两种范式需平衡计算成本与长期收益 [26][28][33] 进化机制（How to Evolve） - **奖励驱动**：利用标量奖励（如TextGrad）或自然语言反馈引导进化需注意奖励稀疏性问题 [31][32][36] - **模仿学习**：通过高质量示范（人类/智能体生成）快速提升能力但依赖数据多样性 [32][36] - **群体进化**：多智能体系统（如AlphaEvolve）采用选择/变异机制促进策略创新但计算成本高 [32][36][61] 应用场景 - **通用领域**：编程（Voyager自动生成代码）、教育（个性化学习助手）等数字环境任务 [38][42] - **专业领域**：医疗（WIN-GPT电子病历分析）、科研（文献自动归纳与实验设计）等高专业性场景 [43][47] 未来挑战 - **个性化进化**：需解决冷启动问题开发轻量级评估指标以跟踪长期用户偏好适应 [43][44] - **安全可控性**：构建"智能体宪法"框架防止有害行为生成和隐私泄露 [49][50] - **多智能体协同**：平衡个体推理与群体决策开发动态评估基准反映长期交互效应 [51]

聊聊算法秋招岗该如何准备？2025我的秋招总结~

自动驾驶之心· 2025-08-01 07:33

求职视频课程 - 提供小厂、大厂面试、秋招校招准备、公司选择等求职指导 [1] - 涵盖大模型、自动标注、端到端岗位介绍与分析 [1] - 针对算法岗竞争激烈现状提供行业、岗位、工作内容的教学视频 [1] AutoRobo知识星球 - 专注自动驾驶、机器人、大模型求职社区成员近1000人 [4] - 成员包括智元机器人、地平线、华为、小米汽车等公司社招及2024/2025秋招学生 [4] - 提供面试题目、面经、行业研报、谈薪技巧、内推及简历优化服务 [4] 招聘信息 - 实时分享算法、开发、产品等校招、社招、实习岗位 [5] 面试资源 - 汇总自动驾驶、具身智能领域100问实战干货 [7] - 细分方向包括毫米波融合、BEV感知、轨迹预测等20+专题 [10] - 收录滴滴、英伟达、小米汽车等公司算法岗面经案例 [18][19] 行业研究 - 提供机器人、具身智能领域深度研报如《中国人形机器人发展蓝皮书》 [13][14] - 分析行业技术路线、发展前景及上下游产业链 [13] 求职辅助 - 整理成功与失败面试经验覆盖社招、校招全流程 [16] - 包含岗位谈薪技巧、HR面问题汇总等实用内容 [22] - 提供转行心得、面试官建议等宏观视角分析 [21][22]

一文尽览！扩散模型在自动驾驶基础模型中的应用汇总，30+工作都在这里了~

自动驾驶之心· 2025-08-01 07:33

扩散模型在自动驾驶领域的应用 - 扩散模型凭借多模态建模能力，能从复杂数据分布中生成多样性强、符合物理约束的结果，为自动驾驶系统提供新解决方案 [2] - 在自动驾驶领域可显著提升数据多样性、增强感知系统鲁棒性，并有效辅助决策模块处理各类不确定性 [3] - 已成为自动驾驶基础模型重要一环，包括提升三维占用预测精度、驾驶场景精准图像翻译、车辆轨迹预测等核心功能 [3][4] 关键技术突破 - 双条件时间扩散模型(DcTDM)通过引导帧转换结合双条件增强时间一致性，生成长达40秒的连贯驾驶视频，性能优于其他模型25%以上 [3] - DriveSceneDDM数据集包含文本场景描述、密集深度图和坎尼边缘数据，为长时间驾驶视频生成提供全面支持 [3] - 扩散模型在三维占用预测中显著优于传统方法，尤其在处理遮挡或低可见度区域表现突出 [4] 多模态数据生成 - 扩散模型有效解决自然驾驶数据集多样性不足问题，为自动驾驶验证提供高质量合成数据 [4] - 可控生成技术对解决3D数据标注挑战尤为重要，未来将探索视频生成进一步提升数据质量 [4] - 条件扩散模型应用于驾驶场景精准图像翻译，帮助系统更好理解和适应各种道路环境 [4] 感知与决策优化 - 稳定扩散模型可高效完成车辆轨迹预测任务，生成高精度运动轨迹预测结果 [4] - DiffusionDrive框架利用扩散模型对多模态动作分布的建模能力，实现端到端自动驾驶创新应用 [4] - 通过多模态锚点和截断扩散机制处理驾驶决策中的不确定性 [4] 行业研究进展 - 东北大学提出的DcTDM模型在ICRA2025中稿，展示扩散模型在长时间驾驶视频生成的突破 [3][5] - 香港科技大学等机构提出LD-Scene框架，融合大语言模型与潜在扩散模型实现用户可控对抗性场景生成 [9] - 西安交通大学团队开发DualDiff模型，在FID分数上达到最先进水平，BEV分割任务性能显著提升 [15][18]

高保真实景还原！最强性价比3D激光扫描仪~

自动驾驶之心· 2025-08-01 07:33

产品概述 - GeoScan S1是国内目前最强性价比实景三维激光扫描仪，轻量化设计，一键启动，提供高效实用的三维解决方案 [1] - 以多模态传感器融合算法为核心，实现厘米级精度的三维场景实时重构，可广泛用于多种作业领域 [1] - 设备自带手持Ubuntu系统和多种传感器设备，手柄集成电源，为雷达、摄像头及主控板供电 [1] 技术参数 - 每秒20万级点云成图，70米测量距离，360°全域覆盖，支持20万平米以上的大场景 [1][24] - 相对精度优于3cm，绝对精度优于5cm，支持彩色点云输出及多种通用数据格式（pcd, las, plv等） [17] - 尺寸14.2cm*9.5cm*45cm，重量1.9kg（含电池），续航3-4小时，存储容量256G [17] - 搭载Intel N5095处理器（4核2.0GHz）、16G内存、千兆网口及双USB 3.0接口 [17][18] 核心功能 - 多传感器融合（激光雷达、IMU、RTK、双广角相机等），微秒级数据同步，实时输出高精度点云数据 [8][29][30] - 支持离线/在线3D高斯渲染版本，实现高保真实景还原 [2][46] - 跨平台集成，适配无人机、无人车、机械狗等多种负载平台，实现无人化作业 [39] 应用场景 - 适用于写字楼、停车场、工业园区、隧道、森林、矿场等复杂室内外场景 [33][42] - 地理信息数据采集、城市规划、文物修复研究、虚拟现实等领域 [48][50] 价格与版本 - 基础版19800元，深度相机版23800元，3DGS在线版39800元，离线版67800元 [53][54] - 首发优惠提供1年售后服务，支持定制化需求 [54] 研发背景 - 由同济大学刘春教授团队与西北工业大学产业化团队合作开发，经过上百个项目验证 [4]

从今年的WAIC25看具身智能的发展方向！

自动驾驶之心· 2025-07-31 18:00

具身智能行业发展现状 - 2023年WAIC大会具身智能参展公司数量显著增加，产品形态多样化，包括宇树铁甲拳王等敏捷型机器人[1] - 移动操作机器人应用场景扩展至服务和工业领域，但双臂系统在人工干预场景下仍存在认知障碍和鲁棒性问题[3] - 灵巧手技术取得进展，傲意科技等公司产品已实现触觉和力控方案标配化，市场出货表现良好[7] - 人形机器人自主决策能力仍处于初级阶段，医疗领域应用demo功能简单，多数产品依赖遥控操作[8] - 行业从demo展示转向产业闭环，技术路线呈现大模型融合趋势，30+公司推进全栈商业化进程[8][22] 技术发展动态 - 视觉-语言-动作(VLA)模型取得突破：SafeVLA成为首个安全架构，BridgeVLA实现32%真机性能提升[11] - 3D视觉定位技术TSP3D实现高效化，视触力觉融合框架RDP推动多模态感知发展[12] - 全球最大双臂机器人扩散大模型问世，GaussianProperty实现零样本物体材质重建[14] - 具身4D世界模型EnerVerse和空间智能框架HYPERmotion推动决策系统升级[13][14] - 异构操作系统EMOS和时空约束检测范式提升机器人系统可靠性[12][13] 产业生态建设 - 具身智能之心社区汇聚近200家机构，覆盖斯坦福、清华等高校和优必选、小米等企业[21][22] - 社区建立40+开源项目库和60+数据集，提供47类技术路线包括VLA、Diffusion Policy等[22][23] - 行业岗位需求集中在多模态大模型(40-80k/月)和强化学习方向，要求具备ICRA等顶会论文经验[15] - 建立覆盖零部件品牌、仿真平台、研报资料的产业数据库，汇总30+头部公司信息[28][35][43] - 形成高校-企业人才输送机制，提供岗位内推和项目对接服务，加速技术商业化[13][20] 技术应用方向 - 医疗康复领域展示认知障碍辅助demo，但替代护工功能仍需技术突破[8] - 工业场景移动操作双臂系统面临动态环境适应性挑战[3] - 仿真环境项目成为研究热点，Isaac Sim等平台支持无实物设备开发[78][79] - 导航领域应用视觉语言模型(VLN)，MapNav创新记忆表征方法提升性能[11] - 触觉感知技术形成完整技术路线，涵盖传感器应用和多模态算法集成[53][47]