数据驱动方法
搜索文档
Momenta智驾方案解析
自动驾驶之心· 2026-01-09 08:47
Momenta无地图自动驾驶解决方案概述 - 公司提出了一种不依赖高精地图的自动驾驶解决方案,通过多传感器融合与实时环境感知实现导航[4] - 该方案通过数据采集、感知处理、定位计算、路径规划与控制等步骤实现完整自动驾驶功能[4] - 系统使用多摄像头、激光雷达、雷达、IMU、轮速传感器和GNSS接收器进行360度环境感知,其中多摄像头提供视野,激光雷达和雷达提供用于构建3D环境模型的点云数据[5] - 感知模块运用计算机视觉和深度学习算法进行物体检测、分类和跟踪,并融合多传感器数据生成实时更新的局部地图,包含可行驶区域、车道线和障碍物位置[5] - 定位模块融合IMU、轮速和GNSS数据,通过SLAM等算法计算车辆在"Boot Frame"中的精确姿态,在无地图模式下主要依赖传感器融合和实时环境特征匹配[5] - 规划模块根据导航系统提供的全局路线和局部地图生成详细行驶轨迹,并考虑交通规则、障碍物避让和乘客舒适度,其所需的SD Map仅包含基本道路拓扑信息,降低了对高精度细节数据的依赖[5] DDLD(数据驱动地标检测)系统 - DDLD是一种基于数据驱动方法的地标检测系统,用于自动驾驶中道路元素的自动识别与定位[8] - 系统采用以自车为中心的感知框架,将自车作为坐标系原点来检测周围环境[9] - 系统分层检测三类主要地标:车道中心线、车道边界和道路边界,同时还能检测停止线、人行横道等其他道路标记[10] - 检测输出为一系列的点集或贝塞尔曲线参数,直接描述地标的几何形状[29] - 整个系统构成一个庞大的数据飞轮和自动化流水线,旨在低成本、高效率地获取海量高精度标注数据[14] DDLD系统工作流程 - 第一阶段为DDLD地图生产(初始地图构建):派遣专业测绘车进行多次数据采集,采集数据包括多摄像头视频、高精度轨迹和语义点云[18] - 通过多行程重建将同一路段多次采集的数据进行融合,构建更完整精确的环境模型[18] - 在重建的融合数据上运行训练好的DDLD检测模型,离线检测所有地标,以追求更高精度[18] - 经过人工质检后,生成带有时空信息的高精度"DDLD地图"作为系统产出的真值[15] - 第二阶段为自动标注流水线(数据飞轮循环):量产车在路测和日常行驶中不断收集新的行程数据[17] - 系统判断新行驶路径是否已被现有DDLD地图覆盖,这是一个关键决策点[25] - 若路径已被覆盖,系统执行高精度重定位,以厘米级精度确定车辆在地图中的位置,并将地图中存储的地标矢量反向投影到新采集的数据中,从而自动生成完美标注,无需人工干预[25] - 若路径未被覆盖,数据则被送回第一阶段的DDLD地图生产流水线,以扩展地图覆盖范围[19] DDLD模型架构 - 模型架构包括特征提取(编码阶段)、查询与解码(解码阶段)以及预测头(输出阶段)[22][23][28] - 特征提取阶段包含图像编码器和可选的地图编码器,图像编码器使用主干网络或视觉Transformer从原始图像中提取视觉特征,地图编码器允许模型融合上下文先验知识[26] - 图像特征和可选的地图特征会被融合,形成统一的"Map Feature"作为解码器的上下文信息[22] - 解码阶段使用一组可学习的查询,而非传统的锚框或非极大值抑制[23] - 模型预设三组不同的查询:车道图查询、车道边界查询和道路边界查询,用于预测不同类别的结构[30] - 通过Transformer解码器层的交叉注意力机制,每个查询从特征图中收集相关信息,并经过迭代优化[30] - 优化后的查询被送入对应的预测头(车道图头、车道边界头、道路边界头),解码为具体的结构化输出[30] 深度学习规划(DLP)方案 - 针对传统规划方法(如基于优化的方法易陷入局部最小值,基于搜索的方法计算复杂度高)的局限性,公司提出了深度学习规划作为更高效的解决方案[32][33] - 规划被描述为一个高维动作空间中的时空联合搜索问题,传统规划器因在线计算资源有限而不得不牺牲最优性[35] - DLP系统的输入包括五类关键信息:全局路径信息、自车历史轨迹信息与用户设置、历史交通灯信息、静态地标(车道中心线/边界/道路边界)以及动态目标的历史轨迹信息[36][38] - 系统的输出包括两部分:为自车规划的轨迹点、预测的其他交通参与者轨迹点,以及高级驾驶行为决策[36][37] - 驾驶行为决策被建模为分类问题,使用softmax分类输出车道选择得分,使用sigmoid分类输出绕行得分等二元决策置信度[38] - DLP模型架构包含多模态感知信息整合输入层、Transformer编码器进行多模态特征编码、以及Transformer解码器进行决策与轨迹生成[41] - 模型通过生成式预训练、模仿学习和强化学习相结合的方式进行训练[47] 数据闭环与管道 - 公司构建了强大的自动化数据生产流水线来确保深度学习模型的数据质量[44] - 针对数据不平衡问题,采用细粒度挖掘数据管道,从海量数据中主动挖掘稀有但重要的场景(如紧急切入、行人突然闯入)[45] - 针对仿真中的数据分布漂移问题,采用仿真事件生成数据管道,当模型在仿真中犯错时自动生成带有正确标签的新数据以加入训练集[45] - 针对冲突数据(标注错误或矛盾),采用坏数据过滤数据管道,使用规则或噪声检测模型识别并过滤低质量数据[45] - 针对数据匮乏问题,采用仿真事件生成数据管道,利用仿真器大规模生成现实世界中罕见的长尾场景数据[45] - 基础数据质量过滤管道执行最基本的清洗,过滤掉格式错误、数据缺失或明显超出物理极限的无效数据[48] - 细粒度挖掘管道根据场景复杂性、罕见性或模型不确定性,从日志数据中筛选高价值片段供模型重点学习[49] - 坏数据过滤管道识别并移除内部不一致的数据样本以保证数据集纯净度[54] - 仿真真值生成管道在仿真中使用更强大的规划器或专家规则生成最优轨迹作为场景的真值标签[54] - 仿真事件生成管道通过调整参数或使用对抗学习技术,主动生成能暴露当前规划模型弱点的边缘案例场景[54] Cut-In场景效果验证 - 选择"Cut-In"(其他车辆切入)场景进行重点测试,因其高动态性和决策冲突能有效验证深度学习规划方案解决传统框架痛点的能力[53] - 评估指标分为安全指标与舒适指标两大类[53] - 安全指标包括"每次干预的计数"(平均每次人类接管前模型成功处理Cut-In的次数)和"成功率"(模型未发生碰撞且无需接管的比例)[55] - 舒适指标包括"每次问题的计数"(平均每次出现舒适性问题的间隔)和"成功率"(未引发不舒适急刹等行为的比例)[59] - 构建了三个针对性数据集:包含常规车辆切入场景的CutIn数据集、包含各种卡车/挂车切入场景的卡车/挂车CutIn数据集、以及包含与Cut-In相似但无需强烈制动事件的误刹数据集[59] - 实验结果显示,在常规切入数据集上,DLP方法的"每次干预的计数"为33.3,成功率为97%,相比传统方法(9.9 / 90%)有显著提升[58] - 在卡车/挂车切入数据集上,DLP方法的"每次干预的计数"为25.0,成功率为96%,相比传统方法(7.0 / 86%)提升更为明显[61] - 在误刹数据集上,DLP方法的"每次问题的计数"为4.2,成功率为76%,相比传统方法(2.0 / 50%)在舒适性上实现了巨大进步[61] - DLP在安全性上可靠性大幅提升,"每次干预的计数"提升了约2.3到3.4倍,在更具挑战性的卡车/挂车切入场景中成功率提升10个百分点[65] - DLP在舒适性上实现了质的飞跃,成功率从50%提升至76%,"每次问题的计数"翻倍,减少了约一半的不必要急刹车,驾驶行为更拟人化[65] DDPF(数据驱动位姿融合)定位技术 - DDPF是自动驾驶定位模块的核心组成部分,属于底层状态估计,负责输出车辆短时间内的精确运动变化和相对于地面的姿态[66] - 输入来自车辆底盘和惯性传感器的原始时序信号,包括IMU(提供三轴加速度和角速度)、轮速脉冲、转向角和电机速度[69] - 输出包括相对位姿变化(旋转矩阵变化ΔR和平移向量变化Δt)以及绝对地面姿态角(滚转角和俯仰角)[69] - 作为数据驱动方法,DDPF的优势在于能从海量数据中学习真实的传感器误差模型、处理非线性与标定误差、具有更强鲁棒性,并进行端到端优化[69] - DDPF旨在解决传感器固有缺陷(如IMU噪声与漂移、轮速传感器在极低速下失效)、复杂运动学建模困难(如车辆侧滑、停车大侧滑角)以及工程部署难题(为不同传感器组合手动调参)[70][74] - 通过学习真实运动响应,DDPF能处理包括大侧滑角在内的复杂车辆动态,并实现一套模型适配多套传感器,减少部署调参工作量[75] DDPF网络架构与评估 - 网络采用多传感器并行编码设计,为陀螺仪、加速度计、轮速、车轮角度等信号设计独立的编码器进行特征提取[76][79] - 特征融合阶段需要解决不同采样率信号的时间对齐问题,并学习不同模态特征间的互补关系[77] - 融合后的特征通过解码网络处理,最终以回归形式输出6自由度位姿(位置和姿态)[77] - 架构设计具有模态专用性、端到端学习、能处理非线性与依赖关系以及适应复杂运动学等优势[79] - 使用相对位置误差(RPE)评估定位性能,通过比较真值轨迹和模型轨迹在等长段上的相对位移向量来揭示系统在动态运动中的漂移或尺度偏差[82][86] 自动驾驶技术演进路径 - Algorithm 2.0阶段为模块化数据驱动感知,感知任务被拆分为独立的数据驱动模块,规划则基于规则[90][92] - Algorithm 3.0阶段为感知序列任务整合,将与时序相关的感知任务(融合、跟踪、预测)整合成统一的端到端数据驱动模型,规划开始向数据驱动演进[90][92] - Algorithm 4.0阶段为全感知任务整合,将所有感知任务整合进一个统一的4D感知模型,规划实现全数据驱动并能处理复杂认知任务[90][92] - Algorithm 5.0阶段为感知与规划大一统,将感知与规划整合进单一的数据驱动模型,实现从原始传感器数据直接输出驾驶动作或轨迹的端到端系统[90][92] - 技术路径的关键转变包括:从任务独立模块逐步整合为端到端系统、从规则驱动转变为数据驱动、从输出环境感知表征演变为直接输出行动决策[97] - 随着系统整合,评估重点从早期的底层感知指标(如RPE)转向更高层的规划质量(如舒适性、安全性)[97]
Nature Communications发表!北大团队用可解释模态分解方法赋能侧线感知,实现机器鱼高精度、多场景运动估计!
机器人大讲堂· 2025-09-14 12:06
研究突破 - 北京大学团队提出融合模态分解与物理建模的可解释数据驱动框架 解决仿生机器鱼自主运动状态估计难题 [1] - 方法基于人工侧线传感器时空压强数据 通过本征正交分解提取主导模态并结合Lighthill压强理论解释物理含义 [2] - 框架在动态摆动参数 不同鱼体形态及尾流干扰复杂流场中均展现出色鲁棒性与泛化能力 [4] 技术原理 - 压强数据分解为三个主导模态 分别对应鱼体前进运动 摆动运动及两者耦合产生的压强变化 [6] - 代表前进运动的模态系数与游动速度呈显著二次函数关系 可直接用于速度和轨迹精确估计 [10] - 基于模态信息预测最少传感器数量及最优位置 并通过流场可视化解析分布特点及流体力学原理 [13] 应用价值 - 为水下仿生机器人提供高效可靠自主感知策略 开辟人工侧线系统设计与应用新思路 [4] - 适用于不同形态鱼类模型包括盒子鱼形和鳗鱼形 展现跨形态通用性 [14] - 推动仿生技术与数据驱动方法融合 为水下机器人智能化自主化协同化发展开辟新技术路径 [16]
华人学者发表Nature封面论文:AI从头设计水凝胶,在水中也能保持超强粘性
生物世界· 2025-08-07 12:02
超强粘性水凝胶的AI驱动设计 - 研究团队通过AI模型辅助设计出能在水中保持粘性的超强粘性水凝胶 灵感来源于自然界黏附蛋白 该水凝胶可修补水管漏洞并实现水下物体粘附 [3][4] - 封面论文展示的R1-max水凝胶能将橡胶小黄鸭牢固粘附在海洋礁石上 经受海浪和潮汐冲击 [8] - R2-max水凝胶作为补丁成功封堵直径20毫米的注水管道漏洞 防漏效果持续5个月以上 [13] 技术突破与设计方法 - 采用数据驱动方法分析24707种天然黏附蛋白氨基酸序列 识别关键特征后指导设计180种水凝胶 [10] - 通过机器学习建立粘合剂强度数据库 优化后生成更强水下粘合剂 [10][13] - 克服传统水凝胶设计的复杂性:需同时调控化学基团多样性 二级结构 分子构象 流变学特性及溶胀行为 [9] 应用前景 - 生物医学领域潜力:假体涂层 可穿戴生物传感器 手术封合 伤口愈合等场景 [15] - 工业及环境领域:适用于潮湿条件下需稳定粘附的场景 如船舶维修 海上结构维护 [15] - 标志性意义:AI从试探性工具升级为材料设计的核心驱动力 改变科研范式 [15] 研究背景与挑战 - 传统水凝胶开发依赖试错法 成本高且周期长 限制临床及工业化应用 [2] - AI此前多用于刚性无机材料设计 水凝胶因多参数耦合导致预测难度显著提升 [8][9] - 关键瓶颈:缺乏涵盖水凝胶化学/物理参数的训练数据集 [9]
SLAM的最终形态应该是什么样的?
自动驾驶之心· 2025-08-06 11:25
SLAM技术本质 - 建图过程本质是将传感器数据转化为地图或模型 无需拘泥于形式或可视化呈现 [3] - 定位过程本质是利用地图模型和传感器数据连续输出位置姿态 计算方式不影响核心功能 [5] - 技术命名差异不影响功能本质 关键在于输入输出的数据连续性 [6] 传统SLAM方法瓶颈 - 技术原理停滞不前 主要精力集中于处理极端案例 存在无法突破的固有局限 [7] - 性能提升与数据规模不相关 缺乏 scalability [7] 新兴数据驱动方法挑战 - 泛化能力受限 性能高度依赖数据分布 传统方法具有普适性优势 [12] - 实时性不达标 建图需100ms/帧 定位需20ms/帧的千元级硬件标准尚未实现 [12] - 故障诊断困难 缺乏传统方法的可调试性 依赖数据增量解决问题 [12] 技术发展前景 - 数据驱动将成为主流 百万级参数调优将取代人工噪声调整 [13] - 当前技术处于过渡期 新旧方法各有70%左右场景覆盖率 但商业化需要100%可靠场景 [13] - 发展瓶颈在于数据规模不足 缺乏数十TB带真值pose的训练数据集投入 [13] 硬件设备进展 - 出现多传感器融合的3D扫描仪解决方案 集成激光雷达/IMU/RTK/视觉等多模态感知单元 [14]
李飞飞最新YC现场访谈:从ImageNet到空间智能,追逐AI的北极星
创业邦· 2025-07-02 17:49
ImageNet与深度学习革命 - ImageNet通过提供大规模高质量标记数据集(80000+次引用)为神经网络成功奠定基础 开创数据驱动范式转变[8][9] - 项目历时18年孵化 初期算法错误率达30% 直到2012年AlexNet结合GPU算力实现突破性进展[11][14][16] - 采用开源策略和挑战赛形式推动社区共建 加速计算机视觉从物体识别向场景描述演进[12][17][19] 空间智能与World Labs布局 - 三维世界理解被定义为AI下一前沿 进化史长达5.4亿年 远超语言进化维度[24][25] - World Labs聚焦构建3D世界模型 团队集结NERF作者等顶尖人才 解决组合复杂度更高的空间智能问题[25][27][28] - 应用场景覆盖元宇宙内容生成 机器人学习 工业设计等 需突破硬件与内容创作双重瓶颈[30][32] 人工智能发展路径 - 视觉智能发展轨迹清晰:物体识别→场景叙事→空间智能 每阶段需5-10年技术积累[17][19][22] - 语言模型与视觉模型存在本质差异 前者依赖序列数据 后者需处理不适定的3D→2D投影问题[27][28] - AGI定义存在争议 但空间智能被视为实现通用智能不可或缺的组成部分[23][44] 创新方法论 - "智识上的无畏"被反复强调为突破性创新的核心特质 贯穿从学术研究到创业全过程[6][37][42] - 数据质量优先于数据规模 需采用混合方法获取高质量3D空间数据[47][48] - 跨学科研究与小数据理论被视为学术界可突破的潜在方向[41][42] 行业生态观察 - 开源策略应根据商业模型差异化选择 Meta等平台型企业更倾向全面开源[46] - 学术机构在计算资源劣势下 需聚焦工业界尚未关注的底层理论问题[41][42] - 硬件迭代与生成模型结合将推动元宇宙等场景落地[30][32]