PAGS - 财报，业绩电话会，研报，新闻

PAGS

搜索文档

自动驾驶之心· 2025-10-18 12:00

DriveVLA-W0：世界模型增强自动驾驶VLA - 提出DriveVLA-W0训练范式，通过世界建模预测未来图像提供密集自监督信号，解决VLA模型“监督不足”瓶颈，增强泛化能力与数据扩展性[2][6] - 在NAVSIM v1/v2基准上分别达到93.0 PDMS与86.1 EPDMS，推理延迟降至基线VLA的63.1%[2][6] - 设计轻量级MoE动作专家，将推理延迟降至基线VLA的63.1%[6] - 在70M帧大规模内部数据集上验证数据缩放律放大效应，VQ模型ADE降低28.8%，ViT模型碰撞率降低15.9%[6][9] - 在NAVSIM v1基准上PDMS达93.0%，单摄像头优于多传感器竞品[6][9] CoIRL-AD：协同竞争式模仿强化学习框架 - 提出竞争性双策略框架CoIRL-AD，将模仿学习与强化学习结合在潜在世界模型中[13][15] - 在nuScenes数据集上碰撞率降低18%，在Navsim基准上PDMS得分达88.2[13][15] - 利用潜在世界模型实现基于“想象”的模拟，将强化学习融入端到端自动驾驶框架，无需依赖外部模拟器[15] - 设计基于竞争的学习机制，实现IL与RL的联合训练与结构化互动，避免梯度冲突[15] PAGS：优先级自适应高斯泼溅动态场景重建 - 提出Priority-Adaptive Gaussian Splatting框架，通过语义引导剪枝与正则化实现高质量实时3D重建[23][27] - 在Waymo数据集上达到PSNR 34.63，SSIM 0.933，渲染速度353 FPS，训练时间仅1小时22分钟[23][27][30] - 基于静态语义分数和动态梯度贡献分数的混合重要性度量，简化非关键场景元素，保留安全关键目标细粒度细节[27] - 模型尺寸530 MB，显存占用6.1 GB，优于EmerNeRF、StreetGS等主流方法[27][30] Flow Planner：流匹配自动驾驶规划 - 基于流匹配和交互行为建模技术，在nuPlan Val14基准测试中达到90.43分，是首个无需先验知识突破90分的学习型方法[34][38][40] - 在interPlan基准测试中比Diffusion Planner提升8.92分[34][40] - 提出细粒度轨迹分词技术，将轨迹分解为含重叠区域片段，解决全轨迹建模复杂度高问题[35][40] - 构建交互增强的时空融合架构，通过自适应层归一化将异质特征投影到统一latent空间[40] CymbaDiff：草图驱动3D语义场景生成 - 提出CymbaDiff模型，结合圆柱Mamba结构与空间扩散机制，实现基于草图与卫星图像的3D语义城市场景生成[44][47] - 在Sketch-based SemanticKITTI上FID达40.74，比现有方法提升约16分[44][47] - 构建首个面向3D户外语义场景生成的大规模草图驱动基准数据集SketchSem3D[47] - 设计圆柱曼巴扩散模型，显式编码圆柱连续性与垂直层级，提升空间连贯性[47] DriveCritic：VLM自动驾驶评估框架 - 提出DriveCritic框架，利用视觉语言模型进行上下文感知的自动驾驶评估，在人类偏好对齐任务中达到76.0%准确率[55][57][58] - 揭示现有规则化指标缺乏上下文感知能力与人类对齐性的缺陷[57] - 构建DriveCritic数据集，从NAVSIM采样5730个轨迹对，标注pairwise人类偏好[57] - 采用监督微调加强化学习微调两阶段训练，使模型具备跨视觉符号上下文的轨迹判优能力[57][58]

Reinforcement Learning

Reinforcement Learning

哈工大&理想PAGS：自驾闭环仿真新SOTA！

自动驾驶之心· 2025-10-18 00:04

研究背景与核心问题 - 动态大规模城市环境的3D重建是自动驾驶系统的核心基础，支撑仿真测试、合成数据生成、数字孪生等关键应用 [1] - 现有主流方法（如StreetGS、DrivingGaussian）采用“均匀优化”范式，存在语义无关的资源分配瓶颈，无法区分对驾驶安全关键的元素（如行人、车辆）与非关键元素（如远处建筑、路边植被） [1] - 资源错配导致计算资源大量浪费在非关键元素上，而关键物体的高频细节因资源不足被平滑或模糊，陷入保真度与计算成本不可兼得的困境 [1] 核心方法设计 - PAGS提出“将任务感知的语义优先级嵌入重建与渲染全流程”，核心包含组合高斯场景表示、语义引导资源分配、优先级驱动的渲染pipeline三大模块 [4] - 组合高斯场景表示对场景进行静动态分离建模，静态背景用固定在世界坐标系的3D高斯集合表示，动态物体在独立局部坐标系内建模 [4] - 语义引导资源分配通过离线语义场景分解将元素划分为关键类（车辆、行人、骑行者）和非关键类（建筑、道路、植被），并基于混合重要性度量进行高斯排序剪枝 [5][8] - 优先级驱动的渲染pipeline通过硬件加速的遮挡剔除，分为Occluder Depth Pre-Pass和Color Pass两个关键pass，实现实时渲染 [6][7][9] 实验验证与结果分析 - 在Waymo和KITTI数据集上的定量结果显示，PAGS在Waymo数据集上PSNR达34.63、SSIM达0.933，在KITTI数据集上PSNR达34.58、SSIM达0.947，均为最优 [13][17] - 训练效率显著提升，训练时间仅1小时22分钟（Waymo）和1小时31分钟（KITTI），远低于StreetGS的3小时以上和EmerNeRF的11小时以上 [13][17] - 渲染速度达到353 FPS（Waymo）和365 FPS（KITTI），是StreetGS（136 FPS）的2.6倍，EmerNeRF（0.23 FPS）的1500倍以上 [10][13][17] - 模型大小530 MB、显存占用6.1 GB，仅为EmerNeRF（1217 MB、10.5 GB）的约1/2，更适配车载硬件资源约束 [10][17] 研究结论与行业意义 - PAGS通过语义引导的资源分配与优先级驱动的渲染加速，打破了动态驾驶场景3D重建中保真度与效率的固有权衡 [22][23] - 该方法能以更短训练时间、更低硬件开销实现更高质量的关键物体重建，为3D高斯泼溅技术在自动驾驶中的实用部署提供了核心技术支撑 [23] - 消融实验证明混合重要性度量（α=0.4）同时实现最高整体PSNR（34.63）与关键物体PSNR（35.97），优于单纯的梯度或语义策略 [20][22]