Workflow
2025年的理想还在不断突破,年度成果一览......

公司技术战略定位 - 公司凭借端到端和视觉语言模型双系统量产,已跻身国内智能驾驶第一梯队[3] - 公司正从汽车新势力向人工智能企业转型,将人工智能作为发展的新锚点[3][7] - 在技术路线上,公司重点探索扩散模型轨迹生成、世界模型和视觉语言行动模型,印证了其MindVLA的技术架构[5] 视觉语言行动模型 - ReflectDrive通过离散扩散的反思机制实现安全轨迹生成,首次将离散扩散应用于端到端自动驾驶轨迹生成[13] - OmniReason构建了大规模VLA数据集并提出了融合时间性三维知识和因果推理的端到端VLA架构[16] - LightVLA通过可微分token剪枝框架将计算量和延迟分别降低59.1%与38.2%,同时任务成功率提升2.6%[17] - DriveAgent-R1采用混合思维架构,在SUP-AD数据集上性能超越Claude 4 Sonnet等前沿多模态大模型[19] - DriveAction是公司开源的中国行车场景VLA数据集,覆盖148个城市和所有量产车型记录[21] 端到端轨迹生成 - World4Drive整合多模态驾驶意图与潜在世界模型,实现无需感知标注的端到端规划[25] - TransDiffuser采用多模态表示解相关策略,在NAVSIM基准测试中取得最先进成果[26] - TrajHF提出基于人类反馈的微调框架,使生成轨迹模型能与多样化人类驾驶偏好对齐[29] 世界模型与场景生成 - RLGF通过几何反馈强化学习将3D检测mAP绝对值提高12.7%,减少几何差距[34] - HiNeuS解决神经表面重建中的多视图辐射不一致、无纹理区域关键点缺失等问题[39] - GeoDrive将三维点云渲染过程纳入生成范式,显式注入空间结构信息[40] - StyledStreets基于3D高斯散射实现跨季节、天气和相机的真实风格转换[41] - DiVE生成框架速度提升2.6倍,Fréchet视频距离降低36.7[47] 三维场景理解与模型优化 - QuadricFormer利用超二次曲面进行3D语义占用预测,以更少基元捕获现实世界目标结构[51] - UniPLV将点云、图像和文本统一到单一框架,无需对齐数据实现开放世界3D场景理解[55] - TokenFLEX通过动态token机制和轻量级自适应投影器实现灵活视觉token推理[50] - RuscaRL借鉴教育心理学脚手架理论,解决大语言模型强化学习探索瓶颈问题[56]