Delphi
搜索文档
快速结构化深度了解理想AI/自动驾驶/VLA手册
理想TOP2· 2025-10-10 19:19
公司战略转型与愿景 - 创办理想汽车的动机是寻求比汽车之家大十倍以上的行业机会,基于对自动驾驶实现的信念和行业变革期的判断[1] - 公司于2022年9月内部明确、2023年1月28日通过全员信正式将自身定义为人工智能公司[2] - 公司核心驱动力是参与OpenAI定义的AI五阶段发展,最终目标是AI超越人类组织能力,自动驾驶成为中短期重点,中长期业务可能变化[1] 关键战略判断 - 坚信人工智能将实现知识、认知和能力的平权,AI对公司的意义是全部[2] - 判断基座模型是人工智能时代的操作系统+编程语言,是新一代入口,无论多难公司一定要做[2] - 当前所有行动都是为了获得AGI的L3和自动驾驶L4的门票[2] - 判断大语言模型与自动驾驶将合二为一变为VLA,公司必须保证其大语言模型基座模型是中国前三[3] - 目标三年内推出摘掉方向盘的车,需要VLA基座模型、顶级人才和足够算力支持[3] 技术发展路径与里程碑 - 2024年3月GTC大会分享双系统架构,输入传感器信息输出轨迹,算力储备为1.4eFlops[3] - 2024年6月李想定义L3为有监督自动驾驶、L4为无监督自动驾驶,给出三季度内测、1000万Clips最早2024年底最晚2025年初全量推送预期,L4三年内一定实现[3] - 2025年3月GTC分享VLA,明确VLM由端到端+VLM两个模型组成,VLA是一个模型具备快慢思考能力,输出action token[4] - VLA快慢思考均输出action token,通过diffusion进一步优化轨迹,用户可直接与模型对话下达指令[4] VLA基座模型核心技术 - 从零开始设计训练适合VLA的基座模型,因开源模型缺乏良好3D空间理解能力[6] - 采用MoE架构和Sparse Attention实现稀疏化,在参数量扩容时不大幅增加推理负担[7] - 训练中加入大量3D数据和自动驾驶图文数据,减少文史类数据比例,并加入未来帧预测和稠密深度预测等任务[7][8] - 训练模型学习人类思考过程并自主切换快慢思考,快思考直接输出action token,慢思考经过固定简短CoT模板输出action token[8] - 采用小词表和投机推理提升CoT效率,对action token创新使用并行解码[8] 轨迹生成与系统优化 - 利用diffusion将action token解码成最终驾驶轨迹,预测自车及他车行人轨迹,提升复杂交通博弈能力[10] - 使用多层Dit实现“开快点”等指令功能,采用ode采样器使diffusion在2~3步内生成稳定轨迹,解决效率问题[10] - 通过端到端可训VLA模型和3D重建联合优化解决强化学习两大限制,让系统超越人类驾驶水平[11] - 3D高斯具备出色多尺度3D几何表达能力和丰富语义,通过图片RGB自监督训练充分利用真实数据[5] 技术研发与论文成果 - 2024年2月提出DriveVLM,2024年6月提出Delphi端到端自动驾驶视频生成方法[11][12] - 2024年10月提出MVGS实现最先进渲染性能,提出首个基于Dit的生成长时间高一致性视频框架[12] - 2024年12月提出GaussianAD,探索以视觉为中心的端到端自动驾驶显式稀疏点架构[13] - 2025年4月发布MCAF多模态粗到细注意力聚焦框架,解决长视频理解关键瓶颈[13] - 2025年6月发布DriveAction基准测试集,包含2610个驾驶场景中生成的16185对问答数据[13]