纪要涉及的行业和公司 - 行业:自动驾驶行业 - 公司:D 公司、吉利、商汤、小鹏、理想、大疆、Vivo、华为、高通、广州某 taxi 公司 纪要提到的核心观点和论据 Deep 模型对智能驾驶的影响 - 提升体验和降低成本:Deep 模型可提升自动驾驶系统整体表现,提高车辆感知、决策和执行能力;还能显著降低云端和端侧计算成本,如将原本 200 TOPS 的芯片算力需求降至 150 TOPS [2]。 - 多环节赋能:在自动驾驶多个模块都能发挥作用,包括上游算法、硬件、芯片、推理工程、角色规划、感知定位以及测试仿真数据等环节,不同技术路线都可通过其优化提升性能 [4]。 - 优化数据标注:可利用 GPT 等技术进行自动标注,提高效率并减少错误,还能通过强化学习机制提升系统性能 [4]。 D 公司 Deep Think 成果应用及影响 - 车机任务应用:2024 年 1 月发布 Deep Think 成果并应用于车机任务,结合地图导航与语义信息输出高级导航指令,辅助城市智能驾驶,提升导航指令精准性和效率,还计划扩展至障碍物检测、行人识别等领域 [3][5]。 - 宏观影响:一是降低成本,通过优化计算资源,使云端和终端设备以更低成本、更高效能运行;二是实现技术平权,让自驾能力较弱的厂商也能参与先进智能驾驶技术发展,如吉利已开始使用该技术 [3][6]。 模型实际应用操作和效果 - 场景理解与算力节省:通过让模型理解特殊和标准场景,提高数据集分类效能;大规模语言模型可在 PC 上运行,小型模型部署在芯片上能节省算力,如以往 200 - 300 TOPS 算力任务,现用不到 100 TOPS 芯片也可完成 [7]。 - 优化智能座舱与提升迭代效率:将 DBC 放置在车机系统中优化智能座舱,使语音识别、任务识别等功能更便捷;通过多监督模型训练,提升自动驾驶端到端路线迭代效率 [7][8]。 - 图片标注与准确率:抽样 2D 图片输入 DBC 进行标注,优化离线使用效果,在特定领域内,系统对图像和特殊场景分类准确率超 90%,优于开源版 GPT,且可在车载芯片上运行 [3][11][12]。 语言大模型在自动驾驶中的应用 - 多模态应用:原始语言大模型无法直接用于自动驾驶场景,在芯片上部署简化后模型,通过蒸馏技术减少参数量,主要用于语义输出,参考 DeepMind 训练方法重新训练自有模型并迭代 [13]。 - 实际应用场景:目前只能输出语义级别的导航指令,与端到端系统整合为自动驾驶提供辅助,用于提供高层次命令,如场景描述和路线规划 [14][15]。 - 与端到端算法结合:谷歌的艾玛(Emma)模型实现端到端视觉驱动,通过高级命令语言输出导航指令,已被 Vivo 等公司应用于自动驾驶出租车并取得较好效果 [16]。 不同厂商对 DBC 的应用差异 各厂商应用目标不同,有的希望提高感知效率,有的希望优化决策规划;D 公司计划用 DPSK 结合自有端到端模型,在城市 NOA 场景中提升 NPI 性能及安全性 [3][17]。 国内自动驾驶厂商技术路线和架构选择差异 大疆采用端到端整体技术方案;一些团队基于 DPCK 优化,解决模型过重、感知效果不佳问题;一些厂商采用小模块加决策基于排名方法;理想将感知与规划整合至端到端模型中再强化学习训练 [20]。 自动驾驶技术应用效果及发展方向 - 应用效果:目前尚无全面展示实际应用效果的明确数据,仿真结果与实际车辆测试存在显著差距,新技术路线离量产还有很大距离,从训练到量产至少需两个季度 [21][23]。 - 发展方向:取决于各厂商技术路线和架构选择,一些团队优化现有模块,一些团队整合上下游模块实现端到端解决方案,同时需进行大规模硬件产品测试及路测 [24]。 其他技术相关情况 - 大语言模型在云端架构作用:可在数据工程方面发挥重要作用,如数据分类、清洗和标签化处理,优化与数据平台 API 交互,但在云端仿真方面无法显著赋能 [26]。 - 自动标注技术发展现状:基于 DBCC 等模型的自动标注技术已实现约 50%自动化率,通用场景下准确率达 95%以上,未来有望进一步提高自动化率降低人工标注成本 [3][27]。 - FP8 和流水线并行训练应用前景:对支架领域赋能有限,现阶段不具备明显优势 [28]。 - 强化学习在支架领域应用前景:具有潜力,但具体应用需进一步探索 [29]。 - 奖励模型设计:在自动驾驶系统中至关重要,尤其是端到端模型,当前多采用开环模式,理想为闭环模式,开环系统奖励函数可基于舒适性、安全性等指标设计,端到端系统各公司做法不同 [31]。 - 大规模视觉语言模型车载应用挑战:面临时延控制和计算资源限制,需大幅度压缩和优化以满足实时性要求,确保输入到输出时间不超 250 - 300 毫秒 [3][32]。 - DS 技术数据标注优势:未带来本质业务创新,但在算法效率和准确率方面表现更优,优化特定场景整体效果 [33]。 不同车型自动驾驶技术情况 - 中低端车型:可采用简化版小模型进行决策规划,虽可能影响 MPI,但能解决特定小问题,市场前景较好,新技术接受度高,有望率先受益 [41][46]。 - 高端车型:采用高 TOPS 算力芯片和先进大规模架构,如 VRM,以实现最佳城市 OA 效果 [42]。 - 算力需求差异:城市 OA 应用至少需 300 TOPS,强化学习优化可减少约 30%算力消耗,低端车型现有算力足够,高规格车型需更高性能芯片,产品化需综合考虑效果和成本 [45]。 自动驾驶技术发展预期 - 端到端自动驾驶:纯一段式端到端版本可能要到 2025 年第三季度才能突破现有技术并上车,当前黑盒子模型可靠性未达理想水平 [43][45]。 - L4 级别自动驾驶:发展仍需时间,目前处于停滞状态,预计至少到 2025 年第三季度才有明显进展 [48]。 其他重要但是可能被忽略的内容 - 各车厂技术进度差异原因:源自各自研发策略和目标不同,不同公司处于不同技术发展阶段,优先解决的问题不同 [18]。 - 仿真和实车测试一致性:大疆仿真能力与真实世界一致性约在 60% - 70%,仿真结果与实际车辆测试可能有 20% - 40%误差,评估受多种因素影响 [25]。 - 量产项目感知模块优化:当前以两段式结构为主,逐步向全端到端方向发展,今年预期低算力消耗实现更好效果,云端训练后可通过 OTA 部署或拷贝集成包至车载设备 [34]。 - 车载嵌入式开发工程优化:大疆在工程优化方面能力较强,与华为等头部厂商相当,能让芯片发挥更高性价比,提升整体性能确保产品竞争力 [35]。 - 嵌入式工程化能力对 DPC 模型应用:是 DPC 模型应用基础,强大工程化能力对提升应用效果至关重要,传统车厂工程化效果不佳会影响整体 MPI 和安全性 [38]。 - DPC 模型应用情况:用于离线端感知模块等非关键任务对工程化要求不高,用于车机系统或自动驾驶功能需高度优化,用于研发工具对算力要求相对较低 [39]。 - Deep C 方法训练 VOM 模型:可显著减少训练数据量,降低算力需求约 20 - 30% [40]。 - 自动驾驶领域竞争格局:过去大公司靠堆叠算力和云计算资源占优势,新技术发展使小团队也能参与竞争,通过优化底层操作系统等方式实现成本控制和性能提升 [47]。
Deepseek对高阶智驾落地影响第4场
Dezan Shira & Associates·2025-02-08 20:38