DriveGPT4 - 财报，业绩电话会，研报，新闻

DriveGPT4

搜索文档

自动驾驶之心· 2025-07-14 22:04

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线不少双非的同学都很迷茫。。。实验室参与的工作有些落伍，现在无论是自动驾驶还是具身智能公司都需要实力比较强、背景比较好的同学。以下是知识星球内部一位双非同学的提问，非常有代表性：各位大佬们好，我目前是一个双非的研究生，我的研究方向是多传感器融合定位的，然后学过python，深度学习，ros，但都学的不是很精，现在想多学一点为以后找工作用，感觉算法岗我的学历可能不太行，请问各位大佬们我应该往哪个方向学比较好呢？学些什么知识呢？星主回答：你的技术栈都比较偏机器人一些，SLAM和ROS这块都可以尝试一下和机器人/具身智能打交道。这块需求也比较大，可以做一些优化、集成类工作~ 另一方面，我们了解到大一些的公司各家的hc都不是很高，要求基本上都是端到端、大模型、VLA、强化学习、3DGS这些比较前沿的方向。如果你做的是这块，是有机会的，很多tire 1的公司或者主机厂也正在follow前沿的技术，大概是从无图往端到端转，差不多技术栈推迟1-2代。像LV融合、无图、BEV感知也确实都有在用，但这块的 ...

Autonomous Driving

Visual Language Model

Visual Language Model

自动驾驶之心· 2025-07-12 20:00

自动驾驶大模型技术发展 - 理想汽车是国内首个实现视觉语言大模型(VLM)上车的企业，在自动驾驶多模态大模型领域经验丰富[2] - 行业技术路线已明确向端到端+大模型方向发展，长安/小鹏等车企均已宣布大模型上车计划[4] - 自动驾驶大模型应用场景包括智能座舱、具身智能、数据挖掘和标注等领域，未来发展空间广阔[4] 大模型核心技术要点 - 通用大模型需横向对比开源SOTA模型，分析不同任务下的优劣势[4] - 微调技术涉及LoRA、Adapter、DPO等方法，是业务模型落地的关键[6][15] - 大模型存在幻觉问题，解决方案包括外挂知识库、微调和强化学习等技术[6] - 私有数据集构建和prompt模板设计是业务模型的核心竞争力[4] 自动驾驶大模型课程体系 - 课程涵盖多模态大模型基础概念、架构、训练范式和公开数据集[9] - 重点讲解模态编码器、Input/Output Projector、LLM Backbone等核心模块[11] - 覆盖图文理解、视频理解、任意模态等5种通用多模态大模型算法[11] - 包含DriveVLM等5个最具代表性的自动驾驶端到端大模型算法[17] - 提供行业就业指导，分析公司需求和技术瓶颈等实际问题[19] 行业人才需求 - 企业面试重点关注候选人对开源模型的对比分析能力[4] - 实际项目经验(如RAG系统)和私有数据集构建经历是重要考察点[4][6] - 需要掌握从算法设计到工程化落地的全流程能力[22] - 高校学生、技术人员和转行人员是该领域主要人才来源[26]

学习端到端大模型，还不太明白VLM和VLA的区别。。。

自动驾驶之心· 2025-06-19 19:54

以下是知识星球里面一位同学的提问：请问VLA和VLM的区别是什么？现在推荐学哪个呢？这两者互为表里：点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线大模型已经席卷各个领域，在智能驾驶领域，VLM也正在逐渐铺开落地量产。不少入门的小伙伴也表示，现在大模型太重要了，想要入门学习，但有点拿不准方向。 1、VLM可以理解基础的能力，可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力，最终目的是为了做动作，在自动驾驶中可以理解为自车轨迹预测的能力，通时预测的轨迹又要尽可能的符合人类的理解，这又进一步依赖vision和language的基本能力，比如我要解释这个行为，可以使用思维链的形式一步步推理分析，这里面依赖自动驾驶基础的感知（行人在哪里，2D坐标，3D位置等等）这两者没办法完全独立的学习，我认为的方式应该是先学VLM，再去扩展到VLA VLM接扩散模型就可以预测轨迹，也就是Action，这块就涉及到多模轨迹的好处了，面对不确定的环境，单模的能力有限，多模的上限是更高的最后欢迎大家加入知识星球，硬核资料在星球置 ...