DriveGPT4

搜索文档
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-07-14 22:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 不少双非的同学都很迷茫。。。 实验室参与的工作有些落伍,现在无论是自动驾驶还是具身智能公司都需要实力比较强、背景比较好的同学。 以下是 知识星球 内部一位双非同学的提问,非常有代表性: 各位大佬们好,我目前是一个双非的研究生,我的研究方向是多传感器融合定位的,然后学过python,深 度学习,ros,但都学的不是很精,现在想多学一点为以后找工作用,感觉算法岗我的学历可能不太行,请 问各位大佬们我应该往哪个方向学比较好呢?学些什么知识呢? 星主回答:你的技术栈都比较偏机器人一些,SLAM和ROS这块都可以尝试一下和机器人/具身智能打交道。这 块需求也比较大,可以做一些优化、集成类工作~ 另一方面,我们了解到大一些的公司各家的hc都不是很高,要求基本上都是端到端、大模型、VLA、强化学 习、3DGS这些比较前沿的方向。如果你做的是这块,是有机会的,很多tire 1的公司或者主机厂也正在follow前 沿的技术,大概是从无图往端到端转,差不多技术栈推迟1-2代。像LV融合、无图、BEV感知也确实都有在用, 但这块的 ...
VLM岗位面试,被摁在地上摩擦。。。
自动驾驶之心· 2025-07-12 20:00
自动驾驶大模型技术发展 - 理想汽车是国内首个实现视觉语言大模型(VLM)上车的企业,在自动驾驶多模态大模型领域经验丰富[2] - 行业技术路线已明确向端到端+大模型方向发展,长安/小鹏等车企均已宣布大模型上车计划[4] - 自动驾驶大模型应用场景包括智能座舱、具身智能、数据挖掘和标注等领域,未来发展空间广阔[4] 大模型核心技术要点 - 通用大模型需横向对比开源SOTA模型,分析不同任务下的优劣势[4] - 微调技术涉及LoRA、Adapter、DPO等方法,是业务模型落地的关键[6][15] - 大模型存在幻觉问题,解决方案包括外挂知识库、微调和强化学习等技术[6] - 私有数据集构建和prompt模板设计是业务模型的核心竞争力[4] 自动驾驶大模型课程体系 - 课程涵盖多模态大模型基础概念、架构、训练范式和公开数据集[9] - 重点讲解模态编码器、Input/Output Projector、LLM Backbone等核心模块[11] - 覆盖图文理解、视频理解、任意模态等5种通用多模态大模型算法[11] - 包含DriveVLM等5个最具代表性的自动驾驶端到端大模型算法[17] - 提供行业就业指导,分析公司需求和技术瓶颈等实际问题[19] 行业人才需求 - 企业面试重点关注候选人对开源模型的对比分析能力[4] - 实际项目经验(如RAG系统)和私有数据集构建经历是重要考察点[4][6] - 需要掌握从算法设计到工程化落地的全流程能力[22] - 高校学生、技术人员和转行人员是该领域主要人才来源[26]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...