Visual Language Model

搜索文档
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-07-14 22:04
行业趋势与人才需求 - 自动驾驶和具身智能公司对人才要求较高,倾向于实力强、背景好的候选人 [3] - 大公司招聘需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向 [4] - 机器人初创公司融资活跃,未来几年发展前景可观 [4] - 传统机器人技术仍是产品主线,但具身智能是最前沿方向 [5] 技术方向与就业建议 - 双非学生可转向机器人/具身智能领域,从事SLAM、ROS相关优化和集成工作 [4] - LV融合、无图、BEV感知等技术已应用但人才饱和 [4] - 深圳、杭州的机器人公司提供全面技术培养机会 [5] 前沿技术资源汇总 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大技术方向 [9] - 提供10个Awesome和综述资源链接,涵盖智能交通、AIGC、视觉语言模型等领域 [10] - 列出17个VLM预训练数据集,最大规模达12B图像-文本对(LAION5B) [17] - 汇总图像分类、文本检索、行为识别等评估数据集,如ImageNet-1k(1000类)、Kinetics700(700类) [18][20] 自动驾驶数据集与应用 - 覆盖2D/3D目标检测、语义分割、跟踪等任务,如NuScenes(2020年,多模态)、Waymo Open Dataset(2020年) [23] - 语言增强数据集支持视觉-语言导航、车辆检索等应用,如NuScenes-QA(2023年) [24] - 智能交通领域方法聚焦语言引导的车辆检索和视觉问答 [25] - 自动驾驶感知技术包括语言引导的3D检测、开放词汇分割(如OpenScene) [26] 世界模型与扩散模型 - 世界模型研究集中在3D场景理解和生成,如HERMES(2025年)、DriveGPT(2024年) [32][33] - 扩散模型在自动驾驶中用于视频生成(如DriveDreamer)、数据增强(如Cityscape-Adverse) [35][41] - 汇总19篇扩散模型综述,涉及3D视觉、推荐系统等方向 [35][38][39] 端到端自动驾驶 - 开源仓库跟踪E2E最新研究,如opendilab/awesome-end-to-end-autonomous-driving [43][47] - 方法融合多模态感知与规划,如DriveGPT4(2023年)、VADv2(概率规划) [47][50] - 研讨会覆盖CVPR、ICRA等会议,探讨基础模型与规模化应用 [48] - 长尾分布问题通过对抗训练(如CAT)、场景生成(如KING)解决 [53][58]
4000人的自动驾驶黄埔军校,死磕技术分享与求职交流~
自动驾驶之心· 2025-07-12 22:43
智能驾驶行业现状 - 2025年智能驾驶行业呈现分化态势,部分从业者转向具身智能领域,但多数仍坚守原赛道 [2] - 头部企业持续高薪招聘人才,应届生薪资可达45k*16薪,超越2-3年经验社招水平 [2] - 行业技术迭代周期明显缩短,2025年技术基调确定为VLA(视觉语言行动)架构 [7] 核心技术趋势 - 大模型赋能端到端2.0技术成为主流方向,涵盖视觉大语言模型基座、扩散模型轨迹预测等技术栈 [7] - 世界模型成为关键技术,涉及3DGS生成技术、闭环仿真等前沿领域 [7] - 视觉语言模型(VLM)在感知任务中应用广泛,包括预训练、迁移学习和知识蒸馏等方法 [19][20][21] 自动驾驶社区生态 - 自动驾驶之心知识星球已成为国内最大专业社区,拥有近4000名成员和100+行业专家 [11] - 社区构建完整技术闭环,涵盖课程体系(9大视频教程)、硬件开发(标定板、机械臂)和实战项目 [3] - 与近200家企业建立合作,包括小米汽车、地平线、英伟达等头部公司,提供内推渠道 [7][66] 行业应用场景 - 智能交通领域应用语言引导车辆检索、视觉问答等技术,提升系统交互能力 [30] - 自动驾驶感知模块融合视觉语言模型,实现开放词汇目标检测和语义分割 [31] - 决策控制系统结合大语言模型,开发可解释的轨迹预测和运动规划方案 [32][33] 数据集发展 - 视觉语言预训练数据集规模显著扩大,LAION5B包含50亿图文对,WebLI达120亿规模 [23] - 自动驾驶专用数据集持续丰富,NuScenes、Waymo Open Dataset支持多任务学习 [28] - 语言增强数据集兴起,如NuScenes-QA支持视觉问答任务,推动人车交互发展 [29] 人才发展体系 - 社区建立30+技术学习路线,覆盖BEV感知、Occupancy等40个方向 [11] - 求职板块包含100问系列(TensorRT部署、BEV感知等)和面经分享,直击企业需求 [66][68] - 直播体系每年规划100场,邀请CVPR/ICCV作者和车企专家分享量产经验 [15][16]
4000人的自动驾驶黄埔军校,死磕技术分享与求职交流~
自动驾驶之心· 2025-07-12 13:41
自动驾驶行业现状与趋势 - 2025年自动驾驶行业面临技术迭代加速和人才竞争加剧的局面,部分从业者转向具身智能和机器人领域,但仍有大量人才坚守[2] - 行业薪资水平显示头部企业仍保持高投入,应届生可达45k*16薪,超越2-3年经验社招人员[2] - 技术迭代周期从2024年下半年开始明显缩短,2025年技术基调确定为VLA(视觉语言动作)2.0体系[8] - 前沿技术方向包括:视觉大语言模型基座、扩散模型端到端轨迹预测、3D高斯泼溅生成技术、世界模型等[8] 自动驾驶技术社区与资源 - 自动驾驶之心知识星球已成为国内最大专业社区,拥有近4000名成员和100+行业专家[13][14] - 社区内容覆盖30+技术方向学习路线,包含感知、定位、规划控制等全栈技术栈[14] - 提供独家资源包括:千元级付费课程8折、100+场学术/工业界直播回放、近5000份干货资料[19] - 每周举办1-2场前沿技术直播,2025年重点聚焦VLA、大模型、扩散模型等方向[21][22] 关键技术发展方向 视觉语言模型(VLM) - 形成完整技术体系包括预训练、迁移学习、知识蒸馏等方向,相关论文在CVPR2024等顶会集中爆发[24][25] - 应用领域覆盖智能交通和自动驾驶,包括语言引导车辆检索、视觉问答、异常识别等[37][38] - 基础理论持续创新,2024年出现RLAIF-V、RLHF-V等强化学习对齐方法[25] 端到端自动驾驶 - 形成两大技术路线:开环端到端1.0和闭环端到端2.0(VLA体系)[50] - 关键挑战包括:感知-规划耦合、长尾场景处理、可解释性等[55][62] - 典型方法包括DriveGPT4、DriveMLM等,结合大语言模型提升解释能力[59] 世界模型与扩散模型 - 世界模型成为研究热点,2024-2025年出现HERMES、DrivingWorld等统一框架[43][45] - 扩散模型在3D视觉、视频生成等领域应用广泛,相关综述论文超过20篇[47][48] - 自动驾驶应用包括DriveDreamer系列、MagicDriveDiT等街景生成方法[42][51] 行业人才发展 - 技术岗位需求呈现两极分化:基础算法岗竞争激烈,新兴领域(VLA、世界模型等)人才紧缺[2][97] - 职业发展建议:传统SLAM可转向3D重建,控制背景可拓展规划算法,感知方向需关注端到端技术[99] - 学习路径强调体系化:建议通过社区获取领域知识图谱、面试经验和岗位需求信息[3][14] 企业合作与生态 - 社区与近200家企业建立合作,包括小米、地平线、英伟达等头部公司[7][109] - 提供校招/社招内推渠道,简历可直达企业HR,覆盖算法、工程等多个岗位[10][19] - 资源对接涵盖学术机构(清华、ETH等)和工业界(华为、大疆等)[7][106]
2025秋招开始了,这一段时间有些迷茫。。。
自动驾驶之心· 2025-07-08 15:53
自动驾驶行业就业趋势 - 双非研究生在自动驾驶和具身智能领域面临就业挑战,需提升技术实力和背景竞争力 [2] - 行业需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向,传统技术人才已相对饱和 [3] - 机器人/具身智能初创公司融资活跃,技术栈培养全面,深圳、杭州是产业聚集地 [3][4] 技术发展方向 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大前沿技术方向 [8] - 视觉大语言模型领域涵盖预训练、迁移学习、知识蒸馏等技术,涉及图像分类、文本检索、行为识别等任务 [10][13][14] - 世界模型在自动驾驶中实现3D场景理解和生成一体化,如HERMES、DrivingGPT等模型 [31][32] - 扩散模型应用于自动驾驶视频生成、3D视觉、轨迹预测等领域,技术成熟度快速提升 [33][35][40] 数据集与评估体系 - VLM预训练数据集规模从百万级到百亿级,如LAION5B含50亿图文对,WebLI含120亿数据 [16] - 自动驾驶专用数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,如NuScenes、Waymo Open Dataset等 [22][23] - 评估指标包括mAP(目标检测)、mIoU(语义分割)、Recall(文本检索)等,不同任务有标准化测试集 [17][20][21] 应用领域创新 - 智能交通领域采用语言引导的车辆检索技术,如Multi-granularity Retrieval System提升自然语言交互能力 [24] - 自动驾驶感知系统集成VLM技术,实现开放词汇检测(OpenScene)和语言引导3D检测(Language-Guided 3D Object Detection) [25] - 决策控制系统结合LLM,如GPT-Driver、DriveGPT4实现可解释的轨迹规划和运动控制 [26][27] 端到端自动驾驶进展 - 端到端方法整合感知、预测、规划模块,DriveGPT4、DriveMLM等模型实现行为状态对齐 [28][48] - 技术挑战包括长尾分布处理(BEVGPT)、开环控制优化(MiniDrive)和安全性验证(CAT) [50][56] - 行业报告指出端到端技术需平衡模块化与一体化,特斯拉FSD验证了大规模数据驱动的可行性 [45] 行业资源与社区 - 知识星球提供自动驾驶课程、硬件代码资料及招聘信息,已吸引华为天才少年等专家加入 [5][60] - GitHub资源库汇总Awesome系列,如Awesome-Diffusion-Models、Awesome-End-to-End-Autonomous-Driving等 [34][42] - 学术会议(CVPR、ICRA)设立自动驾驶专题研讨会,推动技术标准化和产学研合作 [46]
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-06-30 13:51
自动驾驶与具身智能行业趋势 - 自动驾驶和具身智能公司对人才要求较高,倾向于招聘实力强、背景好的同学[2] - 行业技术方向正从传统方法向端到端、大模型、VLA、强化学习、3DGS等前沿领域转型[3] - 机器人初创公司融资活跃,未来几年发展前景可观[3] 职业发展建议 - 双非背景同学可考虑SLAM和ROS方向,从事机器人/具身智能相关的优化、集成类工作[3] - 建议关注机器人公司,虽然工作较苦但能学习到实打实的技术栈[4] - 具身智能是最前沿方向,但传统机器人仍是产品主线[4] 技术社区资源 - 知识星球提供自动驾驶视频课程、硬件及代码学习资料,以及全栈学习路线图和招聘信息[5] - 社区已形成学术+产品+招聘的完整链路,包含课程、硬件和问答闭环[5] - 社区关注行业技术动态、技术分享、讨论和求职信息,聚焦具身智能与自动驾驶结合等前沿话题[5] 前沿技术方向 - 四大前沿技术方向包括视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[7] - 视觉大语言模型领域有多篇CVPR 2024论文,涉及预训练、迁移学习等方向[11][12] - 扩散模型在自动驾驶中的应用包括场景生成、数据增强等方向[38][39] 数据集资源 - VLM预训练数据集规模从百万级到百亿级不等,最大达12B样本[15] - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等任务,时间跨度从2009到2024年[21] - 语言增强的自动驾驶数据集支持文本解释、视觉问答等任务[22] 应用领域进展 - 智能交通领域主要研究语言引导的车辆检索和视觉问答技术[23] - 自动驾驶感知方向聚焦行人检测、目标指代等任务[24] - 定位规划领域探索语言引导导航和运动规划技术[25] - 决策控制方向研究大语言模型在自动驾驶决策中的应用[26] 端到端自动驾驶 - 端到端方法整合感知、预测和规划模块,实现自动驾驶全流程[27] - 相关研究关注模型可解释性、行为规划和场景生成等方向[45] - 世界模型在端到端驾驶中发挥重要作用,支持场景理解和生成[30][50]
100+自动驾驶数据集,这5个你总得知道吧?
自动驾驶之心· 2025-06-22 09:35
自动驾驶数据集 - KITTI数据集是自动驾驶领域最经典的基准数据集之一,包含立体视觉、光流、视觉里程计、3D目标检测和跟踪等多种感知任务的标注,覆盖城市、高速和乡村场景 [3][6] - nuScenes数据集包含1000个连续驾驶场景,配备6个摄像头、5个毫米波雷达、1个顶置LiDAR,提供约140万张高分辨率相机图像和39万帧LiDAR扫描,标注了23个对象类别的1.4M个3D边界框 [5][7] - Waymo Open Dataset是全球最大的自动驾驶开放数据资源之一,包含2030个20秒场景的高分辨率相机和LiDAR数据,以及103,354个场景的车辆轨迹及3D地图信息 [10][12] - PathTrack数据集包含720个序列中的15,000多个人的轨迹,专注于人员跟踪任务 [13][14] - ApolloScape数据集规模远超同类数据集,包含数十万帧高分辨率的逐像素语义分割标注图像,定义了26个语义类别 [17][19] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,创办于2022年7月,已聚集近4000人,包含100+行业专家 [32] - 社区覆盖30+自动驾驶技术学习路线,包括端到端自动驾驶、世界模型、视觉大语言模型、BEV感知等几乎所有子方向 [32][36] - 每周举办1-2场视频直播,每年计划100场左右,邀请CVPR、ICCV等顶会作者及顶尖公司团队分享 [38][39] - 社区成员来自地平线、蔚来、小鹏、理想等知名公司,以及清华大学、上海交大、香港科大等国内外高校 [134] 前沿技术方向 - 2025年自动驾驶技术基调已确定为大模型赋能下的端到端2.0 - VLA(Vision-Language-Action) [26] - 视觉大语言模型(VLM)在自动驾驶中的应用包括作为教师模型训练端到端系统、直接作为规划器等 [31][122] - 扩散模型与自动驾驶结合的前沿方向包括轨迹联合预测、3DGS生成技术等 [26][63] - 世界模型在自动驾驶中的应用包括场景理解、未来场景演化预测等 [59][60] 求职与职业发展 - 自动驾驶求职方向包括TensorRT模型部署、毫米波雷达视觉融合、车道线检测、规划控制等细分领域 [89] - 对于3D目标检测方向,建议从BEV感知开始学习,关注DETR3D、BEVFormer等算法 [115] - SLAM领域从业者可考虑向闭环仿真3DGS重建方向转型,规控方向建议学习基于模型的planner算法 [118] - 多模态3D检测领域相对成熟,建议关注端到端、大模型、数据闭环等新兴方向 [121]