Workflow
视觉大语言模型
icon
搜索文档
最近被公司通知不续签了。。。
自动驾驶之心· 2025-07-28 21:21
自动驾驶行业现状 - 行业整体盈利挑战巨大,头部公司如百度Apollo、小马智行的Robotaxi业务面临规模化运营成本高和法规限制问题,距离稳定盈利尚远 [3] - 乘用车主机厂如特斯拉、蔚小理的智能驾驶功能(FSD、NOP/NGP等)仍处于持续投入阶段,盈利主要依靠整车销售支撑 [3] - 特定场景如港口、矿区、园区物流AGV落地相对成熟,但市场规模有限且面临成本效益考验 [4] - 高级别自动驾驶(L4)系统综合成本在大多数应用场景下仍难以显著超越人力或传统方案的成本优势 [4] 技术发展趋势 - 端到端自动驾驶成为技术趋势,需要了解BEV Transformer、模仿学习、强化学习等技术在自动驾驶中的应用 [8] - 视觉大语言模型(VLM)在自动驾驶中的应用日益广泛,包括场景理解、轨迹预测和规划控制等方向 [31][32][34] - 世界模型技术快速发展,如HERMES、DrivingGPT等统一了驾驶世界建模和规划功能 [36][37] - 扩散模型在自动驾驶视频生成、场景合成等方面取得突破,如DriveDreamer、DrivingDiffusion等 [35][40] 人才市场情况 - 与前几年投资热潮相比,行业趋于冷静,L4级别岗位总量收缩明显,竞争加剧 [5] - 社招岗位数量减少,要求更高更务实,不仅需要扎实的工程能力和领域深度,还需具备量产/落地经验 [5][6] - 规划控制等传统岗位机会减少,建议转向新能源车企自动驾驶岗位或机器人、工业自动化等领域 [8] - 技术栈转型建议:C++开发者可考虑转向嵌入式或其他行业,如AGV、机械臂等工业自动化领域 [8] 技术社区资源 - 自动驾驶之心知识星球已聚集近4000人,包含100+行业专家和30+技术学习路线 [9][12] - 社区提供四大技术方向资源:视觉大语言模型、世界模型、扩散模型和端到端自动驾驶 [15] - 与多家自动驾驶公司建立岗位内推机制,简历可直达心仪公司 [11] - 社区每周活跃度国内前20,包含学术进展、量产应用、求职招聘等全方位内容 [70][74] 数据集与评估 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等,涵盖2D/3D目标检测、语义分割、目标跟踪等任务 [28] - 语言增强的自动驾驶数据集如NuScenes-QA、Talk2Car等支持视觉问答和自然语言导航等任务 [29] - VLM评估涵盖图像分类、图像文本检索、行为识别、目标检测、语义分割等多个维度 [23][24][25][26][27]
死磕技术的自动驾驶黄埔军校,三周年了~
自动驾驶之心· 2025-07-19 14:32
业务发展 - 打造了四个IP矩阵:自动驾驶之心、具身智能之心、3D视觉之心、大模型之心,覆盖知识星球、公众号、视频号、哔哩哔哩、知乎等平台 [2] - 从纯线上教育转型为全栈式服务平台,新增硬件业务、论文辅导和求职业务,并在杭州设立线下办公室 [2] - 知识付费仍是核心业务,但重点拓展了硬件教具、线下培训和求职招聘等多元化服务 [2] 技术方向 - 自动驾驶行业正经历大模型引发的智驾方案升级,从VLM/VLA向更先进的端到端解决方案演进 [2] - 具身智能和大模型是重点孵化方向,已举办多期圆桌论坛,受到学术界和产业界广泛关注 [2] - 视觉大语言模型(VLM)在自动驾驶中的应用包括预训练、迁移学习和知识蒸馏等多个技术分支 [9][12][13] 社区建设 - 自动驾驶之心知识星球已成为国内最大的自动驾驶技术社区,拥有近4000名成员和100+行业专家 [4] - 社区覆盖30+自动驾驶技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy等前沿方向 [4] - 每周活跃度位居国内前20,注重成员积极性和技术交流 [4] 内容体系 - 知识星球包含四大板块:技术领域分类汇总、科研界顶级大佬直播、求职资料分享和痛点问题解答 [7] - 整理了视觉大语言模型、世界模型、扩散模型和端到端自动驾驶四大前沿技术方向的资源 [6] - 汇总了多个Awesome资源库,涵盖VLM架构、推理策略、安全隐私等细分领域 [8] 数据集资源 - 整理了VLM预训练使用的多个大型数据集,包括LAION5B(5B图文对)、WuKong(100M中文图文对)等 [15] - 汇总了自动驾驶相关数据集,如nuScenes、Waymo Open Dataset、BDD100K等,涵盖感知、预测、规划等任务 [21][22] - 收集了语言增强的自动驾驶系统数据集,支持自然语言导航和空间推理等高级功能 [22] 应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答和视频异常识别等技术 [23] - 自动驾驶感知方向涉及行人检测、3D目标检测和开放词汇语义分割等任务 [24] - 定位规划领域探索语言引导导航、轨迹预测和运动规划等解决方案 [25] 行业趋势 - 世界模型在自动驾驶中快速发展,涵盖3D场景理解、未来场景演化和物理原理建模等方向 [30][31] - 扩散模型在自动驾驶中的应用包括场景生成、数据增强和轨迹预测等多个方面 [33][39] - 端到端自动驾驶研究聚焦多模态融合、可解释性和长尾分布处理等关键问题 [45][55]
死磕技术的自动驾驶黄埔军校,三周年了。。。
自动驾驶之心· 2025-07-19 11:04
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 2025年自动驾驶、具身智能、大模型Agent三大赛道是AI竞争高地 [2] - 端到端自动驾驶成为主流学习方向,建议从BEV感知开始逐步深入 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,拥有近4000名成员 [2] - 社区汇聚100+行业专家,提供30+技术方向学习路线 [2] - 覆盖端到端自动驾驶、世界模型、视觉大语言模型等前沿方向 [2][4] 视觉大语言模型研究 - CVPR 2024发布多篇视觉语言模型预训练论文,涉及效率提升和公平性优化 [11] - 视觉语言模型评估涵盖图像分类、文本检索、行为识别等任务 [16][17][18] - 大规模预训练数据集包括LAION5B(50亿图文对)、WebLI(120亿图文对) [15] 自动驾驶数据集 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等 [21] - 语言增强数据集支持自然语言导航、视觉问答等任务 [22] - 图像分类评估数据集包含ImageNet-1k(128万训练图)、CIFAR-100等 [16] 技术应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答系统 [23] - 自动驾驶感知方向研究语言引导3D检测、开放词汇分割等任务 [24] - 决策控制领域探索大语言模型在轨迹预测和运动规划中的应用 [25][26] 世界模型研究进展 - 2024年发布DriveWorld、GAIA-1等驾驶世界模型,支持场景生成与理解 [30][32] - 世界模型可预测未来视觉观测并辅助规划决策 [32] - 研究涵盖4D场景重建、占用预测等方向 [32] 扩散模型应用 - 扩散模型在自动驾驶中用于场景生成、数据增强和轨迹预测 [39] - CVPR 2024发布MagicDriveDiT等街景生成模型 [39] - 研究聚焦时空一致性、多视角生成等挑战 [39] 端到端自动驾驶 - 方法分为模仿学习、强化学习和多任务学习三大类 [61] - 最新工作如DriveGPT4、DriveMLM探索大模型与规划控制结合 [27][51] - 挑战包括长尾分布处理、安全验证等 [55][57] 行业资源与生态 - 社区提供TensorRT部署、BEV感知等工程问题解决方案 [71][73] - 与地平线、蔚来等公司建立内推渠道 [110] - 成员来自卡耐基梅隆、清华等高校及头部自动驾驶公司 [106][107]
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 20:30
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 特斯拉的纯视觉方案凭借成本优势和算法革新正在撼动多传感器融合的主流地位 [2] - 激光雷达成本已降至200美元,比亚迪自研体系内价格再降70%,技术红利背后是从业者持续升级的压力 [2] 自动驾驶人才市场变化 - 传统激光雷达感知算法工程师面临技术路线冲击,规划控制领域从PID到强化学习的转型带来技能升级紧迫感 [2] - 学生新手面临选择困难:感知算法赛道内卷加剧,数据闭环工程师需掌握分布式计算与AI模型调优能力,车路协同方向要求跨界知识融合 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,聚集近4000名成员和100+行业专家 [7] - 社区覆盖30+技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy、3D目标检测等几乎所有子方向 [7] - 提供学术界与工业界前沿直播、求职内推渠道,每周活跃度位居国内前20 [7] 前沿技术方向 - 视觉大语言模型(VLM)在自动驾驶中的应用包括场景理解、轨迹生成和决策控制 [26][27] - 世界模型技术如GAIA-1、DriveDreamer通过生成式AI模拟驾驶场景演化,提升系统预测能力 [32][33] - 扩散模型在自动驾驶中用于场景合成、数据增强和轨迹预测,相关研究数量快速增长 [35][40] 数据集与评估 - 主流自动驾驶数据集包括nuScenes(12亿帧)、Waymo Open Dataset(12亿帧)和BDD100K(10万视频) [23][24] - VLM预训练数据集规模从1M(SBU Caption)到12B(WebLI),评估指标涵盖mAP(目标检测)、mIoU(语义分割)等 [17][18] 端到端自动驾驶进展 - 端到端方法逐步替代模块化架构,DriveGPT4、DriveMLM等模型实现感知-规划一体化 [29][53] - 技术挑战包括长尾场景处理、系统可解释性以及与传统规控方法的协同 [54][55] - 行业研究报告显示,特斯拉FSD的端到端方案推动量产落地进程加速 [47] 工业界应用案例 - 智能交通领域采用VLM实现语言引导车辆检索和视觉问答,提升交互效率 [25] - 自动驾驶决策控制中,DiLu、LanguageMPC等模型利用大语言模型增强决策可解释性 [28] - 仿真测试依赖扩散模型生成高保真场景,如DriveDreamer-2支持定制化视频生成 [30] 技术社区资源 - 知识星球提供四大板块:技术领域分类、学术直播、求职资料和问题解答 [10][11] - 汇总Awesome资源列表,包括视觉大语言模型、扩散模型和端到端自动驾驶的论文与代码库 [12][35] - 学习路线覆盖BEV感知、Occupancy、CUDA加速等30+方向,配套工程解决方案与优化思路 [66][67]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 17:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]