Workflow
视觉大语言模型VLM
icon
搜索文档
正在筹划一个万人的自动驾驶&具身技术社区~
自动驾驶之心· 2025-06-25 17:54
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位行业专家加入[2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环[2] - 社区内容涵盖技术动态分享、入门问答、求职信息及行业前沿讨论[2] 知识星球核心功能 - 提供30+自动驾驶技术学习路线,覆盖感知、定位、规划控制等全技术栈[11][16] - 每周1-2场行业直播,年计划100场,聚焦VLA、大模型等前沿方向[18][19] - 建立与40+企业的内推渠道,包括小米汽车、地平线、英伟达等头部公司[4] 2025年技术趋势 - 大模型赋能的端到端2.0技术VLA将成为主流,整合视觉大语言模型与轨迹预测[6] - 关键技术包括3DGS生成技术、世界模型及扩散模型的应用[6][38] - 技术迭代周期持续缩短,行业进入快速创新阶段[6] 技术资源体系 - 汇总50+视觉大语言模型(VLM)的预训练方法与评估数据集[26][27] - 整理自动驾驶专用数据集如nuscenes、Waymo Open Dataset等31种[31] - 收录扩散模型在自动驾驶领域的47项最新应用成果[47] 行业应用案例 - 智能交通领域采用语言引导的车辆检索系统,提升多模态交互能力[33] - 自动驾驶感知模块整合VLM技术,实现开放词汇目标检测[34] - 规划控制领域探索GPT-Driver等大模型直接生成驾驶轨迹[35] 人才发展支持 - 推出"自动驾驶求职100问"系列,覆盖BEV感知、Occupancy等热点方向[69] - 提供从算法讲解到代码实现的完整学习路径,支持小白快速入门[11] - 社区成员来自全球顶尖高校和头部企业,形成高质量技术交流网络[114]
华为车BU招聘(端到端/感知模型/模型优化等)!岗位多多~
自动驾驶之心· 2025-06-24 15:21
华为车BU招聘信息 - 端到端模型算法工程师岗位职责包括模型设计开发部署迭代、现网问题优化、新算法预研落地及数据分布分析[1] - 感知模型算法工程师负责视觉感知神经网络设计开发部署迭代及长期研发[1] - 人脸状态监测算法工程师专注于驾驶员乘客姿态行为视线监测算法研发部署[1] - 模型效率优化岗位聚焦AI模型车端推理效率优化及压缩算法开发[1] 自动驾驶技术发展趋势 - 2025年技术基调确定为VLA(视觉语言动作)驱动的端到端2.0系统[9] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真及世界模型[9] - 技术迭代周期持续缩短,行业进入快速演进阶段[9] 自动驾驶之心知识星球概况 - 国内最大自动驾驶技术社区,成员近4000人[14] - 覆盖30+技术方向学习路线,包含感知定位规划控制等全栈内容[14] - 与数十家企业建立内推渠道,简历直达招聘方[14] - 每周活跃度居国内前20,日均成本不足1元[15] 技术资源体系 - 建立四大板块:学术进展追踪、专家答疑、内容下载、课程优惠[16] - 积累近5000份干货内容,每年举办100场行业直播[17] - 技术领域覆盖视觉大语言模型、世界模型、BEV感知等30+方向[19] - 视频直播涵盖50+子方向,年计划100场专业分享[21] 数据集与评估体系 - 视觉语言模型预训练数据集规模达5B图像文本对[29] - 自动驾驶专用数据集包含KITTI、NuScenes、Waymo等主流基准[34] - 语言增强驾驶数据集支持视觉问答、导航等复杂任务[35] - 评估指标覆盖图像分类、目标检测、语义分割等任务[30][33] 前沿技术应用 - 智能交通领域应用语言引导车辆检索、视觉问答等技术[36] - 自动驾驶感知方向实现开放词汇检测、语言引导跟踪等突破[37] - 定位规划领域探索语言条件导航、大模型轨迹生成等创新[38] - 决策控制方向开发基于LLM的可解释驾驶系统[39] 行业生态建设 - 嘉宾团队覆盖国内外顶尖高校和头部企业[112][114] - 成员来自地平线、蔚来、小鹏等企业及全球知名院校[117] - 日常维护包括论文分享、职位内推、技术问答等[120] - 持续邀请100+行业专家参与内容建设[112]
打造万人的自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-06-20 22:06
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位行业专家加入 [2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环体系 [2] - 社区内容涵盖最新技术动态、技术讨论、入门问答及行业求职分享,重点关注具身智能转型、自动驾驶技术趋势及大模型融合等前沿议题 [2] 技术发展方向 - 2025年技术基调确定为VLA(视觉语言行动)端到端2.0体系,涉及视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真等前沿技术栈 [6] - 技术迭代周期持续缩短,需专业社区持续跟踪学术界与工业界的技术演进 [10] - 重点研究方向包括BEV感知、Occupancy网络、世界模型、扩散模型等,其中视觉大语言模型在自动驾驶中的应用成为新热点 [11][55] 知识星球运营 - 国内最大自动驾驶技术社区,成员近4000人,汇集100+行业专家,总结30+技术学习路线 [11] - 提供四大核心板块:学术进展追踪、专家答疑、课程优惠及求职咨询,包含近5000份干货内容并每日更新 [14] - 每周组织1-2场顶会作者或企业团队直播,全年计划100场,聚焦VLA、大模型等前沿主题 [18][19] 数据集与模型 - 汇总主流自动驾驶数据集如nuScenes(20万帧多模态数据)、Waymo Open Dataset(12万场景)等,涵盖2D/3D检测、语义分割等任务 [31] - 视觉大语言模型预训练使用LAION-5B(50亿图文对)、CLIP(4亿图文对)等超大规模数据集 [26] - 扩散模型在3D视觉、视频生成领域形成完整技术体系,相关论文年增长率超过200% [43][44] 行业应用案例 - 智能交通领域应用语言引导车辆检索、视觉问答等技术,提升多模态交互能力 [33] - 自动驾驶系统集成VLM进行行人检测、开放词汇3D分割等任务,如VLPD模型通过自监督提升检测精度34% [34] - 规划控制领域采用GPT-Driver等大模型实现轨迹预测,DRIVEVLM系统将规划误差降低25% [35][36] 人才生态 - 社区成员来自地平线、蔚来、英伟达等头部企业及清华、ETH等顶尖院校,形成产学研协同网络 [114] - 求职板块覆盖TensorRT部署、多传感器标定等实战问题,整理BEV感知等方向高频面试题100+ [71][72] - 职业发展建议显示:传统3D检测岗位需求下降,端到端驾驶、数据闭环等方向人才缺口扩大 [101]