Workflow
视觉大语言模型
icon
搜索文档
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 20:30
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 当前自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段。如果你对自动驾驶 有浓厚的兴趣,并且想找业内最专业的大佬交流,那么这个圈子一定没错!技术迭代的浪潮下暗藏职业焦虑。 对职场老人而言 ,传统以激光雷达为核心的感知算法工程师可能面临路线冲击——特斯拉的纯视觉方案依托成 本优势和算法革新,正在撼动多传感器融合的主流地位;而规划控制领域从PID到强化学习的转型,也让依赖传 统控制理论的从业者陷入技能升级的紧迫感。 学生新手则陷入"选择困难症" :感知算法赛道因头部企业技术垄 断加剧内卷,数据闭环工程师需要同时掌握分布式计算与AI模型调优能力,而新兴的车路协同方向又要求跨界 融合通信与交通系统工程知识。当禾赛科技将激光雷达成本降至200美元、比亚迪宣布自研体系内价格再降70% 时, 技术红利背后实则是从业者必须持续奔跑的生存法则,这种技术路线的不确定性与知识体系的重构压力, 正在重塑自动驾驶人才市场的竞争格局。 后处理,写逻辑建议转行业可以,不要换方向,gap还是蛮大。现在很多人 ...
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 17:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]