视觉大语言模型 - 财报，业绩电话会，研报，新闻

视觉大语言模型

搜索文档

自动驾驶之心· 2025-07-06 20:30

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线当前自动驾驶技术正处于从辅助驾驶（L2/L3）向高阶无人驾驶（L4/L5）跨越的关键阶段。如果你对自动驾驶有浓厚的兴趣，并且想找业内最专业的大佬交流，那么这个圈子一定没错！技术迭代的浪潮下暗藏职业焦虑。对职场老人而言，传统以激光雷达为核心的感知算法工程师可能面临路线冲击——特斯拉的纯视觉方案依托成本优势和算法革新，正在撼动多传感器融合的主流地位；而规划控制领域从PID到强化学习的转型，也让依赖传统控制理论的从业者陷入技能升级的紧迫感。学生新手则陷入"选择困难症" ：感知算法赛道因头部企业技术垄断加剧内卷，数据闭环工程师需要同时掌握分布式计算与AI模型调优能力，而新兴的车路协同方向又要求跨界融合通信与交通系统工程知识。当禾赛科技将激光雷达成本降至200美元、比亚迪宣布自研体系内价格再降70% 时，技术红利背后实则是从业者必须持续奔跑的生存法则，这种技术路线的不确定性与知识体系的重构压力，正在重塑自动驾驶人才市场的竞争格局。后处理，写逻辑建议转行业可以，不要换方向，gap还是蛮大。现在很多人 ...

自动驾驶之心· 2025-07-05 17:12

具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期，目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型，技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃，未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高，双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地，传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术，LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家，形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等，LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用，NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一，DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值，ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶，DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]