自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

自动驾驶之心· 2025-07-12 22:43

智能驾驶行业现状 - 2025年智能驾驶行业呈现分化态势，部分从业者转向具身智能领域，但多数仍坚守原赛道 [2] - 头部企业持续高薪招聘人才，应届生薪资可达45k*16薪，超越2-3年经验社招水平 [2] - 行业技术迭代周期明显缩短，2025年技术基调确定为VLA（视觉语言行动）架构 [7] 核心技术趋势 - 大模型赋能端到端2.0技术成为主流方向，涵盖视觉大语言模型基座、扩散模型轨迹预测等技术栈 [7] - 世界模型成为关键技术，涉及3DGS生成技术、闭环仿真等前沿领域 [7] - 视觉语言模型（VLM）在感知任务中应用广泛，包括预训练、迁移学习和知识蒸馏等方法 [19][20][21] 自动驾驶社区生态 - 自动驾驶之心知识星球已成为国内最大专业社区，拥有近4000名成员和100+行业专家 [11] - 社区构建完整技术闭环，涵盖课程体系（9大视频教程）、硬件开发（标定板、机械臂）和实战项目 [3] - 与近200家企业建立合作，包括小米汽车、地平线、英伟达等头部公司，提供内推渠道 [7][66] 行业应用场景 - 智能交通领域应用语言引导车辆检索、视觉问答等技术，提升系统交互能力 [30] - 自动驾驶感知模块融合视觉语言模型，实现开放词汇目标检测和语义分割 [31] - 决策控制系统结合大语言模型，开发可解释的轨迹预测和运动规划方案 [32][33] 数据集发展 - 视觉语言预训练数据集规模显著扩大，LAION5B包含50亿图文对，WebLI达120亿规模 [23] - 自动驾驶专用数据集持续丰富，NuScenes、Waymo Open Dataset支持多任务学习 [28] - 语言增强数据集兴起，如NuScenes-QA支持视觉问答任务，推动人车交互发展 [29] 人才发展体系 - 社区建立30+技术学习路线，覆盖BEV感知、Occupancy等40个方向 [11] - 求职板块包含100问系列（TensorRT部署、BEV感知等）和面经分享，直击企业需求 [66][68] - 直播体系每年规划100场，邀请CVPR/ICCV作者和车企专家分享量产经验 [15][16]

Autonomous Driving

Visual Language Model

Visual Language Model

自动驾驶之心· 2025-07-12 20:00

自动驾驶行业融资动态 - 某智驾公司因估值过高且量产项目稀少导致融资困难，估值接近头部企业但缺乏实际项目支撑 [3] - 该公司与头部车企达成特殊融资协议：车企投资智驾公司后，资金需全额返投至车企旗下经营困难的零部件子公司 [4] - 该操作实质为资金循环流转，旨在为车企子公司创造外部融资的公关宣传点，类似操作在该车企已有先例 [4] 行业竞争格局分化 - 头部智驾公司凭借算法优势与量产能力持续获得项目，年融资轮次可达1-2轮，形成良性发展循环 [5] - 技术实力薄弱的企业面临项目获取与融资双重困境，仅能获得有限市场份额 [5] - 2023年智驾市场竞争加剧，企业生存状态呈现"冰火两重天"两极分化 [5] 行业发展核心要素 - 实际量产交付能力被视为企业长期发展的关键，超越技术概念炒作的重要性 [5] - 算法性能提升与工程化落地能力是获得市场认可的基础要素 [5] - 部分企业为维系客户关系选择配合资本运作，但可能偏离技术深耕主线 [4][5] 技术发展趋势 - 行业聚焦端到端自动驾驶、世界模型等前沿技术方向 [7][9] - 感知技术领域形成BEV感知、Occupancy等30+技术路线矩阵 [7] - 大模型技术正渗透至感知、决策等多个技术环节 [7][9]

自动驾驶之心· 2025-07-12 20:00

自动驾驶大模型技术发展 - 理想汽车是国内首个实现视觉语言大模型(VLM)上车的企业，在自动驾驶多模态大模型领域经验丰富[2] - 行业技术路线已明确向端到端+大模型方向发展，长安/小鹏等车企均已宣布大模型上车计划[4] - 自动驾驶大模型应用场景包括智能座舱、具身智能、数据挖掘和标注等领域，未来发展空间广阔[4] 大模型核心技术要点 - 通用大模型需横向对比开源SOTA模型，分析不同任务下的优劣势[4] - 微调技术涉及LoRA、Adapter、DPO等方法，是业务模型落地的关键[6][15] - 大模型存在幻觉问题，解决方案包括外挂知识库、微调和强化学习等技术[6] - 私有数据集构建和prompt模板设计是业务模型的核心竞争力[4] 自动驾驶大模型课程体系 - 课程涵盖多模态大模型基础概念、架构、训练范式和公开数据集[9] - 重点讲解模态编码器、Input/Output Projector、LLM Backbone等核心模块[11] - 覆盖图文理解、视频理解、任意模态等5种通用多模态大模型算法[11] - 包含DriveVLM等5个最具代表性的自动驾驶端到端大模型算法[17] - 提供行业就业指导，分析公司需求和技术瓶颈等实际问题[19] 行业人才需求 - 企业面试重点关注候选人对开源模型的对比分析能力[4] - 实际项目经验(如RAG系统)和私有数据集构建经历是重要考察点[4][6] - 需要掌握从算法设计到工程化落地的全流程能力[22] - 高校学生、技术人员和转行人员是该领域主要人才来源[26]

自动驾驶之心· 2025-07-12 20:00

视觉大语言模型 - 文章汇总了视觉大语言模型（VLM）在自动驾驶和智能交通领域的最新研究资源和论文 [3][4] - 提供了多个开源项目链接，涵盖视觉语言模型的理论、应用和安全等方面 [3] - 列出了多个顶级会议（CVPR 2024、ICLR 2024等）的最新论文，涉及视觉语言模型的预训练、对齐和推理优化 [5][7] 迁移学习方法 - 总结了视觉语言模型在迁移学习中的最新进展，包括非自回归序列模型、公平性优化和高效微调方法 [7] - 提出了多种改进视觉语言模型迁移性能的技术，如动态视觉标记、上下文学习和检索增强对比学习 [7] - 涵盖了CVPR、ICLR、NeurIPS等会议的多篇论文，涉及模型架构优化和零样本泛化能力提升 [7] 知识蒸馏 - 讨论了视觉语言模型在检测、分割和多任务学习中的知识蒸馏技术 [8] - 未提供具体数据或论文细节，仅作为研究方向提及 [8] 世界模型 - 综述了自动驾驶中世界模型的研究，包括场景理解、未来预测和4D重建 [9][12] - 列出了多个创新模型，如HERMES、DriveDreamer4D和Vista，涵盖3D场景生成和可控视频预测 [9][12] - 提供了世界模型在自动驾驶中的全面调查和未来趋势分析 [12] 扩散模型 - 汇总了扩散模型在图像处理、视频生成和自动驾驶中的应用 [14][15] - 列出了多个开源资源和论文集合，涵盖图像恢复、3D视觉和推荐系统等领域 [14][15] - 提供了扩散模型在低层视觉、时间序列和多模态编辑中的最新研究进展 [15] 端到端自动驾驶 - 介绍了端到端自动驾驶的最新研究方向和论文资源 [16][19] - 提供了多个开源项目链接，涵盖感知、预测、规划和仿真等方向 [19] - 列出了CVPR、ICRA、NeurIPS等会议的相关研讨会和论文，涉及大规模基础模型和行为驱动驾驶 [19] 行业动态 - 提到自动驾驶行业有近4000人的交流社区，涵盖30+技术栈和300+公司与科研机构 [17] - 涉及感知、定位、规划控制等多个领域的技术方案和岗位发布 [17]

人工智能（Artificial Intelligence）

自动驾驶（Autonomous Driving）

Autonomous Driving

视觉语言模型（VLM）

世界模型（World Model）

端到端自动驾驶（E2E Autonomous Driving）

人工智能（Artificial Intelligence）

自动驾驶（Autonomous Driving）

Autonomous Driving

视觉语言模型（VLM）

世界模型（World Model）

端到端自动驾驶（E2E Autonomous Driving）

研一刚入学导师让我搭各种AI Agent框架，应该往什么方向努力？

自动驾驶之心· 2025-07-12 20:00

Agent技术发展现状 - Agent领域的低垂果实已被摘完纯API调用的红利期结束于22年底至23年需结合多模态和ML/DL技术提升竞争力[1][14] - 网易逆水寒等商业化案例已实现盈利技术落后公司面临生存压力[1] Agent技术分类博弈类/MARL衍生 - 主流方法为将MARL技术迁移至LLM Agent 实验环境集中于矩阵博弈和overcook等场景学术价值高于实用价值[2] 游戏类应用 - 文本化环境构建成为重点如civrealm和LLM play sc2项目需解决游戏文本空间的精准映射问题[4] - 多模态技术渗透明显安波团队的多模态Agent cradle带动技术潮流黑神话悟空等商业项目开始应用[4] - 棋牌类游戏全面覆盖但需突破传统RL已实现的人类超越瓶颈[5] 具身智能 - 机器人领域更看重真机实验纯仿真研究认可度较低[5] 社会模拟类 - 斯坦福小镇等项目引爆关注核心挑战包括：仿真器开发（Unity成为主流）、个性化决策保持、百万级Agent交互支持[6][8] - 可视化Demo成为项目评估关键要素[9] 商业化应用 - 客服问答和RAG技术最成熟落地变现能力突出[9] - Tool use类工具（如HuggingGPT）成为企业生产力提升重点[9] - 自动化流水线应用分化代码生成类依赖基础模型性能 AI for science类需跨学科知识整合[9] Minecraft专项 - 技术路线分化为纯RL（如OpenAI视频学习）、纯LLM（Voyager等技能库方案）、LLM+RL混合（顶会热门）[11][12] - 竞争白热化需顶级团队资源支持才可能突破[13] 行业发展建议 - 高校研究需转向商业化场景合作单打独斗模式已失效[14] - 技术路径选择应结合自身优势领域避免同质化竞争[14] 技术社区动态 - 大模型之心Tech社区提供每日论文/技术报告更新覆盖预训练、量化、RAG等12个技术板块[15] - 会员日均成本低于0.3元主打快速技术路径打通[16]

地平线、滴滴出行2026届校园招聘正式开启！

自动驾驶之心· 2025-07-12 14:51

行业招聘动态 - 2025年智能驾驶行业校招已开启地平线、滴滴、元戎启行等公司释放大量岗位涉及感知、规控、端到端、大模型等技术方向[1] - 岗位需求呈现融合趋势自驾与具身智能结合的新兴岗位增加如具身智能相关职位[1] - 技术面试集中在7月底至8月初建议求职者提前准备简历和面试[1] 企业岗位分布 - 地平线2026届校招覆盖硬件开发、感知后处理、中间件软件、规划控制算法等方向工作地点包括北京、上海、香港[2] - 滴滴国际化事业部招聘算法工程师涉及定价策略、派单策略、补贴策略优化[3] - 自动驾驶领域重点招聘多模态端到端算法、定位算法、反作弊算法等岗位[4] 求职社区资源 - AutoRobo知识星球成员近1000人涵盖地平线、理想汽车、华为、小米等公司从业者及求职者[6] - 社区提供面试题库、行业研报、谈薪技巧、内推资源等服务[6][10][16][20] - 独家汇总自动驾驶与具身智能领域面试一百问包括毫米波融合、BEV感知、多传感器标定等专题[11][12][15] 行业研究资料 - 星球内分享具身智能、人形机器人等领域深度研报如《中国具身智能创投报告》《人形机器人量产与硬件研报》[16] - 研究报告覆盖技术路线、市场机遇、上下游产业链分析[16] 面试经验参考 - 整理英伟达、小米汽车、华为等企业真实面经包含算法岗、SLAM、行为预测等方向[18][22] - 收录决策规划控制、算法工程师等岗位从一面到三面的详细复盘[18] - 提供转行建议、面试官视角分析等宏观指导[23]

都在抢端到端的人才，却忽略了最基本的能力。。。

自动驾驶之心· 2025-07-12 14:36

行业趋势与竞争格局 - 某新势力智驾团队在6个月内从行业垫底反超至与小鹏持平，团队规模不足900人[2] - 2024年底起该团队工程师成为行业挖角重点，各职级均频繁接到猎头电话[2] - 行业竞争焦点从算法转向数据闭环能力，模型算法仅是实现0到10的基础而非10到100的核心[3] 技术突破方向 - 4D自动标注（3D空间+时间维度）成为量产关键，涉及动态目标/OCC/静态/端到端四大标注类型[3][7] - 主流技术路径采用点云3D目标检测或激光雷达-视觉(LV)融合方案提升3D检测性能[4] - 端到端+LLM技术推动行业转向无监督预训练+高质量数据集微调模式[4] - 动态标注需完成离线3D检测→多帧跟踪→后处理优化→遮挡优化的全流程[6] 核心技术瓶颈 - 时空一致性要求：连续帧动态目标追踪需解决遮挡/形变导致的标注断裂[8] - 多模态融合复杂度：需同步对齐激光雷达/相机/雷达的时空数据与语义[8] - 动态场景泛化难度：应对交通参与者突发行为(变道/急刹)及恶劣环境干扰[8] - 标注效率矛盾：高精度要求与海量数据导致人工校验成本居高不下[8] 量产落地挑战 - 场景泛化成为痛点，需覆盖不同城市/道路/天气条件下的数据标注一致性[9] - 自动标注系统依赖离线算力与时序信息融合，对工程师系统能力要求显著提升[3] - 数据联合标注取代传统分标模式，成为算法发展的新刚需[4] 技术课程体系 - 动态标注全流程包含3D检测(SAFDNet算法)、跟踪(DetZero)、遮挡优化等实战模块[12] - 静态标注基于SLAM重建图实现，避免单帧感知的道路偏差问题[15] - OCC标注采用稠密化点云/跨传感器优化等方案应对特斯拉Occupancy Network标准[16] - 端到端真值生成整合动态障碍物/静态元素/可行驶区域/自车轨迹全链路[17]

4000人的自动驾驶黄埔军校，死磕技术分享与求职交流~

自动驾驶之心· 2025-07-12 13:41

自动驾驶行业现状与趋势 - 2025年自动驾驶行业面临技术迭代加速和人才竞争加剧的局面，部分从业者转向具身智能和机器人领域，但仍有大量人才坚守[2] - 行业薪资水平显示头部企业仍保持高投入，应届生可达45k*16薪，超越2-3年经验社招人员[2] - 技术迭代周期从2024年下半年开始明显缩短，2025年技术基调确定为VLA（视觉语言动作）2.0体系[8] - 前沿技术方向包括：视觉大语言模型基座、扩散模型端到端轨迹预测、3D高斯泼溅生成技术、世界模型等[8] 自动驾驶技术社区与资源 - 自动驾驶之心知识星球已成为国内最大专业社区，拥有近4000名成员和100+行业专家[13][14] - 社区内容覆盖30+技术方向学习路线，包含感知、定位、规划控制等全栈技术栈[14] - 提供独家资源包括：千元级付费课程8折、100+场学术/工业界直播回放、近5000份干货资料[19] - 每周举办1-2场前沿技术直播，2025年重点聚焦VLA、大模型、扩散模型等方向[21][22] 关键技术发展方向视觉语言模型(VLM) - 形成完整技术体系包括预训练、迁移学习、知识蒸馏等方向，相关论文在CVPR2024等顶会集中爆发[24][25] - 应用领域覆盖智能交通和自动驾驶，包括语言引导车辆检索、视觉问答、异常识别等[37][38] - 基础理论持续创新，2024年出现RLAIF-V、RLHF-V等强化学习对齐方法[25] 端到端自动驾驶 - 形成两大技术路线：开环端到端1.0和闭环端到端2.0（VLA体系）[50] - 关键挑战包括：感知-规划耦合、长尾场景处理、可解释性等[55][62] - 典型方法包括DriveGPT4、DriveMLM等，结合大语言模型提升解释能力[59] 世界模型与扩散模型 - 世界模型成为研究热点，2024-2025年出现HERMES、DrivingWorld等统一框架[43][45] - 扩散模型在3D视觉、视频生成等领域应用广泛，相关综述论文超过20篇[47][48] - 自动驾驶应用包括DriveDreamer系列、MagicDriveDiT等街景生成方法[42][51] 行业人才发展 - 技术岗位需求呈现两极分化：基础算法岗竞争激烈，新兴领域(VLA、世界模型等)人才紧缺[2][97] - 职业发展建议：传统SLAM可转向3D重建，控制背景可拓展规划算法，感知方向需关注端到端技术[99] - 学习路径强调体系化：建议通过社区获取领域知识图谱、面试经验和岗位需求信息[3][14] 企业合作与生态 - 社区与近200家企业建立合作，包括小米、地平线、英伟达等头部公司[7][109] - 提供校招/社招内推渠道，简历可直达企业HR，覆盖算法、工程等多个岗位[10][19] - 资源对接涵盖学术机构（清华、ETH等）和工业界（华为、大疆等）[7][106]

Autonomous Driving

Artificial Intelligence

Visual Language Model

Artificial Intelligence

Visual Language Model

Diffusion Model

Autos

自动驾驶之心知识星球

之心急聘！25年业务合伙人招聘，量大管饱~

自动驾驶之心· 2025-07-12 13:41

业务合伙人招募 - 公司计划向国内外招募10名优秀合伙人负责自动驾驶相关业务开发[2] - 主要业务方向包括课程研发、论文辅导和硬件研发[2] 技术方向需求 - 重点招募领域涵盖大模型/多模态大模型、扩散模型、VLA等前沿技术方向[3] - 涉及端到端自动驾驶、具身交互、联合预测等关键技术[3] - 包含SLAM、3D目标检测、世界模型等感知技术[3] - 关注闭环仿真3DGS、大模型部署与量化感知推理等应用方向[3] 人才要求 - 候选人需具备QS200以内高校硕士及以上学历[4] - 拥有顶会论文发表经历者优先考虑[4] 合作待遇 - 提供自动驾驶领域资源共享包括求职、读博、留学推荐等[5] - 设置丰厚现金激励机制[5] - 可获得创业项目合作与推荐机会[5]

从科研到落地，从端到端到VLA！一个近4000人的智驾社区，大家在这里报团取暖~

自动驾驶之心· 2025-07-11 19:23

自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区，已吸引华为天才少年及多位领域专家加入[2] - 构建了学术+产品+招聘的完整生态链，形成课程+硬件+问答的教研闭环[2] - 社区内容涵盖技术动态分享、入门问答、求职信息及行业前沿讨论[2] 技术课程体系 - 提供超千元价值的自动驾驶技术论文解读免费视频教程[2] - 原创直播课程覆盖自动驾驶9大方向：综述/感知融合/标定/SLAM/决策规划/数据工程等[2] - 自研硬件包括标定板、黑武士、天工开物及具身智能机械臂等设备[2] - 网络公开课包含自动驾驶基础、深度学习、机器学习等十余门课程[2] 学习路线规划 - 整理15个自动驾驶学习方向路线图，包含新人指南/提问技巧/问答精选等模块[3] - 汇总国内外高校著名自动驾驶团队及企业信息[3][4] - 提供自动驾驶数据集、仿真工具、标注工具等资源[3] 行业资源对接 - 与近200家自动驾驶公司建立内推渠道，简历可直达企业[4] - 覆盖小米/地平线/理想/小鹏/英伟达/比亚迪/华为等头部企业资源[6] - 针对创业者/高管/产品经理等角色开放资源对接通道[6] 技术发展趋势 - 2025年技术基调确定为VLA（视觉语言行动）驱动的端到端2.0系统[7] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS生成技术等[7] - 技术迭代周期从2024年下半年开始明显缩短[7] 知识星球内容 - 国内最大自动驾驶技术社区，成员近4000人，含100+行业专家[14] - 每周活跃度居国内前20，日均成本约0.5元[14] - 四大核心板块：学术进展追踪/技术分类汇总/求职资料/问题解答[16] 前沿技术方向 - 重点布局VLA/大模型/扩散模型/具身智能等方向[24] - 视觉语言模型应用涵盖预训练/迁移学习/知识蒸馏等技术路线[27][28][29] - 世界模型研究聚焦3D场景理解与生成、驾驶视频生成等方向[45][46] 数据集资源 - 整理超30个自动驾驶数据集，包含KITTI/Cityscapes/nuScenes等标杆数据集[37] - 语言增强数据集涵盖视觉问答、导航指令、车辆检索等场景[38] - 图像文本数据集规模从百万级(COCO)到百亿级(WebLI)不等[31] 求职与职业发展 - 提供面经覆盖SLAM/计算机视觉/感知融合等方向[4] - 专家建议传统SLAM从业者转向3DGS重建或规控领域[106] - 多模态3D检测方向建议向端到端/大模型/数据闭环转型[108]

Autonomous Driving

Embodied Intelligence

Large Vision-Language Models

Embodied Intelligence

Large Vision-Language Models