自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

自动驾驶之心· 2025-11-09 00:03

本文只做学术分享，如有侵权，联系删文以下文章来源于About云，作者阿飞 About云 . 1.求职、面试、社会新闻、提升、职场2.码农一枚3.2013年创办About云社区，会员50万+。2017年首个提出并发起系统帮助职场人面试。 4.2020年成立公司作者 | 阿飞来源 | About云点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球现在还裁员吗？是的，还在裁。我一朋友小花，他们公司原来16个人，现在还剩下3个。这3个人里，其中一人能力特别强，我们就叫强哥，什么问题都能解决。大家都觉得他肯定能留下来，结果最先被裁的，就是他。为什么？因为太贵了。现在的裁员标准，从来不是能力，而是成本。他们几次找强哥谈降薪，强哥不同意。不签字，结果就优先被裁。这几年，公司裁员，优先考虑的不是"谁能力强"，而是谁"更便宜"。甚至有时候，你能力越强，薪资越高，被裁的可能性反而越大。你可能会问，那公司不怕能力强的人走了，产品质量出问题？公司当然有办法。有的企业靠法务保命。产品可以出问题， ...

自动驾驶之心· 2025-11-08 20:35

以下文章来源于About云，作者阿飞 About云 . 1.求职、面试、社会新闻、提升、职场2.码农一枚3.2013年创办About云社区，会员50万+。2017年首个提出并发起系统帮助职场人面试。 4.2020年成立公司作者 | 阿飞来源 | About云点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文现在还裁员吗？是的，还在裁。我一朋友小花，他们公司原来16个人，现在还剩下3个。这3个人里，其中一人能力特别强，我们就叫强哥，什么问题都能解决。大家都觉得他肯定能留下来，结果最先被裁的，就是他。为什么？因为太贵了。现在的裁员标准，从来不是能力，而是成本。他们几次找强哥谈降薪，强哥不同意。不签字，结果就优先被裁。这几年，公司裁员，优先考虑的不是"谁能力强"，而是谁"更便宜"。甚至有时候，你能力越强，薪资越高，被裁的可能性反而越大。你可能会问，那公司不怕能力强的人走了，产品质量出问题？公司当然有办法。说到底，现在的职场逻辑变了。能力不是 ...

滴滴和港中文最新的前馈3D重建算法UniSplat！史少帅参与~

自动驾驶之心· 2025-11-08 20:35

文章核心观点 - 港中文（深圳）、滴滴和港大团队提出UniSplat，一种用于动态驾驶场景重建的通用前馈框架，其核心是构建统一的3D潜在Scaffold，通过融合多视图空间信息与多帧时间信息来实现鲁棒的新视角合成 [1][6] - UniSplat在Waymo和NuScenes数据集上的实验表明，其在新视角合成任务中达到当前最优性能，PSNR达到25.37 dB，较此前最优方法提升1.10 dB [7][34][37] - 该框架对自动驾驶系统的仿真、场景理解和长时程规划等关键任务具有重要支撑作用 [5] 技术背景与挑战 - 城区驾驶场景的3D重建是自动驾驶系统的核心能力，但现有3D高斯溅射技术通常假设输入图像间存在大量视角重叠，且依赖逐场景优化，限制了在实时驾驶场景中的适用性 [5] - 城市驾驶场景中的鲁棒重建面临三大挑战：维持随时间平滑演化的统一潜在表示、处理部分观测和遮挡及动态运动、从稀疏输入中高效生成高保真高斯体 [5] - 前馈式重建方法通过单次前向传播合成新视角，但EvolSplat忽略语义融合且缺乏动态处理机制，Omni-Scene未纳入时间聚合且受限于粗粒度3D细节 [5] UniSplat框架设计 - 框架采用三阶段流程：首先构建以自车为中心的3D Scaffold编码几何和语义线索，其次进行时空融合整合多视图空间上下文和历史Scaffold，最后通过双分支解码器生成动态感知高斯体 [6] - 引入高效的融合机制直接在3D Scaffold内运作实现一致的时空对齐，空间融合采用稀疏3D U-Net整合多视图特征，时间融合通过自车运动补偿将历史Scaffold融合到当前Scaffold [20][21][22] - 设计双分支解码器，点解码器分支利用点级锚点保留细粒度几何细节，体素解码器分支直接从体素中心生成新高斯基元以提升场景完整性 [23][24][27] 核心技术创新 - 提出统一3D潜在Scaffold作为结构化表示，支持在3D空间内直接进行跨视图和跨时间帧的时空融合，避免传统2D图像域融合受视图重叠有限影响的问题 [6][20] - 创新性引入动态感知高斯补全机制，每个高斯基元关联动态属性，通过运动感知过滤和静态高斯记忆库实现随时间累积的渐进式场景补全 [23][29] - 利用预训练几何基础模型和视觉基础模型捕捉场景的几何和语义上下文，为Scaffold构建提供鲁棒先验，其中几何基础模型直接预测密集3D点云解决尺度模糊问题 [14][15] 实验结果与分析 - 在Waymo数据集上，UniSplat在输入视图重建和新视角合成任务的所有指标上均持续优于MVSplat、DepthSplat、EvolSplat和DriveRecon等基线方法 [33] - 在nuScenes数据集上，UniSplat的PSNR达到25.37 dB，SSIM达到0.765，显著超过Omni-Scene等此前最优方法 [34][37] - 消融实验表明，同时使用几何和语义特征时PSNR达到25.08 dB，而缺失语义特征会导致LPIPS指标显著下降；空间融合和时间融合分别带来PSNR提升0.36 dB和0.58 dB [41][42] 技术影响与潜力 - UniSplat框架展现出对原始相机覆盖范围外挑战性视角的出色泛化能力，即使对于稀疏非重叠相机视角和复杂场景动态性也能提供高质量渲染结果 [1][7] - 该技术为动态场景理解、交互式4D内容创建及终身世界建模等未来研究方向提供了极具潜力的基础 [44] - 通过流式记忆机制实现时间持久化重建，同时抑制动态伪影，为自动驾驶长时程场景理解提供了新的技术路径 [29][44]

自动驾驶之心· 2025-11-08 20:35

公司业务拓展 - 公司正积极拓展业务范围，从原有的内容平台向企业培训和求职辅导等方向进行能力输出 [2] - 业务拓展的驱动力来自行业内越来越多的企业和个人的明确需求 [2] - 公司面向全球自动驾驶领域从业者发出合作邀请，计划在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [4] 市场需求分析 - 企业端培训需求呈现多样化特征，涵盖技术进展梳理、发布会方案解读以及行业发展趋势总结 [2] - 个人用户端存在显著的求职辅导需求，求职者普遍面临简历缺乏亮点、急需项目经验补充和专业技能指导的困境 [3] 合作方向与岗位说明 - 合作聚焦于多个前沿技术方向，包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等 [5] - 合作岗位主要涉及自动驾驶培训、课程开发及原创文章创作 [6] - 培训业务明确划分为面向企业和高校研究院所的B端市场，以及面向学生和求职者的C端市场 [6] 合作激励 - 公司为合作者提供具有吸引力的高额酬金 [5] - 合作者将有机会获得公司提供的丰富行业资源 [5]

自动驾驶之心· 2025-11-08 20:35

公司组织架构 - 英伟达CEO黄仁勋目前有36名直接下属，分属战略、硬件、软件、AI、公关、网络及一位执行助理七个职能板块[2][4] - 硬件业务板块有9名直接下属，占团队总人数的三分之一，涵盖GPU、电信及DGX整机系统等业务，是公司的基石[7][8][9] - AI、具身智能与自动驾驶等前沿技术领域配置了7名大将，包括吴新宙，被视为公司商业版图的第二根支柱[9][10][11] - 公关职能配置了3名直接下属，远超行业惯例，原因在于公司处于产业链上游，需系统化处理与全球企业、研究机构、政府及投资人的复杂关系[13][16][17][18] 核心管理团队 - GPU工程高级副总裁Jonah Alben在公司任职28年，被誉为GPU架构灵魂，管理超千人的团队并拥有34项专利[24][25][26][31] - 软件工程执行副总裁Dwight Diercks在公司任职31年，是资历最老的高管之一，全面负责所有产品线的核心系统软件与平台层开发[33][34][38] - 首席科学家Bill Dally是并行计算权威，推动GPU从图形处理器进化为通用并行计算平台，并为AI硬件架构奠定基础[43][44][48] - 汽车业务副总裁吴新宙是直属高管中唯一的华人，其加入后公司汽车业务收入从2023年缩水4%转变为2025财年收入达5.67亿美元，几乎翻倍[57][66][72][73] 管理模式与文化 - 公司推崇扁平化管理体系，CEO直接下属曾达55名，旨在缩短决策链、加速信息流动，但近期人数缩减近四成，或预示管理模式向垂直化调整[75][79][97][115][116] - 管理层保持高强度工作节奏，CEO曾要求每位员工每周提交五项最重要工作清单，并亲自处理约两万封周报邮件以掌握一线信息[92][93][95] - 公司文化强调危机意识与高压环境，办公设施专注于工作本身，缺乏硅谷常见的休闲设施，创始人认为“第二名就是第一个失败者”[118][123][124][130] 业务与财务表现 - 公司2024财年净利润达295亿美元，同比飙升近600%，2025财年前三个月净利润已攀升至148亿美元，同比激增628%[99] - 员工总数从2024年初的2.96万人增长至2025年的3.6万人，同比上升21.62%，是过去16年间规模扩张幅度最大的一次[101][102] - 汽车业务在吴新宙带领下实现显著增长，2024至2025财年收入从2.81亿美元飙升至5.67亿美元[72]

自动驾驶之心· 2025-11-08 00:04

公司管理哲学 - 公司采用相信人性本善的柔性管理风格员工无需打卡考勤但工作自发性高 [5] - 管理风格在行业内属于少数派部分同业公司采取高压监控等严格管控措施 [5] - 创始人注重不同背景人才的融合亲自充当会议翻译官以确保团队认知对齐 [6] - 公司在成为明星独角兽后警惕管理懒惰创始人密切关注组织文化建设 [7][9] - 创始人招聘时注重文化价值观契合寻找长期主义者会询问对物流和视觉路线的认可度 [9] 技术路线与战略 - 公司在2021年经历技术路线分歧最终选择跟随特斯拉走视觉感知算法路线导致部分支持激光雷达的技术人员离职 [10] - 选择视觉路线的核心逻辑基于物流行业降本的第一性原理追求软件复杂、硬件简单、成本最低的方案 [10] - 对视觉算法的坚持投入使公司成为无人配送行业算法领先者率先实现无图方案和视觉动作大模型量产上车 [10] - 公司将无人配送商业模式分为两个阶段目前正从整车销售/租赁向运力平台服务转化目标是成为无人车版的货拉拉或滴滴货运 [11] - 公司战略重点从大KA快递市场转向小B大C的即时物流和泛城配市场认为后者是规模更大的蓝海 [11] 融资与资源投入 - 公司近期完成D轮融资金额达几十个小目标 [3] - D轮融资总额超6亿美金为技术迭代储备充足资金 [11] - 算法研发是资金投入重点维持数百人算法团队年支出需数亿元算力和数据基础设施更是吞金兽 [12] - 公司为吸引技术人才将办公地点从朝阳酒仙桥迁至海淀大钟寺展现引进人才的诚意 [3][12] 数据与行业门槛 - 玩转数据飞轮需满足两大条件：上万辆真实运营车辆产生的海量数据以及覆盖复杂场景的多元数据类型 [12] - 公司车辆投放已超万辆覆盖超三百个城市并积累大量小B大C场景数据在数据层面具备门槛优势 [12] - 资本认可算法是无人配送核心关键未来需投入数十亿级资金才可能玩转 [12] 商业化进展与未来规划 - 公司商业化形势明朗海内外客户寻求合作 IPO上市水到渠成 [13] - 未来技术投入聚焦无图、端到端、VLA等算法方向这些是走向未来的技术桥头堡 [13] - 创始人是兼具浪漫主义与现实主义的长期主义者团队专注耐久部分成员从2018年甚至更早追随创业 [15]

课程+软件+硬件！你的第一款小车，自动驾驶全栈技术平台黑武士001

自动驾驶之心· 2025-11-08 00:04

重磅！预售来啦。面向科研&教学级自动驾驶全栈小车黑武士系列001正式开售了。世界太枯燥了，和我们一起做点有意思的事情吧。原价36999元，现在下单赠送3门课程（模型部署+点云3D检测 +多传感器融合），优先锁定的安排组装发货。 1）黑武士001 自动驾驶之心团队推出的教研一体轻量级解决方案，支持感知、定位、融合、导航、规划等多个功能平台，阿克曼底盘。黑武士支持二次开发和改装，预留了众多安装位置和接口，可以加装相机、毫米波雷达等传感器；本科生学习进阶+比赛；√ 研究生科研+发论文；√ 研究生找工作+项目；√ 高校实验室教具；√ 培训公司/职业院校教具；√ 2）效果展示我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能；整体功能介绍户外公园行驶上下坡测试室外大场景3D建图室外夜间行驶点云3D目标检测室内地库2D激光建图室内地库3D激光建图 3）硬件说明 | 主要传感器 | 传感器说明 | | --- | --- | | 3D激光雷达 | Mid 360 | | 2D激光雷达 | 镭神智能 | | 深度相机 | 奥比中光，自带IMU | | 主控芯片 | Nvidia ...

地平线ResAD：残差学习让自动驾驶决策更接近人类逻辑

自动驾驶之心· 2025-11-08 00:04

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球论文作者 | Zhiyu Zheng等编辑 | 自动驾驶之心想让车子自己开，传统方法得像搭积木：先"看"（感知），再"猜"（预测），最后"做决定"（规划）。这套流程环环相扣，一个环节出错，后面全跟着错，既不高效，也不安全。这样一来，学习目标就从 "轨迹是什么？" 变成了 "为什么要调整方向？" 。模型被迫去关注那些导致调整的真实原因，比如障碍物、交通规则等，而不是死记硬背数据里的巧合。我们还引入了逐点残差归一化，确保模型不会因为要纠正遥远的、不确定的大偏差，而忽略了近处关键的小调整。实验证明，这套方法非常有效。在 NAVSIM 基准测试中，ResAD取得了领先的成绩。这说明，通过引入"惯性参考"这个物理常识，并让模型专注于学习"为何要改变"，我们让端到端自动驾驶的学习任务变得更简单、更安全、更可靠。因果混淆：模型可能会"偷懒"，学一些表面功夫。比如它看到前车刹车灯亮就刹车，但根本不理解是因为路口变红灯了。结果可能跟着前车一起闯红灯， ...

刚做了一份VLA学习路线图，面向初学者......

自动驾驶之心· 2025-11-08 00:04

自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向，提供了类人思考能力并通过思维链形式展现车辆决策过程，旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟，行业关注度逐渐下降，自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业，包括智驾方案供应商和车企，均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域：模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline（感知→语言→规划→控制），语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射，通过单次前向传播直接将传感器输入映射为控制动作，消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心，新增推理模块（如Chain-of-Thought、记忆体、工具调用），同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive，其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例，讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA，基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架，自定义数据集和加载模型，开启训练任务并进行微调 [21]

李飞飞团队25年研究大盘点：从视觉理解到具身智能的全景图谱

自动驾驶之心· 2025-11-07 08:05

以下文章来源于深蓝AI ，作者深蓝学院深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。作者 | 深蓝学院来源 | 深蓝AI 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文导读斯坦福大学 HAI 研究院（Stanford Institute for Human-Centered AI, HAI）由李飞飞教授领衔，是全球人工智能基础研究与社会治理的重要引领力量。李飞飞现任斯坦福大学首位红杉讲席教授，美国国家工程院、国家医学院及艺术与科学院三院院士，长期专注于计算机视觉、机器学习、认知神经科学与环境智能系统等方向。她创建的 ImageNet 数据集及相关研究奠定了深度学习在视觉理解领域的核心基础，并推动了"数据驱动 + 认知启发"的研究范式在全球范围的普及。在研究思路上，李飞飞团队始终强调"从算法到系统"的全链路创新，致力于通过多模态融合、可解释学习与跨域感知，实现面向真实世界的智能体建模。近年来，团队的工作从视觉表征学习延伸至多模态生成、具身 ...

Artificial Intelligence

Artificial Intelligence

Previous Next