自动驾驶之心
搜索文档
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-11-10 11:36
技术趋势:VLA与WM的融合 - 视觉语言模型VLA和世界模型WM正逐渐走向融合统一,而非互相排斥的技术路线[2] - 中科院与引望团队在10月份推出的DriveVLA-W0工作证明VLA与WM结合可行[2] - 小米陈龙老师公开讨论VLA+WM融合,认为语言预测和未来预测是具身智能都需要的能力[3] - 语言模型负责抽象推理,引入互联网海量知识,处理高级逻辑和常识推理[3] - 世界模型负责物理和运动规律,通过预测未来像素或状态,涌现语义理解、深度感知等低级能力[3] - 学术界已探索多种融合方案:VLA-RFT在WM中强化学习微调VLA、WorldVLA三模态统一模型、Unified Vision-Language-Action Model离散化三模态[3] - 未来L4级自动驾驶训练链路将是VLA、强化学习RL和WM三者结合,缺一不可[4] - Tesla在ICCV的分享预示国内厂商将陆续跟进VLA+WA结合的技术路线[6] 自动驾驶之心知识星球资源 - 社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人[9] - 目标在未来2年内达到近万人规模,打造交流与技术分享的聚集地[9] - 社区汇总近40个技术方向学习路线,包括VLA、端到端自动驾驶、世界模型、BEV感知等[11][14][23] - 提供近60个自动驾驶数据集资源,涵盖多模态大模型预训练、VLA微调、强化学习等专用数据集[11][41] - 社区成员来自上海交大、北京大学、CMU、清华大学等高校,以及蔚小理、华为、大疆、百度等近300家机构与企业[22] - 社区内部梳理了自动驾驶领域国内外知名高校实验室和公司资源,供学术深造和职业发展参考[33][35] - 提供与多家自动驾驶公司建立的岗位内推机制,帮助成员简历直达心仪企业[17] 技术学习体系与课程 - 社区原创直播课程覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划等核心模块[17] - 具体课程包括:自动驾驶数据工程系列涉及自动标注与4D标注、2D/3D目标跟踪系列、自动驾驶仿真系列、端到端及大模型技术专题等[17] - 针对小白用户提供全栈方向学习课程,涵盖数学基础、计算机视觉、深度学习、编程等入门资料[16] - 技术专题深度覆盖:3D目标检测环视与多模态方法、BEV感知量产方案、Occupancy网络、扩散模型与自动驾驶结合等[23][57][55][47] - 实战内容重点包括:模型压缩与部署优化、CUDA加速、TensorRT及毫米波雷达融合等工程化主题[16][74][76] - 定期举办行业大佬直播分享,目前已累计超过一百场专业技术直播,内容可回看[94]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-09 00:03
文章核心观点 - 自动驾驶之心公众号正在积极拓展业务范围 从内容平台向企业培训 求职辅导和技术服务等领域延伸[2][4] - 公司面向全球招募自动驾驶领域从业者进行合作 合作方向涵盖产品经理 4D标注 世界模型等多个前沿技术领域[4][5] - 合作模式主要包括B端企业高校培训 C端学生求职辅导 课程开发和原创内容创作[4][6] 业务拓展方向 - 企业培训需求多样化 包括技术进展梳理 发布会方案解读和行业发展总结[2] - 求职辅导需求集中在简历优化和项目经验补充方面[3] - 合作领域覆盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习和端到端等方向[5] 合作模式与资源 - 合作岗位主要面向自动驾驶培训合作 B端服务企业和高校研究院所 C端服务学生和求职人群[6] - 合作形式包括课程开发和原创文章创作[6] - 公司将提供高额酬金与丰富行业资源吸引合作伙伴[5]
英伟达内向黄仁勋汇报的36人
自动驾驶之心· 2025-11-09 00:03
黄仁勋的直接汇报团队架构 - 英伟达CEO黄仁勋有36名直接下属,分属战略、硬件、软件、AI、公关、网络及一位执行助理七个职能板块[2][4] 硬件业务的战略地位 - 硬件是公司基石,直接下属中有9位负责硬件相关业务,包括GPU、电信、DGX整机系统等,人数占比达三分之一[7][8] - AI、具身智能与自动驾驶等前沿技术正成为商业版图中的"第二根支柱"[9] AI与前沿技术布局 - AI、自动驾驶等新兴领域配置了7名大将,包括吴新宙,体现公司向"零亿美元市场"扩张的决心[10][11][12] 公关职能的特殊性 - 直属高管中有三位负责公关,远超马斯克(零公关主管),因公司需处理全球企业、研究机构、政府项目与投资人等复杂产业链关系[13][14][15][16] - 公司需建立系统化对外沟通机制,平衡华尔街、开发者生态、客户及政策协调等多方需求[17][18] 核心高管团队构成 - **Jonah Alben**:GPU工程高级副总裁,司龄28年,管理约一千多人团队,持有34项专利,是GPU架构灵魂人物[24][25][26][31] - **Dwight Diercks**:软件工程执行副总裁,司龄31年,统领庞大软件团队,负责所有产品线核心系统软件开发[33][34][38] - **Bill Dally**:首席科学家,原斯坦福教授,推动GPU从图形处理转向并行计算,为AI硬件架构奠定基础[41][44][48] - **吴新宙**:唯一华人直接下属,汽车业务副总裁,主导自动驾驶技术栈升级,其加入后汽车业务收入从2.81亿美元飙升至5.67亿美元(2024-2025财年)[57][58][72][73] 扁平化管理模式演变 - 黄仁勋推崇扁平化体系,曾拥有55名直接下属,强调短决策链与信息透明,通过每周数万封员工邮件保持一线洞察[79][81][84][93] - 公司规模扩张(员工数从2.96万增至3.6万,同比升21.62%)导致管理压力增大,直接下属缩减至36人,暗示组织结构向垂直化调整[75][101][115][116] 企业文化与领导风格 - 公司倡导高压文化,办公设施简约,强调工作效率,黄仁勋以严苛管理著称但极少裁员[109][113][123][124] - 1999年IPO后黄仁勋立即发内部信强调"不惜一切代价完成任务",延续危机感驱动模式[119][121]
滴滴和港中文最新的前馈3D重建算法UniSplat!史少帅参与~
自动驾驶之心· 2025-11-09 00:03
文章核心观点 - 港中文(深圳)、滴滴和港大的研究团队提出UniSplat,这是一种用于动态驾驶场景重建的通用前馈框架,其核心是构建统一的3D潜在Scaffold,通过融合多视图空间信息与多帧时间信息来实现鲁棒的新视角合成 [1] - UniSplat框架旨在解决自动驾驶环视场景中因稀疏非重叠相机视角和复杂场景动态性导致的现有前馈式3D重建技术表现不佳的问题 [1] - 实验表明,UniSplat在Waymo Open和NuScenes数据集上的新视角合成任务中达到当前最优性能,即使对于原始相机覆盖范围外的视角也能提供高质量渲染 [2][7] 技术背景与挑战 - 从城区驾驶场景中重建3D场景是自动驾驶系统的核心能力,支撑仿真、场景理解和长时程规划等关键任务 [5] - 3D高斯溅射技术虽在渲染效率和保真度上取得进展,但其通常假设输入图像间存在大量视角重叠且依赖逐场景优化,限制了在实时驾驶场景中的适用性 [5] - 前馈式重建方法通过单次前向传播合成新视角以实现更快推理,但城市驾驶场景的鲁棒重建仍面临维持时间上演化的统一表示、处理部分观测和遮挡以及从稀疏输入高效生成高保真高斯体等挑战 [5] UniSplat框架设计 - 框架核心是构建统一的3D潜在Scaffold,这是一种结构化表示,利用预训练基础模型捕捉场景的几何和语义上下文 [1][6] - 框架遵循三阶段流程:首先构建以自车为中心的3D Scaffold;其次进行时空融合,整合多视图空间上下文并融合历史Scaffold;最后通过双分支解码器将融合后的Scaffold解码为动态感知高斯体 [6] - 引入高效的融合机制,直接在3D Scaffold内运作,实现一致的时空对齐,并设计双分支解码器结合点锚定细化与体素化生成,确保重建结果的完整性和细节丰富度 [8][9] 关键技术组件 - 3D Scaffold构建阶段,利用几何基础模型推断3D结构,结合视觉基础模型补充语义信息,在自车坐标系下生成潜在Scaffold [14][16] - 统一时空Scaffold融合阶段,在3D空间直接执行空间融合,并通过自车运动补偿将历史Scaffold融合到当前Scaffold中,实现时间增强的场景表示 [20][21] - 动态感知高斯生成阶段,采用双分支解码策略,一点解码器分支保留细粒度几何细节,一体素解码器分支补充稀疏覆盖区域,并引入动态属性分离静态与动态成分 [23][24][27] 实验结果与性能 - 在Waymo Open数据集上,UniSplat在输入视图重建和新视角合成任务的所有指标上均持续优于基线方法MVSplat、DepthSplat、EvolSplat和DriveRecon [33] - 在nuScenes数据集上,UniSplat的PSNR达到25.37 dB,较此前最优方法Omni-Scene提升1.10 dB [37] - 模型展现出对原始相机覆盖范围外挑战性视角的泛化能力,并能有效区分动态与静态目标,抑制重影伪影,实现渐进式场景补全 [7][37] 消融实验分析 - 消融实验表明,Scaffold中同时包含几何和语义特征对性能至关重要,缺失语义特征会导致LPIPS指标显著下降0.05 [41] - 空间融合较仅依赖图像域融合的基线方法PSNR提升0.36 dB,加入时间融合后PSNR再提升0.58 dB,证明统一时空建模的重要性 [42] - 双分支解码器中,仅使用点锚定高斯分支会导致PSNR降低0.46 dB,证明体素生成分支对提升场景完整性至关重要 [43]
被裁,大多输在薪资太高!
自动驾驶之心· 2025-11-09 00:03
当前职场裁员趋势 - 公司裁员行为仍在持续,例如某公司员工从16人裁至仅剩3人[3] - 裁员标准从注重员工能力转向优先考虑人力成本,能力强的员工因薪资较高可能成为优先裁员对象[3] - 公司通过法务手段应对产品质量问题,例如某知名车企法务团队规模达数千人[5] 企业成本控制策略 - 项目开发阶段结束后进入维护期,公司为控制成本裁减高薪人员[5] - 企业更关注员工薪资水平而非解决问题的能力,成本控制成为核心考量[6] - 通过降低人力成本维持运营,但可能影响产品质量并最终由用户承担后果[7] 行业技术社区动态 - 自动驾驶领域技术交流社区规模近4000人,吸引近300家公司和科研机构参与[11] - 社区覆盖30余个技术方向,包括大模型、端到端自动驾驶、多传感器融合等前沿领域[11] - 技术交流群涉及大模型、VLA、BEV感知、轨迹预测等近百个专业方向[9]
被裁,大多输在薪资太高!
自动驾驶之心· 2025-11-08 20:35
文章核心观点 - 当前公司裁员逻辑发生根本转变,成本控制取代员工能力成为首要考量标准 [3][5] - 高能力高薪资员工因人力成本过高而面临更高的被裁风险 [3] - 公司通过法务团队等手段应对产品质量问题,而非依赖核心员工 [5] - 员工需提前规划职业退路,不应在被裁后才被动应对 [6][7] 行业裁员趋势与标准 - 裁员标准从“谁能力强”转向“谁更便宜”,能力强的员工因薪资高可能被优先裁撤 [3] - 项目周期影响用工需求,开发阶段需要大量人手,维护阶段则大幅缩减团队规模 [5] - 公司裁员时可能采取降薪谈判,员工不同意则面临优先被裁的风险 [3] 公司应对策略 - 部分公司依靠庞大法务团队(如某知名车企法务人员达几千人)应对产品问题,采取“解决提出问题的人”的策略 [5] - 公司更倾向于在项目后期(“兔死狗烹,卸磨杀驴”)裁减高薪员工以控制成本 [5] 员工应对建议 - 硬刚维权成本高昂(涉及精力、时间、金钱),对资金有限的员工可能不划算 [6] - 员工需提前主动寻找退路和机会,避免在裁员发生时陷入被动 [6][7] - 当公司开始削减成本时,员工应警觉自身是否已成为“成本的一部分”并及早行动 [7]
滴滴和港中文最新的前馈3D重建算法UniSplat!史少帅参与~
自动驾驶之心· 2025-11-08 20:35
文章核心观点 - 港中文(深圳)、滴滴和港大团队提出UniSplat,一种用于动态驾驶场景重建的通用前馈框架,其核心是构建统一的3D潜在Scaffold,通过融合多视图空间信息与多帧时间信息来实现鲁棒的新视角合成 [1][6] - UniSplat在Waymo和NuScenes数据集上的实验表明,其在新视角合成任务中达到当前最优性能,PSNR达到25.37 dB,较此前最优方法提升1.10 dB [7][34][37] - 该框架对自动驾驶系统的仿真、场景理解和长时程规划等关键任务具有重要支撑作用 [5] 技术背景与挑战 - 城区驾驶场景的3D重建是自动驾驶系统的核心能力,但现有3D高斯溅射技术通常假设输入图像间存在大量视角重叠,且依赖逐场景优化,限制了在实时驾驶场景中的适用性 [5] - 城市驾驶场景中的鲁棒重建面临三大挑战:维持随时间平滑演化的统一潜在表示、处理部分观测和遮挡及动态运动、从稀疏输入中高效生成高保真高斯体 [5] - 前馈式重建方法通过单次前向传播合成新视角,但EvolSplat忽略语义融合且缺乏动态处理机制,Omni-Scene未纳入时间聚合且受限于粗粒度3D细节 [5] UniSplat框架设计 - 框架采用三阶段流程:首先构建以自车为中心的3D Scaffold编码几何和语义线索,其次进行时空融合整合多视图空间上下文和历史Scaffold,最后通过双分支解码器生成动态感知高斯体 [6] - 引入高效的融合机制直接在3D Scaffold内运作实现一致的时空对齐,空间融合采用稀疏3D U-Net整合多视图特征,时间融合通过自车运动补偿将历史Scaffold融合到当前Scaffold [20][21][22] - 设计双分支解码器,点解码器分支利用点级锚点保留细粒度几何细节,体素解码器分支直接从体素中心生成新高斯基元以提升场景完整性 [23][24][27] 核心技术创新 - 提出统一3D潜在Scaffold作为结构化表示,支持在3D空间内直接进行跨视图和跨时间帧的时空融合,避免传统2D图像域融合受视图重叠有限影响的问题 [6][20] - 创新性引入动态感知高斯补全机制,每个高斯基元关联动态属性,通过运动感知过滤和静态高斯记忆库实现随时间累积的渐进式场景补全 [23][29] - 利用预训练几何基础模型和视觉基础模型捕捉场景的几何和语义上下文,为Scaffold构建提供鲁棒先验,其中几何基础模型直接预测密集3D点云解决尺度模糊问题 [14][15] 实验结果与分析 - 在Waymo数据集上,UniSplat在输入视图重建和新视角合成任务的所有指标上均持续优于MVSplat、DepthSplat、EvolSplat和DriveRecon等基线方法 [33] - 在nuScenes数据集上,UniSplat的PSNR达到25.37 dB,SSIM达到0.765,显著超过Omni-Scene等此前最优方法 [34][37] - 消融实验表明,同时使用几何和语义特征时PSNR达到25.08 dB,而缺失语义特征会导致LPIPS指标显著下降;空间融合和时间融合分别带来PSNR提升0.36 dB和0.58 dB [41][42] 技术影响与潜力 - UniSplat框架展现出对原始相机覆盖范围外挑战性视角的出色泛化能力,即使对于稀疏非重叠相机视角和复杂场景动态性也能提供高质量渲染结果 [1][7] - 该技术为动态场景理解、交互式4D内容创建及终身世界建模等未来研究方向提供了极具潜力的基础 [44] - 通过流式记忆机制实现时间持久化重建,同时抑制动态伪影,为自动驾驶长时程场景理解提供了新的技术路径 [29][44]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 20:35
公司业务拓展 - 公司正积极拓展业务范围,从原有的内容平台向企业培训和求职辅导等方向进行能力输出 [2] - 业务拓展的驱动力来自行业内越来越多的企业和个人的明确需求 [2] - 公司面向全球自动驾驶领域从业者发出合作邀请,计划在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [4] 市场需求分析 - 企业端培训需求呈现多样化特征,涵盖技术进展梳理、发布会方案解读以及行业发展趋势总结 [2] - 个人用户端存在显著的求职辅导需求,求职者普遍面临简历缺乏亮点、急需项目经验补充和专业技能指导的困境 [3] 合作方向与岗位说明 - 合作聚焦于多个前沿技术方向,包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等 [5] - 合作岗位主要涉及自动驾驶培训、课程开发及原创文章创作 [6] - 培训业务明确划分为面向企业和高校研究院所的B端市场,以及面向学生和求职者的C端市场 [6] 合作激励 - 公司为合作者提供具有吸引力的高额酬金 [5] - 合作者将有机会获得公司提供的丰富行业资源 [5]
向黄仁勋汇报的英伟达36人
自动驾驶之心· 2025-11-08 20:35
公司组织架构 - 英伟达CEO黄仁勋目前有36名直接下属,分属战略、硬件、软件、AI、公关、网络及一位执行助理七个职能板块[2][4] - 硬件业务板块有9名直接下属,占团队总人数的三分之一,涵盖GPU、电信及DGX整机系统等业务,是公司的基石[7][8][9] - AI、具身智能与自动驾驶等前沿技术领域配置了7名大将,包括吴新宙,被视为公司商业版图的第二根支柱[9][10][11] - 公关职能配置了3名直接下属,远超行业惯例,原因在于公司处于产业链上游,需系统化处理与全球企业、研究机构、政府及投资人的复杂关系[13][16][17][18] 核心管理团队 - GPU工程高级副总裁Jonah Alben在公司任职28年,被誉为GPU架构灵魂,管理超千人的团队并拥有34项专利[24][25][26][31] - 软件工程执行副总裁Dwight Diercks在公司任职31年,是资历最老的高管之一,全面负责所有产品线的核心系统软件与平台层开发[33][34][38] - 首席科学家Bill Dally是并行计算权威,推动GPU从图形处理器进化为通用并行计算平台,并为AI硬件架构奠定基础[43][44][48] - 汽车业务副总裁吴新宙是直属高管中唯一的华人,其加入后公司汽车业务收入从2023年缩水4%转变为2025财年收入达5.67亿美元,几乎翻倍[57][66][72][73] 管理模式与文化 - 公司推崇扁平化管理体系,CEO直接下属曾达55名,旨在缩短决策链、加速信息流动,但近期人数缩减近四成,或预示管理模式向垂直化调整[75][79][97][115][116] - 管理层保持高强度工作节奏,CEO曾要求每位员工每周提交五项最重要工作清单,并亲自处理约两万封周报邮件以掌握一线信息[92][93][95] - 公司文化强调危机意识与高压环境,办公设施专注于工作本身,缺乏硅谷常见的休闲设施,创始人认为“第二名就是第一个失败者”[118][123][124][130] 业务与财务表现 - 公司2024财年净利润达295亿美元,同比飙升近600%,2025财年前三个月净利润已攀升至148亿美元,同比激增628%[99] - 员工总数从2024年初的2.96万人增长至2025年的3.6万人,同比上升21.62%,是过去16年间规模扩张幅度最大的一次[101][102] - 汽车业务在吴新宙带领下实现显著增长,2024至2025财年收入从2.81亿美元飙升至5.67亿美元[72]
中国自动驾驶圈最 “实在” 的老板
自动驾驶之心· 2025-11-08 00:04
公司管理哲学 - 公司采用相信人性本善的柔性管理风格 员工无需打卡考勤但工作自发性高 [5] - 管理风格在行业内属于少数派 部分同业公司采取高压监控等严格管控措施 [5] - 创始人注重不同背景人才的融合 亲自充当会议翻译官以确保团队认知对齐 [6] - 公司在成为明星独角兽后警惕管理懒惰 创始人密切关注组织文化建设 [7][9] - 创始人招聘时注重文化价值观契合 寻找长期主义者 会询问对物流和视觉路线的认可度 [9] 技术路线与战略 - 公司在2021年经历技术路线分歧 最终选择跟随特斯拉走视觉感知算法路线 导致部分支持激光雷达的技术人员离职 [10] - 选择视觉路线的核心逻辑基于物流行业降本的第一性原理 追求软件复杂、硬件简单、成本最低的方案 [10] - 对视觉算法的坚持投入使公司成为无人配送行业算法领先者 率先实现无图方案和视觉动作大模型量产上车 [10] - 公司将无人配送商业模式分为两个阶段 目前正从整车销售/租赁向运力平台服务转化 目标是成为无人车版的货拉拉或滴滴货运 [11] - 公司战略重点从大KA快递市场转向小B大C的即时物流和泛城配市场 认为后者是规模更大的蓝海 [11] 融资与资源投入 - 公司近期完成D轮融资 金额达几十个小目标 [3] - D轮融资总额超6亿美金 为技术迭代储备充足资金 [11] - 算法研发是资金投入重点 维持数百人算法团队年支出需数亿元 算力和数据基础设施更是吞金兽 [12] - 公司为吸引技术人才将办公地点从朝阳酒仙桥迁至海淀大钟寺 展现引进人才的诚意 [3][12] 数据与行业门槛 - 玩转数据飞轮需满足两大条件:上万辆真实运营车辆产生的海量数据 以及覆盖复杂场景的多元数据类型 [12] - 公司车辆投放已超万辆 覆盖超三百个城市 并积累大量小B大C场景数据 在数据层面具备门槛优势 [12] - 资本认可算法是无人配送核心关键 未来需投入数十亿级资金才可能玩转 [12] 商业化进展与未来规划 - 公司商业化形势明朗 海内外客户寻求合作 IPO上市水到渠成 [13] - 未来技术投入聚焦无图、端到端、VLA等算法方向 这些是走向未来的技术桥头堡 [13] - 创始人是兼具浪漫主义与现实主义的长期主义者 团队专注耐久 部分成员从2018年甚至更早追随创业 [15]