自动驾驶之心
搜索文档
提供最专业的平台和运营团队!我们正在招募运营的同学~
自动驾驶之心· 2025-10-07 15:46
公司业务与团队发展 - 公司业务从初始阶段发展为具备技术深度和广度的平台,业务线日益增多 [1] - 团队在2年多时间内孵化了具身智能之心、自动驾驶之心、3D视觉之心、大模型之心Tech四个IP [1] - 公司内容矩阵在全网覆盖近36万人,运营平台包括公众号、视频号、知识星球、哔哩哔哩、知乎、小鹅通等 [1] 招聘岗位与职责 - 招聘全职及兼职的自媒体运营和销售岗位 [2] - 自媒体运营核心职责包括管理课程进度、多平台运营提升用户规模、策划商业化项目、进行行业选题与原创内容撰写 [4] - 销售岗位核心职责包括制作产品宣传材料、对接硬件厂家与客户、推广在线教育产品 [5][6] 岗位要求 - 自媒体运营岗位要求强大的执行力与沟通意识,计算机或AI相关专业本科及以上学历优先,熟悉多平台运营并具备文字功底 [4] - 销售岗位要求具备执行力、沟通意识和抗压能力,计算机或AI相关专业本科及以上学历优先,有自媒体销售经验并能接受出差 [12] 工作地点与职业发展 - 工作地点位于杭州和上海 [7] - 员工将接触顶级运营团队,学习运营技巧与销售策略,获得快速成长机会 [7] - 员工将接触到自动驾驶、具身智能、3D视觉、大模型等最新AI领域内容,同时对接工业界与学术界以拓宽视野 [8] - 公司提供读研、读博等个人提升机会 [9]
算法小垃圾跳槽日记 2024&2025版
自动驾驶之心· 2025-10-06 12:05
行业技术趋势 - 计算机视觉领域传统算法需求锐减,检测、分割等已被归类为传统算法,类似SVM、SIFT的地位 [8] - 市场需求高度集中于大模型、多模态、文生图/视频以及自动驾驶端到端大模型等前沿方向 [8] - 自动驾驶公司的感知岗位是计算机视觉领域内少数仍有需求的领域 [8] 企业招聘动态 - 2024年求职机会相比2021年显著增多,各大厂及知名中小厂均能提供较多面试机会 [8] - 面试流程密集,存在单日进行多达8场面试的情况,反映出招聘活动活跃 [4] - 企业招聘考核标准趋严,几乎所有公司都要求手写LeetCode代码题,高频题目包括实现NMS、MultiHeadSelfAttention、MLP的前向和反向、岛屿数量等 [9][11] 业务部门价值 - 公司中台部门业务价值受到质疑,缺乏自有业务,主要承接其他部门已深度优化的算法任务,难以形成系统性业务积累 [6] - 行业出现去中台化趋势,中台部门对求职者吸引力较低 [6] - 相比中台,拥有稳定业务的部门(如内容安全)更具吸引力 [6]
突然发现,新势力在集中IPO......
自动驾驶之心· 2025-10-06 12:05
行业动态与资源整合 - 国庆期间观察到多家新势力公司启动IPO进程,国内外行业正进行新一轮资源整合[1] - 9月22日国家市场监管总局公示中国第一汽车股份有限公司收购深圳市卓驭科技有限公司股权案,同日英国自动驾驶初创公司Wayve与英伟达签署意向书计划在下一轮融资中投资5亿美元(约合人民币36亿元)[1] - 9月27日魔视智能科技(上海)股份有限公司向港交所提交上市申请书,9月30日博泰车联网科技(上海)股份有限公司在港交所上市敲钟,同日北京四维图新科技股份有限公司宣布完成对鉴智机器人母公司PhiGent Robotics Limited的战略投资,10月2日岚图汽车向港交所递交招股书[1] - 自动驾驶领域技术栈趋于收敛,量产方案趋同,行业出现VLA/WA路线之争[1] 社区资源与服务体系 - 自动驾驶之心知识星球社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人,目标未来2年内达到近万人规模[3] - 社区联合学术界和工业界专家,梳理近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[4] - 社区提供40+自动驾驶技术方向资源,包括国内外高校著名自动驾驶团队整理、算法进阶、规划控制等分类内容[10] - 社区内部提供全栈方向学习课程,包括自动驾驶数据工程系列、2D/3D目标跟踪系列、多传感器标定系列等9大视频教程体系[12] - 社区与近300家机构与自动驾驶公司建立联系,提供岗位内推机制,成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等头部企业[19] 技术领域覆盖范围 - 社区技术资源覆盖自动驾驶感知学习路线、仿真学习路线、规划控制学习路线三大方向[19] - 具体技术板块包括端到端学习路线、3DGS算法原理、VLA学习路线、多模态大模型、占用网络、BEV感知、扩散模型、世界模型等40多个细分领域[19] - 专业分类包含3D目标感知最新综述、激光点云方法汇总、单目3D检测方法汇总、多模态3D检测方法汇总等28个技术模块[28] - 重点技术方向包括自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知、3D目标检测等核心领域[44][46][49][53][55] 行业交流与知识共享 - 社区不定期邀请行业大佬开展直播分享,目前已超过一百场专业技术直播,内容涵盖Impomptu VLA、LangCoop、Diffusion planner等前沿技术[89] - 星球内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等领域[87] - 社区提供国内外自动驾驶与机器人高校汇总、自动驾驶公司汇总、开源项目汇总、自动驾驶开源数据集等产业资源[29][31][35][37] - 日常讨论话题包括端到端自动驾驶入门、VLA学习路线、多传感器融合就业前景、3DGS与闭环仿真结合等实践性问题[20]
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 12:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
自动驾驶之心双节活动进行中(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-04 12:04
社区核心定位 - 专注于自动驾驶技术领域的最前沿社区 [5] - 社区技术方向涵盖视觉语言自动驾驶、世界模型、闭环仿真、扩散模型、鸟瞰图感知等超过40个学习路线 [5] - 社区旨在保持技术活力并推动持续学习 [5] 技术交流与资源 - 提供与学术界及工业界顶尖专家面对面交流的机会 [5] - 交流议题包括视觉语言自动驾驶与规划代理的路线之争、自动驾驶未来发展方向、世界模型内涵及端到端技术讨论 [5] - 社区资源包括七门精品课程,内容覆盖世界模型、轨迹预测、大模型、相机标定、毫米波雷达、点云3D检测、Transformer等技术领域 [5] - 社区内容设计面向初学者,注重核心能力培养 [5] 会员与活动推广 - 为新会员提供星球七折优惠,续费会员可享五折优惠 [4] - 平台课程提供八折优惠券及七折超级折扣卡 [3]
纵向端到端是自动驾驶技术的一道分水岭
自动驾驶之心· 2025-10-04 12:04
行业技术发展现状 - 端到端技术已成为自动驾驶行业普遍宣称但实际实现程度参差不齐的技术方向 [2] - VLA和世界模型成为行业新的热门词汇和竞相追逐的焦点 [2] - 横向端到端(模型驱动的横向规划)已被多家头部智驾团队实现 [3] - 纵向端到端仍是自动驾驶技术的一道分水岭,真正实现的系统极少 [3] 纵向端到端的必要性 - 单纯依赖规则或优化方法难以保证纵向控制的拟人丝滑 [3] - 老司机与新司机的关键区别在于对减速的控制能力 [3] - 防御性驾驶的核心是合理的纵向决策控制加减速 [4] - 真正的防御性减速需要根据必要性在安全和效率间进行权衡取舍 [4] 纵向端到端技术难点 - 纵向控制目标与沿着导航路径高效通行的核心目标存在矛盾 [15] - 人类纵向驾驶数据相比横向数据更为"嘈杂",速度控制存在随机波动 [16] - 模仿学习难以区分有意识的纵向控速和无意义的降速波动 [16] - 横向控制与导航目标正交,而纵向控制与效率目标直接冲突 [15] 技术解决方案方向 - 需要大量数据清洗减少纵向数据噪声对模型训练的影响 [17] - 引入语言因果逻辑推理筛选有逻辑的加减速操作 [17] - 结合强化学习避免模仿学习假设人类数据永远是最优策略的局限 [17] 实际场景表现对比 - 在路口盲区场景中,FSD在自车未探出路口前就将速度降至11km/h,而其他系统在车头明显探出后才减速至12km/h [6][8] - 窄路会车场景中,FSD主动减速靠右让行,通过对向车后立即加速,而其他系统选择继续前行导致双方车辆都降至极低车速 [10][11] - FSD的纵向控制能够实现根据盲区消失及时恢复速度,完全符合人类驾驶预期 [8][14]
模仿学习无法真正端到端!DriveDPO:Safety DPO打破模仿学习固有缺陷(中科院最新)
自动驾驶之心· 2025-10-03 11:32
文章核心观点 - 中科院团队提出DriveDPO框架,旨在解决端到端自动驾驶模仿学习中的安全性问题,通过统一策略蒸馏和安全直接偏好优化,在NAVSIM基准上实现90.0的最新最优PDMS,比纯模仿学习提升1.9,比基于分数的最优方法提升2.0 [1][7][8][12][22] 端到端自动驾驶模仿学习的局限性 - 模仿学习仅关注预测轨迹与人类轨迹的几何相似度,但几何距离不等于安全距离,即使轨迹相似,安全性可能差异巨大 [5][11] - 模仿学习使用对称损失函数,对超越或滞后于人类轨迹的偏差给予同等惩罚,但不同方向的偏差对安全影响极不对称,例如紧急刹车时滞后通常更安全,但对称损失无法反映这种风险不对称性 [5][11] DriveDPO框架的技术创新 - 提出统一策略蒸馏方法,将人类模仿相似度与基于规则的安全分数融合为单一监督信号,直接优化所有锚定轨迹的策略分布,而非像基于分数的方法仅为每个候选轨迹独立学习评分函数 [7][17] - 引入迭代式安全直接偏好优化,将监督信号重构为轨迹级别的偏好对齐任务,优先选择既符合人类驾驶习惯又安全的轨迹,抑制看似合理但存在风险的轨迹 [7][8][18] - 设计了两种拒绝轨迹选择策略来构建偏好对,基于模仿的选择策略效果更优,用于识别空间上接近人类参考轨迹但安全性差的轨迹 [19][20][21][24] 实验验证与性能表现 - 在NAVSIM基准数据集上,DriveDPO完整模型在无责任碰撞、可行驶区域合规性、自车进度、碰撞时间等关键安全指标上均取得最佳或次佳表现,最终PDMS达到90.0 [22] - 消融实验表明,采用基于模仿的拒绝轨迹选择策略的模型PDMS为90.0,优于基于距离的选择策略和朴素选择方法 [24] - 模型输入包含多视图相机图像、激光雷达点云、自车状态与导航指令,输出为预定义离散候选轨迹上的概率分布,采用Transfuser作为感知骨干网络进行多模态融合 [14][15][16] 技术局限与未来方向 - 方法依赖PDMS这一预定义的加权复合指标进行安全评估,可能无法完全捕捉复杂驾驶场景中的所有潜在风险因素 [27] - 规则化监督依赖高保真仿真器提供评估分数,受限于规则设计和仿真器精度,且高保真仿真器获取难度大,制约了数据规模与多样性 [27]
Sim2Real,解不了具身智能的数据困境。
自动驾驶之心· 2025-10-03 11:32
核心观点 - 具身智能领域正面临仿真数据、真实数据与世界模型三种技术路线的选择与融合,行业专家普遍认为仿真数据在当前及可预见的未来具有不可替代的作用,尤其是在模型训练、测试和安全验证方面,而世界模型作为新兴方向,在长期规划和数据生成方面展现出潜力,但其发展仍受限于奖励机制设计、计算资源等因素 [4][19][27] 对Sim-to-Real Gap的理解 - Sim-to-Real Gap的核心在于仿真环境对真实世界模拟不完全,存在视觉细节(如物体摩擦力、光影效果)和物理细节还原不足的问题,导致模型泛化能力弱、仅适配特定场景 [8] - 缩小差距需围绕数据优化展开,包括结合模型需求设计虚拟与真实数据配比、借助AIGC生成丰富数据以兼顾体量与真实性等 [8] - 以阴影问题为例,不同光源位置会形成不同阴影,可作为判断模型对真实世界理解程度的有效依据 [8] - 解决数据问题的一种方案是借助AIGC强大的生成能力,通过替换桌面纹理、光照、物体摆放等方式,兼顾数据丰富性与真实性 [11] 仿真数据与真实数据的价值与应用 - 在自动驾驶等领域,仿真测试已被验证更快速、省时省力且安全,训练用真机更务实,测试用仿真更合适是核心观点之一 [19] - 从学术角度看,若真机数据能极大丰富,同等数量下其训练效果优于仿真数据,但现实是具身智能领域真实数据体量远不及自动驾驶,且机器人本体不易统一,行业期待高,导致真实数据缺口巨大 [20] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试,没有机构会训完模型不做仿真测试就直接上真机,可避免真机实验中烧电机、损坏关节等难以估量的损失 [21] - 仿真在强化学习规模化上价值更大,若仿真器构建良好,可通过大规模并行训练让模型学习到真实数据中难获取的场景(如物体被碰倒后如何处理) [24] - 仿真数据的核心优势包括代码复用性强(更换机器人时仿真代码基本无需改动)以及在教育领域的显著价值,能降低授课与学习门槛 [26] - 长期来看,仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充 [26] 世界模型的未来研究方向与价值 - 世界模型应用于自动驾驶、具身智能的方向正确,但存在核心问题待解决,如“小世界模型”路径是否可行(即能否基于其直接生成轨迹或策略),以及奖励设计与下游任务衔接问题 [29] - 世界模型并非新概念,与过往相关模型概念相通,该领域研究无需大量计算资源,学术界应聚焦用小资源就能探索的学术问题 [29] - 引入力、触觉等新模态是值得关注的研究方向,可聚焦世界模型中物理规律的相关问题,在有限计算资源下开展尝试 [30] - 在未来12-18个月内,最重要的科学问题是如何在世界模型中引入reward,因为action和observation已有较好发展,而操作领域仍处于混沌状态,适合科研探索 [31] - Genie 3虽能渲染视频且三维一致性较好,但在面向机器人等场景时,当前动作维度(如六维、七维)不足,仍需数据引擎构建对应场景来生成高维度动作数据 [32] - 世界模型的研究对于通用视觉、长期规划和记忆功能等方面展现出潜力,但如何设计合适的奖励机制以及如何应用于更多场景是关键待解问题 [32] 对波士顿动力机器人技术的分析 - 波士顿动力机器人的技术实力体现在其执行任务的“丝滑”性,这不仅涉及单纯的抓取操作,还涉及全身运动,其遥操作部分技术难度很高,需要出色的运动控制作为支撑 [33][35] - 该系统的模型设计若不复杂,但结合出色的底层能力实现了好效果,比设计复杂模型更令人震惊,目前在遥操作素材采集上就落后于该系统 [35] - 具身智能领域的关键不在于算法,而在于数据和硬件,波士顿动力的硬件技术方案与教育界常用方案差异显著,其高度拟人化设计代表了正确发展方向,但核心问题在于其硬件产品并不对外出售 [37] - 实现丝滑效果的另一关键因素是推理层面的架构经过大量调整优化,“避免阻塞”这一问题即便有专门研究,开源方案仍有很大改进空间 [37] - 运动控制(运控)水平的差异是表现差异的重要原因,传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性 [38][39]
最新世界模型!WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成(小米&南开)
自动驾驶之心· 2025-10-02 11:04
核心观点 - WorldSplat是一种前馈式4D生成框架,将生成式扩散与显式3D重建相融合,用于自动驾驶场景合成[6] - 该方法通过4D感知潜在扩散模型生成像素对齐的4D高斯分布,再通过增强型扩散模型优化新视角视频,实现高保真、具备时空一致性的多轨迹驾驶视频生成[4][6] - 在基准数据集上的实验表明,WorldSplat在FVDmulti指标上达到16.57,FIDmulti指标达到4.14,显著优于现有方法[31] 技术框架 - 框架包含三个关键模块:4D感知潜在扩散模型、潜在高斯解码器和增强型扩散模型[10] - 4D感知潜在扩散模型以边界框、道路草图、文本描述及自车轨迹为条件,生成多模态潜变量[14][16] - 潜在高斯解码器从潜变量中预测像素对齐的3D高斯分布,并聚合为4D高斯表示[20][22] - 增强型扩散模型对基于高斯分布渲染的视频进行优化,提升细节真实感和时间连贯性[24][27] 算法创新 - 提出动态感知高斯解码器,能直接从多模态潜变量推断精确的3D高斯分布,支持多达48个输入视角[12][21] - 采用静-动态分解方案,将高斯分布划分为静态背景与动态目标,实现4D场景重建[20][22] - 引入混合条件策略,融合退化视角与高质量视角,提升生成保真度与可控性[27] 性能表现 - 在主实验对比中,WorldSplat在FVDmulti指标上达到16.57,较DriveDreamer-2的55.70提升约70%[31] - 在新视角合成任务中,横向偏移±4m时FID T指标为13.38,显著优于Street Gaussian的67.44和OmniRe的67.36[32] - 在下游任务评估中,方法在mIoU指标上达到38.49,较MagicDrive-V2的20.40提升约89%[35] 应用价值 - 支持丰富条件输入包括道路草图、文本描述、动态目标放置与自车轨迹,成为高可控性驾驶模拟器[6] - 生成的合成数据能提升下游感知模型性能,使mAP指标从34.5提升至38.5,相对提升11.6%[35] - 框架无需逐场景优化,可直接沿任意用户定义相机轨迹渲染新视角视频,支持灵活闭环评估[6][23]
业务合伙人招募!4D标注/世界模型/VLA/模型部署等方向
自动驾驶之心· 2025-10-02 11:04
业务合伙人招募计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 主要技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向包括具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等前沿领域 [3] 岗位要求 - 候选人需毕业于QS200以内高校,并拥有硕士及以上学历 [4] - 拥有顶级学术会议发表成果的候选人将获得优先考虑 [4] 合伙人待遇 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]