Workflow
自动驾驶之心
icon
搜索文档
聊一聊:上次让你研究了几天的,是啥自动驾驶相关的论文?
自动驾驶之心· 2025-06-29 15:36
自动驾驶行业技术交流平台 - 平台创建初衷是为自动驾驶行业提供学术与工程技术交流空间 [1] - 核心用户群体覆盖全球顶尖高校学生及算法工程人员(清华大学、北京大学、ETH等20+院校)[1] - 与小米汽车、英伟达、华为等15+头部企业建立校招/社招内推合作 [1] 行业资源整合 - 面向自动驾驶/AI公司高管、产品经理及高精地图公司开放资源对接通道 [1] - 合作企业涵盖整车制造(比亚迪/蔚来)、芯片(地平线)、传感器(大疆)等产业链关键环节 [1] 人才培养体系 - 提供从基础到进阶的模块化学习内容,包含算法理论与代码实践 [1] - 重点服务转行/进阶人群,推动自动驾驶技术人才储备 [1] 行业前景展望 - 明确自动驾驶技术将变革未来人类出行方式 [1] - 平台持续吸引产学研多方力量推动社会技术进步 [1]
2025年,找工作有些迷茫。。。
自动驾驶之心· 2025-06-28 21:34
行业发展趋势 - 自动驾驶和具身智能成为AI技术发展的主线 支撑了近一半的技术路线和融资金额 [2] - L2~L4自动驾驶功能逐步实现量产 人形机器人和四足机械狗等具身智能产品完成复杂动作演示 [2] 求职社区概况 - AutoRobo知识星球定位为自动驾驶、具身智能、机器人方向的求职交流平台 成员规模近1000人 [2] - 社区成员覆盖地平线、理想汽车、华为、小米汽车等头部企业社招人员及2024-2025届校招生 [2] 核心服务内容 求职资源 - 提供面试题库、面经、行业研报、谈薪技巧、内推机会及简历优化服务 [3] - 实时更新算法、开发、产品等岗位的校招/社招/实习信息 [4] 专业知识库 自动驾驶领域 - 包含毫米波视觉融合、3D/4D雷达量产、车道线检测、规划控制、BEV感知等10个专项题库 [7] - 覆盖传感器标定、多模态目标检测、CUDA部署等关键技术节点 [7] 具身智能领域 - 提供轨迹预测、Occupancy感知、端到端自动驾驶等前沿技术题库 [11] - 包含视觉语言导航、Diffusion Policy等交叉学科内容 [11] 行业洞察 - 汇总世界机器人报告、中国人形机器人蓝皮书等深度研报 [15] - 分析技术路线、市场机遇、产业链上下游等关键要素 [12][15] 实战经验沉淀 - 收录滴滴、英伟达、美团等20+企业真实面经 涵盖算法岗、SLAM、产品经理等职位 [16] - 整理面试各环节经验 包括代码题、项目答辩、HR面等全流程复盘 [16][19] 附加价值 - 提供机器人/自动驾驶/AI领域专业书籍推荐 [17] - 分享转行心得、面试官视角建议等非技术类指导 [19]
放榜了!ICCV 2025最新汇总(自驾/具身/3D视觉/LLM/CV等)
自动驾驶之心· 2025-06-28 21:34
自动驾驶技术研究 - DriveArena: 可控生成式自动驾驶仿真平台 支持自定义场景生成和闭环测试 [4] - Epona: 基于自回归扩散世界模型的自动驾驶系统 可预测复杂交通场景演变 [4] - SynthDrive: 高保真传感器仿真流水线 实现真实-仿真-真实数据闭环 [4] - StableDepth: 场景一致的单目深度估计模型 支持尺度不变性深度预测 [4] - U-ViLAR: 基于可微分关联的视觉定位系统 集成不确定性感知模块 [4] 3D重建与场景生成 - DiST-4D: 解耦时空扩散模型 结合度量深度生成4D驾驶场景 [4] - GaussianProperty: 通过LMMs整合物理属性的3D高斯模型 支持材质属性编辑 [4] - GS-Occ3D: 基于高斯泼墨的纯视觉占用重建框架 实现自动驾驶场景三维重构 [5] - Curve-Aware Gaussian Splatting: 参数化曲线重建技术 提升3D几何结构精度 [6] 多模态感知与决策 - CoopTrack: 端到端协同序列感知框架 优化多智能体协作效率 [4] - ETA: 基于大模型的双轨自动驾驶系统 通过前瞻性思维提升决策效率 [5] - CARP: 粗到细的视觉运动策略学习 实现分层动作预测 [5] - Detect Anything 3D: 开放词汇3D检测系统 支持野外场景任意物体识别 [5] 生成式模型应用 - TaxaDiffusion: 渐进式训练扩散模型 实现细粒度生物物种生成 [8] - Hi3DGen: 图像到3D几何生成框架 通过法向桥接保持高保真度 [5] - Aether: 几何感知的统一世界建模 集成物理规律与语义理解 [4] 机器人操作与导航 - A0: 分层 affordance 感知模型 支持通用机器人操作任务 [4] - MoMa-Kitchen: 超10万样本的移动操作基准 针对最后米导航场景 [4] - OVA-Fields: 弱监督开放词汇 affordance 场 用于机器人部件检测 [5] 视觉基础模型 - ReME: 无训练开放词汇分割框架 基于数据中心的约束解除技术 [5] - StruMamba3D: 自监督点云表征学习 探索结构Mamba架构优势 [5] - G2D: 梯度引导的多模态蒸馏 提升跨模态学习效果 [9]
中科院&字节提出BridgeVLA!斩获CVPR 2025 workshop冠军~
自动驾驶之心· 2025-06-28 21:34
3D VLA操作新范式 - BridgeVLA通过将预训练和微调的输入输出对齐到统一的2D空间,实现了VLM与VLA的桥接,仅需输入图片和文字指令即可完成操作 [4][5] - 模型输出从Next token prediction变更为Heatmap prediction,利用3D空间结构先验并将输入输出在2D空间中对齐 [5] - 在RLBench基准测试中平均成功率从81.4%提升至88.2%,在18个任务中的10个取得最佳表现,高精度对齐任务表现突出 [14] 预训练与微调方法 - 预训练阶段采用新颖的可扩展方法,通过图片-目标文本对输入,输出重新排列的图像token并还原为Heatmap,交叉熵损失监督训练 [8] - 微调阶段将点云从正面、上面、右侧正交投影为3张2D图像输入模型,输出Heatmap反投影估计3D空间网格点分数,得分最高点作为平移目标 [11][12] - 采用由粗到细的多级预测方式,首次Heatmap预测后对目标位置附近点云放大裁剪进行二次前向传播,获得更精细位置预测 [12] 基准测试表现 - COLOSSEUM基准测试中平均成功率从56.7%提升至64.0%,在14种评估扰动中的13种表现最佳 [15] - GemBench基准测试中在L1-L4四个层次取得最高平均成功率50.0%,L2和L3设置中达到最先进水平 [17] - 真实机器人实验中在13个基本任务和6种泛化性能测试中,七种设置中的六种优于基线方法RVT-2,视觉干扰设置中表现显著鲁棒 [19] 未来发展方向 - 从Next Token Prediction到Heatmap Prediction的技术范式转变,提供更高数据效率和更好操作效果 [21] - 未来研究可尝试在语义分割和关键点检测等更多样化任务上进行预训练,增强通用视觉理解能力 [21] - 计划整合扩散模型等更具表达能力的动作解码方法,并探索利用LLM进行任务分解以改善长周期任务表现 [21]
何恺明CVPR 2025报告深度解读:生成模型如何迈向端到端?
自动驾驶之心· 2025-06-28 21:34
生成模型技术演进 - 何恺明在CVPR 2025提出《Towards End-to-End Generative Modeling》,揭示生成模型可能面临类似识别模型"前AlexNet时代"的困境,并提出MeanFlow方法将ImageNet生成从250步迭代压缩到1步完成,FID指标逼近传统多步模型天花板 [1][7][24] - 识别模型经历从逐层训练(如DBN、DAE)到端到端训练(AlexNet)的范式革命,当前生成模型(扩散模型、自回归模型)的多步推理模式与识别模型的逐层训练存在相似性 [2][3][7] - MeanFlow核心创新在于用平均速度替代复杂积分运算,采样公式简化为一步生成,ImageNet 256x256任务中MeanFlow-XL/2在1-NFE设置下FID达3.43,显著优于iCT-XL/2的34.24和Shortcut-XL/2的10.60 [27][31][32] 识别与生成的对偶关系 - 识别是数据到语义的抽象流(具体→抽象),生成是噪声到实例的具象流(抽象→具体),两者构成数据流动的双向过程 [13][15][16] - 本质区别在于识别具有确定映射(如猫图片对应固定标签),而生成需从简单噪声映射到无限可能的数据分布,存在高度非线性 [18][20] 流匹配技术突破 - 流匹配通过构建数据分布的流场实现生成,核心公式建立数据与噪声的连续映射关系,涉及条件速度与边缘速度两个关键概念 [22] - MeanFlow推导出MeanFlow恒等式,直接参数化平均速度并定义损失函数,避免复杂积分运算,训练效率显著提升 [27][29] 前沿研究方向 - 当前研究包括Consistency Models系列(iCT/ECT/sCM)、Two-time-variable Models(CTM/Shortcut Models)、Revisiting Normalizing Flows(TarFlow)等方向 [34] - 开放性问题聚焦如何构建真正适用于端到端生成的公式,MeanFlow虽突破但仍受限于迭代框架,需探索更本质的生成建模方法 [34][35] 生成模型应用进展 - CVPR 2025涌现多模态生成突破:DiffSensei桥接多模态LLM与扩散模型实现定制漫画生成,EX-4D通过深度水密网格合成极端视角4D视频 [36][43] - 视频生成领域出现测试时训练实现的1分钟视频生成(One-Minute Video Generation)、VideoMAR基于连续token的自回归视频生成等技术 [39][48]
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-06-27 17:34
业务合伙人招募 - 公司计划向国内外招募10名优秀合伙人负责自动驾驶相关业务开发[2] - 主要业务方向包括课程研发、论文辅导和硬件研发[2] 技术方向需求 - 重点关注大模型/多模态大模型、扩散模型、VLA等技术方向[3] - 涉及端到端、具身交互、联合预测等前沿领域[3] - 需要SLAM、3D目标检测、世界模型等专业人才[3] - 包含闭环仿真3DGS、大模型部署与量化感知推理等技术岗位[3] 岗位要求 - 要求应聘者来自QS200以内高校[4] - 硕士及以上学历优先[4] - 拥有顶会论文者将获得优先考虑[4] 待遇福利 - 提供自动驾驶行业资源共享[6] - 包含求职、读博、出国留学等推荐机会[6] - 提供丰厚现金激励[6] - 可获得创业项目合作与推荐机会[6] 联系方式 - 咨询需添加微信并备注"机构/公司+自动驾驶合作咨询"[7]
商汤绝影世界模型负责人离职。。。
自动驾驶之心· 2025-06-27 17:15
商汤绝影人事变动 - 商汤绝影世界模型研发负责人离职,该负责人曾负责云端技术体系建设和生成式智驾方案R-UniAD研发 [2] - 传闻该负责人离职后可能选择创业 [3] 中阶市场动态 - 商汤绝影已在广汽传祺量产交付基于J6M的中阶方案,但2025年中阶市场将迎来从高速NOA升级为全域NOA的迭代 [4] - 头部公司通过高阶方案蒸馏剪裁推出轻量版城区NOA,适配100 TOPS算力芯片,并已向主机厂推广演示 [4] - 算法方案每年迭代一次,未及时跟进的公司可能被市场淘汰 [4] 高阶市场战略 - 2025年高阶市场核心竞争点是一段式端到端方案,其性能表现惊艳,主机厂招标普遍倾向此类方案 [5] - 商汤绝影UniAD一段式端到端与东风汽车合作,目标2025年Q4量产交付 [5] - 商汤绝影过去两年高阶领域存在感较弱,需通过标杆项目证明能力以获取后续机会 [6] - 2025年是高阶项目大规模释放窗口期,自主与合资主机厂加速布局,后续机会将向10万价位车型下沉 [6] - 一段式端到端量产交付成果将决定商汤绝影能否在高阶市场站稳脚跟,并影响其融资前景 [7][8]
基于VLM的快慢双系统自动驾驶 - DriveVLM解析~
自动驾驶之心· 2025-06-27 17:15
自动驾驶大模型应用 - 核心观点:清华与理想汽车合作开发的DriveVLM系统通过大模型的few-shot能力解决自动驾驶长尾问题,推动L2向L4迭代 [2] - 创新点1:采用Chain-of-Thought(CoT)方法实现场景描述、分析与分层规划 [4] - 创新点2:DriveVLM-Dual快慢双系统集成传统模块,提升实时规划与空间推理能力 [4] - 创新点3:构建SUP-AD数据集聚焦自动驾驶五大维度,优化Corner Case处理 [4] 多模态大模型课程框架 - 第一章:涵盖多模态大模型基础概念、结构训练范式及公开数据集 [21] - 第二章:详解模态编码器、Input/Output Projector及LLM Backbone等核心模块 [23] - 第三章:聚焦图文/视频理解、轻量化模型等5类通用算法 [25] - 第四章:覆盖Adapter、LoRA等6种微调技术及强化学习应用 [28] - 第五章:重点解析DriveVLM等5种自动驾驶端到端大模型算法 [30] - 第六章:提供行业就业方向、面试准备等求职实战指导 [32] 技术实现与课程价值 - 数据构建:DriveVLM通过结构化LLM评估与pipeline流程优化数据集质量 [9][12] - 课程目标:培养通用大模型理论、自动驾驶前沿算法及工程部署能力 [41] - 适用人群:高校研究者、企业技术骨干及转行人员 [40] - 讲师背景:一线大厂算法专家,主导座舱与端到端大模型量产项目 [35]
如何看待目前VLA的具身智能技术?VLA还算是弱智人?
自动驾驶之心· 2025-06-27 17:15
VLA技术现状分析 - VLA本质上是升级版行为克隆(BC)技术 缺乏创新性突破 [1] - 当前VLA系统仅能处理极简化的pick-place任务 成功率计算存在严重水分 [3] - 行业存在将单一任务拆分为多个子任务来夸大通用性的现象 [4][5] 技术局限性 - 任务复杂度局限:仅能处理2D平面内1-2个物体的抓取放置 无法应对3D空间操作 [7][10] - 场景适应性差:要求纯色背景且物体数量≤2 与真实世界复杂环境严重脱节 [8][9] - 数据效率低下:需数百次演示数据训练单一简单任务 违背few-shot学习原则 [15] 行业实践问题 - 测试标准失真:通过精心设计的演示场景和拍摄角度人为提高成功率 [17] - 能力边界模糊:缺乏明确的能力评估体系 无法界定系统可处理任务范围 [16] - 技术路线争议:纯端到端训练方式难以实现真正的通用性和可解释性 [18][19] 核心批评观点 - VLA技术回避了机器人领域真正需要解决的复杂问题 [18] - 当前研究过度简化任务难度来获得表面上的高成功率 [3][6] - 行业存在将简单技术包装成突破性进展的泡沫现象 [18][20]
数据闭环的核心 - 静态元素自动标注方案分享(车道线及静态障碍物)
自动驾驶之心· 2025-06-26 21:33
4D自动标注技术发展 - 轻图算法量产已成为行业共识 公司通过标注数据训练云端模型 再反哺车端模型迭代 实现全场景静态元素标注[1] - 传统2D图像标注需逐帧标注 效率低下 3D场景重建技术可实现静态元素单次标注 显著提升效率[2][3] - 行业采用BEV视图转换技术 通过自车位姿滑动窗口截取局部地面重建图 优化云端自动标注模型训练流程[6] 技术难点与解决方案 - 4D自动标注面临时空一致性要求高 多模态数据融合复杂 动态场景泛化难度大等五大核心挑战[7] - 静态元素标注需结合SLAM重建输出 获取全局道路信息 避免单帧感知导致的道路偏差问题[14] - 通用障碍物OCC标注成为行业标配 需解决点云稠密化 噪声优化 跨传感器遮挡等工程难题[15] 技术应用与课程体系 - 端到端真值生成整合动态障碍物 静态元素 可行驶区域等模块 采用一段式和两段式实现方案[16] - 数据闭环专题涵盖scaling law验证 主流公司架构分析 跨系统问题解决等实战经验[18] - 课程体系覆盖动态障碍物检测跟踪 SLAM重建原理 OCC标注全流程等六大核心模块[8][11][12][15][16] 行业人才需求 - 课程目标群体包括高校研究人员 企业技术骨干 转行人员等 需具备深度学习和PyTorch基础[22][24] - 课程培养方向聚焦4D标注算法研发能力 实际问题解决能力 工作竞争力提升三大维度[23]