Workflow
自动驾驶之心
icon
搜索文档
是的,三周年了!!!
自动驾驶之心· 2025-07-17 20:08
公司发展里程碑 - 三周年是重要里程碑 自动驾驶领域技术迭代迅速 从端到端方案发展到VLM和VLA方案 英伟达Thor芯片算力达2000 TOPS 较Orin的254 TOPS实现大幅提升 [1] - 已建立四大IP矩阵 包括自动驾驶之心、具身智能之心、3D视觉之心、大模型之心 覆盖知识星球、公众号、视频号、哔哩哔哩、知乎等平台 其中具身智能和大模型为第三年新增方向 [1] - 业务模式从纯线上教育拓展至硬件教具、线下培训、求职招聘等全栈服务 在杭州设立线下办公室并引入新团队成员 [1] 经营理念与战略 - 反对短期功利主义 强调长期价值创造 通过平台影响力驱动行业发展是核心内驱力 [2] - 采用"重全局 沿途下蛋"策略 既投入长期价值项目 也实现阶段性商业化场景 [4] - 坚持创新与执行力 认为持续创新能获得先发优势 深度思考才能输出有价值内容 [7] 行业观察与案例 - 小米汽车案例显示入局时机非绝对关键 执行方式才是破局重点 [4] - 自媒体行业存在内容质量管控挑战 需直面问题并采取重录补录等补救措施 [6] - 行业普遍存在模仿现象 但创新才能持续引领发展 [7] 业务进展与规划 - 新增硬件业务、论文辅导和求职服务 实现教育科技化转型 [1][9] - 计划2025年下半年完成教育体系搭建 进入稳定运营期 [9] - 推出三周年优惠活动 自动驾驶课程8折 知识星球新会员6折 老会员续费5折 [12][14] 内容质量管控 - 严格把控课程质量 针对学员反馈的问题采取1v1沟通和内容重制措施 [6] - 践行"逆着人性做人 顺着人性做事"原则 拒绝敷衍应对内容质量问题 [6][7]
ICCV'25 | 南开提出AD-GS:自监督自动驾驶高质量闭环仿真,PSNR暴涨2个点~
自动驾驶之心· 2025-07-17 19:10
AD-GS框架 - 南开大学联合团队提出AD-GS框架,通过可学习B样条曲线与三角函数运动建模结合对象感知分割,实现自监督自动驾驶场景的高质量渲染,在KITTI数据集上PSNR提升至29.16(75%训练数据),显著优于PVG的27.13 [1][5] - 创新点包括:动态高斯的局部/全局拟合方法、基于伪2D分割的场景建模(区分物体/背景)、可见性与物理刚性正则化设计,提升噪声伪标签下的鲁棒性 [5] - 实验结果显示AD-GS在PSNR(33.91)、SSIM(0.927)、LPIPS(0.228)等指标上优于StreetGS、4DGF等基线模型 [6] FiM轨迹预测框架 - 香港科技大学团队提出FiM框架,通过奖励驱动的意图推理(QIRL)和双向选择性状态空间模型(Bi-Mamba),在Argoverse 1数据集实现Brier Score 0.6218(单模型最优),nuScenes数据集minADE₆达0.88(当前榜单第一) [7][10] - 采用"先推理后预测"策略,将行为意图作为空间引导融入预测过程,分层DETR-like解码器提升轨迹准确性 [10] - 实验结果:FiM在minADE6(0.8296)、minFDE6(1.2048)、Brier score(0.6218)等指标优于DenseTNT、HiVT等模型,nuScenes数据集上minADE5(0.88)和MR5(0.31)表现突出 [12][14] IANN-MPPI路径规划方法 - 本田研究所提出交互感知神经网络增强型MPPI框架,密集车流汇入场景成功率提升至67.5%(较非交互基线高22.5%),变道时间缩短10秒(31.83秒→21.40秒) [14][17] - 关键创新:基于样条先验的MPPI采样增强车道变换效率,实时并行计算(0.1秒/帧) [17] - 仿真结果显示,Cooperative行为模式下成功率100%,Planning Cost最低达4.40±1.48,采用样条先验的MPPI版本比无先验版本合并时间减少32.8% [20][21]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-17 19:10
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术发展出多分支 包括基于感知的UniAD 基于世界模型的OccWorld 基于扩散模型的DiffusionDrive 以及大模型驱动的VLA方向 [9] 技术挑战与行业需求 - 端到端技术需掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等跨领域知识 学习路径复杂且论文碎片化 [5] - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 小米ORION等VLA项目推动行业预研热潮 [2][20] - 学术界与工业界持续探索技术边界 但高质量文档缺失 实战指导不足 影响技术落地效率 [5][26] 课程核心内容设计 - 课程覆盖端到端发展史 技术范式比较 数据集评测等基础内容 重点解析BEV感知 扩散模型 VLM等背景知识 [11][12] - 二段式端到端章节分析PLUTO CarPlanner等经典算法 对比一段式方案的优缺点 [12] - 精华章节聚焦一段式端到端 详解UniAD PARA-Drive OccLLaMA DiffusionDrive等前沿工作 配套Diffusion Planner实战 [13][15][17] - VLA方向选取ORION OpenDriveVLA等案例 结合BEV 扩散模型 强化学习技术展开实战 [20] 技术框架与实战应用 - 课程构建端到端技术框架 帮助学员分类论文 提取创新点 形成研究体系 [7] - 实战环节包括Diffusion Planner代码复现 RLHF微调大作业 目标为达到1年算法工程师水平 [17][22][27] - 技术栈覆盖Transformer CLIP LLAVA等基础模型 强化学习RLHF GRPO等进阶方法 [18] 行业影响与人才需求 - 端到端技术推动自动驾驶量产方案革新 主机厂加速布局算法预研与交付 [23] - 课程面向具备自动驾驶基础及Python/PyTorch能力者 目标匹配企业实习 校招 社招需求 [24][27] - 技术掌握后可应用于场景生成 闭环仿真 多模轨迹预测等实际场景 提升工业落地能力 [15][17]
暑假打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛启动~
自动驾驶之心· 2025-07-17 15:29
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉、图形学等前沿方法创新,并促进神经渲染、场景优化和机器人抓取等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等多家单位联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括国内研究团体、企事业单位及高校师生,团队不超过5人,每人仅能加入1个团队 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分阶段进行,包括数据集发布、结果提交和评审,最终在PRCV2025大会上颁奖 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极提供8卡H800 GPU算力支持 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景中的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项与知识产权 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖 [25] - 参赛方案知识产权归团队所有,数据仅限竞赛使用,禁止扩散,组织方承诺保密 [29] 相关会议PRCV2025 - PRCV2025为国内模式识别与计算机视觉顶级会议,涵盖学术前沿、产业应用与技术创新,投稿截止2025年6月30日 [27][30] - 会议由四大国家级学会联合主办,上海交通大学承办,Springer出版论文集并被EI/ISTP检索 [31][32]
不容易,谈薪阶段成功argue到了期望薪资~
自动驾驶之心· 2025-07-17 15:29
自驾领域HR面试核心考察点 - 稳定性:工作稳定且负责 避免频繁跳槽(1年内) [1] - 思维能力:逻辑推演和临场反应能力 情商要求高 [1] - 性格特质:乐观积极 团队意识 情绪稳定性强 [1] - 抗压能力:承受压力 失败后能重新开始 [1] - 沟通合作:大局观 主动表达观点 协作顺畅 [1] HR面试高频问题分类 沟通与综合能力 - 自我介绍需总分结构 突出优势且逻辑清晰 [2] - 优缺点回答需真诚 技术层面可提"爱钻牛角尖"等中性缺点 [2] 稳定性评估 - 离职原因需客观 避免负面评价前公司 [3] - 求职动机需结合应聘公司特点 强调成长性 [3] 冲突处理与态度 - 与主管分歧时优先自省 考虑全局视角 [4] - 对主管要求体现服从性 关键问题协商解决 [5] 薪资谈判技巧 - 期望薪资参考岗位范围 建议涨幅2k-3k [6] - 需明确薪资架构 含绩效/补贴/晋升渠道等细节 [6] 自动驾驶求职资源体系 专业题库 - 覆盖毫米波融合/BEV感知/规划控制等12个技术方向 各含百问专题 [12] - 具身智能领域含Nerf/轨迹预测/Occupancy感知等8类专项问题 [13][16] 行业研究支持 - 提供世界机器人报告/中国人形机器人蓝皮书等7份深度研报 [17] 实战面经案例 - 汇总理想/小鹏/华为等6家企业算法岗面试真题 [19][23] - 含决策规划/SLAM/行为预测等5类岗位复盘经验 [24] 配套服务 - 提供内推渠道 覆盖1000名行业从业者资源 [7] - 含简历优化/谈薪技巧/书籍推荐等4项增值服务 [21][22]
研二多发几篇论文,也不至于到现在这个地步……
自动驾驶之心· 2025-07-17 10:19
行业背景与需求 - 当前秋招季大厂提前批招聘倾向于项目经历丰富、研究成果突出且背景优秀的候选人[1] - 普通研究生在申博或就业时面临成果不足的困境,需通过高质量科研论文提升竞争力[1] - 高区位会议期刊论文发表难度大,导师放养导致学生在选题、框架、论证等环节进展缓慢[1] 公司服务与优势 - 提供12周标准化论文辅导流程,涵盖选题、实验设计、投稿全环节,承诺3个月完成SCI论文案例[2][4] - 拥有300+专职导师团队,均来自全球QS前100高校,顶会/子刊发表经验丰富,近3年辅导学员超400名,中稿率96%[3] - 服务覆盖CCF-A/B/C、SCI1-4区及EI会议,提供选题至中稿一站式支持[8] 目标用户群体 - 计算机专业硕博生(导师放养需创新思路)、人工智能从业者(提升职称竞争力)、考研申博留学人群(增强简历)[11] - 需建立科研体系、掌握算法理论与代码实践结合能力、深化baseline形成独立论文的研究者[10] 服务形式与附加价值 - 采用1v1在线授课+微信群答疑模式,配备班主任全程督学[12][15] - 优秀学员可获名校推荐信及企业内推机会(如阿里达摩院、华为诺亚方舟)[14] - 支持零基础学员通过6个月基础课程+文献带读产出小论文,提供精准导师匹配系统[13] 用户保障与灵活性 - 预收定金可试听名师课程,不满意可更换导师或退款[14] - 按目标期刊分区差异化定价,咨询后提供详细报价方案[14]
小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体~
自动驾驶之心· 2025-07-17 10:19
核心观点 - 复旦大学与上海创新研究院提出的WAP框架通过四维认知叙事增强和三阶段课程学习,显著提升了视觉-语言大模型在具身规划领域的性能,使开源模型Qwen2.5-VL在EB-ALFRED基准上的成功率从2提升至62.7(+60.7pp),超越GPT-4o和Claude-3.5-Sonnet等闭源模型 [3][4][14][16] - WAP框架的核心创新在于数据层显式绑定指令-环境上下文,并仅依赖视觉闭环(RGB+指令),无需特权信息(如动作成功信号),更贴近真实机器人应用场景 [6][12][16] - 该方法通过视觉、空间、功能、句法四维叙事增强和step-wise推理标注,解决了现有方法在陌生场景、多步目标和含糊措辞下的规划瓶颈 [8][9][16] 技术方法 四维认知叙事增强 - 视觉维度:增强物体外观描述(如"20 cm银色厨刀"),提升模型对物体属性的感知能力 [8] - 空间维度:精确定位物体位置(如"水池右侧贴墙的白柜"),强化空间关系理解 [8] - 功能维度:抽象工具-对象关系(如"用于喷洒的容器"),增强语义推理 [8] - 句法维度:解析复杂指代(如"那颗洗净的生菜"),解决语言歧义 [8] 三阶段课程学习 - Base阶段:学习原始指令-轨迹对的基础感知-动作映射 [13] - Env-Aware阶段:加入视觉+空间增强,提升场景理解能力 [13] - Concept-Aware阶段:整合功能+句法+全链推理,攻克高阶语义与长程规划 [13] 实验结果 主结果 - Qwen2.5-VL模型平均成功率提升60.7pp(2→62.7),长程任务成功率从0跃升至70,标准差STD更低(6.3),显示能力更平衡 [14] - InternVL3-8B模型同样实现显著提升(6→61.0),长程任务成功率增长17.5倍 [14] 消融实验 - 仅视觉/空间增强:平均成功率46.7,标准差17.1,显示过拟合感知但语义薄弱 [14] - 加入部分推理:平均成功率54.0,标准差9.3,能力趋稳但仍缺长程一致性 [14] - 完整四维+课程:成功率62.7,标准差6.3,实现性能与稳健性兼顾 [14] 案例分析 - 复杂指令"把冰镇的苹果切块后扔进垃圾桶":WAP-Qwen拆解出18步动作(取刀-切-冷藏-丢弃),正确处理隐式条件和因果顺序,而基线模型直接丢弃整苹果导致失败 [15] 未来方向 - 下沉至连续控制领域,连接低层执行模块 [17] - 拓展工业/户外等动态场景应用 [17] - 探索自监督叙事自进化,实现数据-模型闭环迭代 [17]
超越SOTA近40%!西交I2-World:超强OCC世界模型实现3G训练显存37 FPS推理~
自动驾驶之心· 2025-07-16 19:11
核心观点 - 西安交通大学团队提出I2-World框架,在4D OCC世界模型预测任务中实现SOTA性能,mIoU和IoU分别比现有方法提升25 1%和36 9% [1][9] - 该框架采用创新的I2-Scene Tokenizer解耦场景内/间分词化,结合I2-Former编码器-解码器架构,在保持3D分词器计算效率的同时实现4D时间建模能力 [5][7] - 系统计算效率突出:训练显存仅需2 9GB,推理速度达37FPS,显著优于依赖大语言模型或扩散模型的现有方案 [9][28] 技术架构 I2-Scene Tokenizer - 采用双分词器设计:场景内分词器通过多尺度残差量化保留空间细节,场景间分词器通过内存队列建模时间动态 [5][14] - 与传统单阶段分词器相比,仅增加轻量级卷积层即可实现性能提升,特征图压缩率与3D分词器相当但保留4D动态 [15][16] - 训练采用VAE流程,损失函数包含加权焦点损失、Lovasz损失和向量量化损失,仅监督场景内分词化以稳定训练 [12][18] I2-Former架构 - 突破传统GPT式自回归模型,采用编码器-解码器设计:场景内编码器通过交叉注意力聚合空间上下文,场景间解码器维护历史标记队列保证时间一致性 [6][19] - 引入变换矩阵作为条件信号,将场景状态映射到下一时间步,支持通过自车动作嵌入进行精细控制 [6][21] - 训练损失包含特征级MSE损失和变换矩阵分解监督,对不同预测帧施加差异化权重 [23] 性能表现 基准测试 - 在Occ3D-nuScenes数据集上,I2-World-O变体mIoU达39 73%,IoU达49 8%,分别超越前SOTA方法25 1%和36 9% [28] - 端到端I2-World-STC变体在mIoU指标上比OccWorld-STC提升50 9%,验证框架在相机输入场景的适应性 [28] - Waymo数据集零样本测试显示,在10Hz采样率下mIoU达43 73%,2Hz下仍保持36 38%,展现强泛化能力 [30][31] 效率指标 - 训练内存消耗仅2 9GB,较UniScene等方案降低60%以上,推理速度37FPS满足实时性要求 [9][28] - 消融实验显示,完整架构比无条件基线提升mIoU 22 61个百分点,而GPU内存仅增加1 11GB [36] 应用价值 - 变换矩阵设计支持双重控制策略:高层通过速度/转向命令控制轨迹,底层直接操作空间变换矩阵实现米级精度生成 [24][40] - 可视化验证显示在复杂交互场景中能准确仿真移动目标运动,如右转命令引发的卡车碰撞场景 [38][40] - 在Occ3D-Waymo的自动标注测试中性能显著优于复制粘贴基线,展现工业落地潜力 [31]
ICML'25 | 统一多模态3D全景分割:图像与LiDAR如何对齐和互补?
自动驾驶之心· 2025-07-16 19:11
核心观点 - 提出IAL(Image-Assists-LiDAR)方法,实现高效的多模态3D全景分割,通过激光雷达与相机图像的互补优势提升检测精度 [2] - IAL在nuScenes和SemanticKITTI数据集上达到SOTA性能,PQ指标最高提升5.1%,刷新户外3D全景分割纪录 [7][16] - 核心技术突破包括PieAug模态同步增强、GTF精准特征融合和PQG三重查询生成机制 [4][7] 方法创新 PieAug模态同步增强 - 首创通用LiDAR与图像数据同步增强范式,解决传统方法因单模态增强导致的多模态不对齐问题 [9] - 采用"切蛋糕"策略将场景切割为扇形切片,通过实例级和场景级混合增强实现跨模态对齐 [9] - 兼容现有LaserMix/PolarMix等LiDAR-only增强方法,提升训练效率与泛化性 [7][9] GTF特征融合模块 - 通过物理点投影避免虚拟中心点导致的特征偏差,构建尺度感知位置编码 [10] - 解决传统方法因体素级投影和传感器感受野差异导致的位置偏差与语义错误 [10] PQG查询初始化 - 三重查询生成机制:几何先验query(BEV热力图)、纹理先验query(2D VFM)、无先验query(可学习参数) [12] - 提升远距小目标召回率,避免传统可学习query陷入局部最优 [12] 性能表现 基准测试结果 - nuScenes-Panoptic官方榜单第一:PQ 82.0、PQT 84.3、RQ 89.3、SO 91.6,全面超越4DFormer(L+C)和LCPS(L+C) [14] - 单模态LiDAR分支性能:PQ 75.1,已超过EfficientLPS(62.4)和PolarNet(63.6) [14] 模块消融实验 - 完整IAL模型(PieAug+GTF+PQG)相比基线(无模块)PQ提升6.6个百分点(75.7→82.3) [15] - 单独GTF模块可使mloU提升4.4个百分点(73.8→78.2) [15] 可视化优势 - 显著提升紧邻目标区分度、远距目标检测能力以及FP/FN识别准确性 [17]
性价比极高!黑武士001:你的第一台自动驾驶全栈小车
自动驾驶之心· 2025-07-16 19:11
产品概述 - 黑武士001是一款面向科研与教学用途的自动驾驶全栈小车,原价34999元,当前预售支付定金1000元可抵扣2000元,并优先安排组装发货[1] - 产品定位为教研一体化轻量级解决方案,支持感知、定位、融合、导航、规划等全栈功能平台,采用阿克曼底盘设计[2] 核心功能 - 支持室内外多场景测试,包括地库建图、公园行驶、夜间行驶、上下坡等复杂环境[3][6][7][8][9][10][11] - 适用场景覆盖本科生学习比赛、研究生科研论文、高校实验室教具、职业培训等教学需求[5] - 软件功能包含2D/3D目标检测、语义SLAM、多传感器融合SLAM、点云处理、车辆导航避障等17项核心技术[17] 硬件配置 - 传感器组合:Mid 360 3D激光雷达(FOV 360°×59°/测距40m)、镭神智能2D激光雷达(测距25m)、奥比中光深度相机(测距0.15-5m/精度≤2%)[12][20] - 主控采用Nvidia Orin NX 16G芯片,配备1080p显示器,整机采用铝合金/不锈钢钣金结构[12][14] - 底盘参数:自重30kg、载荷30kg、最大速度2m/s、续航>4小时(50W电池/24V供电)[14] 软件系统 - 基于ROS框架开发,支持C++/Python语言,提供一键启动开发环境[16] - 深度相机驱动节点可输出RGB图像(1280×800@30fps)、深度图像及相机内参数据[31] - 支持手柄遥控模式,通过geometry_msgs::Twist消息控制线速度/角速度,参数可配置[32][34] 售后服务 - 提供1年非人为损坏保修服务,人为操作失误导致损坏可免费维修(需自付邮费)[39]