Workflow
自动驾驶之心
icon
搜索文档
百度视觉技术部多模态感知与理解招聘(社招/校招/实习)
自动驾驶之心· 2025-09-04 07:33
百度视频理解算法岗位招聘 - 招聘类型包括校招、社招和实习(可转正) 工作地点为北京或深圳 [2] - 负责文心一言在视频理解方向的SOTA算法研发 聚焦视频问答、视频描述/摘要生成、时序行为定位、视频主题检测等核心任务 [2] - 要求计算机/人工智能相关领域硕士或博士学历 在顶级会议(CVPR/ICCV等)发表论文者优先 [4][5] 团队优势与福利 - 团队处于快速扩张期 校招、社招、实习岗位Headcount充足 [6] - 提供大牛导师一对一指导 深度参与文心大模型项目 [6] - 福利包含免费水果、健身房及有竞争力的薪资 [6] AutoRobo求职社区资源 - 社区专注自动驾驶/机器人/具身智能/大模型领域 已有近1000名成员 涵盖智元机器人、地平线、理想汽车等企业员工及2024/2025届校招者 [9] - 每日更新算法/开发/产品岗位招聘信息 包含校招、社招、实习等类型 [10] - 提供行业研报如《世界机器人报告》《中国人形机器人发展蓝皮书》等 覆盖技术路线与市场前景分析 [19] 专业面试资源库 - 汇总自动驾驶领域专项问题集 包括毫米波视觉融合、BEV感知、多传感器标定等10个核心模块的"一百问"专题 [14] - 包含具身智能方向Nerf应用、轨迹预测、Occupancy感知等6个技术方向的面试题库 [15][18] - 整理多家企业面经 如滴滴算法工程师、英伟达春招、小米汽车算法岗等7类实战案例 [21] 职业发展支持服务 - 提供谈薪技巧指导 包含HR面常见问题汇总与薪资谈判关键回答 [23][25] - 分享转行自动驾驶行业经验 面试官建议及算法岗基础技能树构建方法 [25] - 提供专业书籍资源与简历优化服务 支持C++、产品经理等岗位面试准备 [24]
自驾VLA新SOTA!阿里AutoDrive-R²:自反思思维链&物理奖励,突破VLA泛化瓶颈
自动驾驶之心· 2025-09-04 07:33
核心观点 - 阿里巴巴和昆士兰大学团队提出AutoDrive-R²框架 通过结合思维链处理和强化学习 显著提升自动驾驶系统的推理能力和轨迹规划质量 [2][8][10] - 该框架采用两阶段训练方法 包括监督微调SFT和基于物理奖励的GRPO强化学习 在nuScenes和Waymo数据集上实现最先进性能 [17][35][37] - 创新性构建nuScenesR²-6K数据集 包含6000个样本 采用四步逻辑链结构 首次在自动驾驶领域同时激发模型推理与自反思能力 [8][19][20] 技术框架 - 第一阶段监督微调使用nuScenesR²-6K数据集 通过四步逻辑链(可视化→计算→逻辑→反思)建立基础感知能力 [19][20][43] - 第二阶段采用GRPO算法 每个输入生成6个候选响应 通过基于物理的奖励函数优化轨迹规划 [21][33][45] - 奖励函数整合空间对齐 车辆动力学和时间平滑性约束 确保轨迹的物理可行性和安全性 [26][28][29] 性能表现 - 在nuScenes数据集上 7B模型将平均L2误差降至0.19米 相比基准模型Qwen2.5-VL-7B的1.45米降低86.9% [35][43] - 在Waymo数据集零样本测试中 相比EMMA+方法降低33.3%误差 相比Qwen2-VL-72B基准降低90.7%误差 [37][38] - 3B模型同样表现优异 平均L2误差0.49米 证明框架对小规模模型的有效提升 [35][39] 关键创新 - 基于物理的奖励框架包含四个组件:空间对齐奖励(公式4) 转向角偏差惩罚(公式5) 速度约束(公式6)和时间平滑性惩罚(公式7) [27][28][29] - 自反思机制作为第四步推理 通过反向验证结论提升模型鲁棒性和答案正确性 [20][43] - GRPO算法采用候选响应间成对比较机制 简化架构并降低计算开销 [21][25] 实验验证 - 消融实验证明四步逻辑链的必要性:移除自反思使误差上升21.1% 移除完整推理结构使误差上升31.5% [43] - 奖励组件缺省实验显示空间对齐最关键 其缺失使误差升至0.53米 转向角 速度和时间组件缺失分别导致误差上升10.5% 15.8%和26.3% [44] - 候选响应数量实验表明6个为最优平衡点 达到0.19米最低误差 超过6个后性能提升减弱 [45][46] 行业意义 - 解决现有VLA方法两大局限:物理不可行轨迹生成和复杂场景推理能力不足 [8][9] - 为端到端自动驾驶提供新范式 实现感知 推理和规划的联合优化 [6][11][47] - 推动视觉-语言-动作模型在自动驾驶领域的实际应用部署 [7][12][47]
自动驾驶之心超级折扣卡推出啦,所有课程七折优惠!
自动驾驶之心· 2025-09-03 14:44
课程产品与市场反馈 - 公司近期推出《端到端与VLA自动驾驶小班课》《自动驾驶端到端与规划控制(第三期)》《自动驾驶4D标注算法就业小班课》等自研课程 [2] - 端到端与VLA课程市场反响显著 用户反馈积极 [2] - 未来计划推出VLA、模型部署等方向新课程 [2] 超级折扣卡促销策略 - 推出定价299元超级折扣卡 购买后平台所有课程享受七折优惠 [2][4] - 折扣卡适用范围覆盖自动驾驶及具身智能领域全部自研课程 包括未来新课程 [4] - 活动限时开展 时间为9月1日至9月14日 [4] - 折扣卡有效期自购买日起一年 若未使用可全额退款 [4] 用户需求与定价调整 - 用户反馈课程定价较高 存在预算限制问题 [2] - 公司基于用户反馈调整定价策略 通过折扣卡形式提供优惠 [2]
自动驾驶论文速递 | DriveQA、闭环仿真、AIGC、世界模型等~
自动驾驶之心· 2025-09-03 11:19
分享下最近自动驾驶领域的相关工作! DriveQA 基于多模态大语言模型的交通规则理解与评测 波士顿大学与圣路易斯华盛顿大学团队ICCV25中稿的论文,本文提出了DriveQA数据集,通过整合美国各 州驾驶手册文本与CARLA仿真环境中的视觉场景,构建了包含474K样本的驾驶规则问答基准,在表1中与 现有多模态数据集(如NuScenes-QA、DriveLM等)对比突显其全面覆盖交通规则的优势,并在表2-9中验 证了其对模型泛化与推理能力的提升效果。 主要贡献: 算法框架: 论文标题:DriveQA: Passing the Driving Knowledge Test 论文链接:https://arxiv.org/abs/2508.21824 项目主页:https://driveqaiccv.github.io/ 1. 提出 DriveQA 多模态驾驶知识基准 :构建了涵盖文本(DriveQA-T)与视觉 - 文本(DriveQA-V)的大 规模评估基准,其中 DriveQA-T 含 26K QA 对(源自美国 51 个地区驾驶手册,覆盖 19 个问题类别, 含答案解释),DriveQA-V 含 68K 图 ...
AI Day直播 | MemoryVLA:助力长时序机器人操作任务
自动驾驶之心· 2025-09-03 11:19
文章核心观点 - 现有视觉-语言-动作模型在长周期时序依赖任务中表现不佳 主要依赖当前观测而忽略历史时序信息 [2][7] - 受人类记忆机制启发提出MemoryVLA框架 通过工作记忆和长期记忆系统提升机器人操作性能 [3][7] - 该框架包含感知-认知记忆库和记忆条件化扩散动作专家 能够自适应融合历史信息生成时序感知动作序列 [3] 技术方案细节 - 预训练VLM将观测编码为感知token和认知token 分别形成工作记忆和长期记忆 [3] - 感知-认知记忆库存储低层级细节和高层级语义信息 并通过合并冗余实现记忆更新 [3] - 工作记忆从记忆库检索决策相关条目 与当前token融合后生成动作序列 [3] 应用场景与价值 - 专门针对长周期机器人操作任务设计 解决非马尔可夫性任务中的时序依赖问题 [2][3] - 通过模拟人类海马体系统和工作记忆机制 提升模型在复杂操作任务中的表现 [3][7] 研究背景与进展 - 论文已发表于arXiv平台 编号2508.19236 项目主页同步开放 [4] - 研究成果由清华大学自动化系团队开发 计划通过直播形式进行技术分享 [4][7]
港科&地平线&浙大联手开源SAIL-Recon:三分钟重建一座城
自动驾驶之心· 2025-09-03 07:33
文章核心观点 - SAIL-Recon提出一种结合场景回归与定位的大规模运动恢复结构(SfM)方法 通过少量锚图像提取神经场景表征 实现数千张图像的高效精确重建 在精度和效率上均超越传统及学习方法 [5][7][10][34] 技术方法 - 采用锚图像采样策略 通过Transformer提取神经场景表征 并基于此对所有图像执行联合位姿与结构估计 [9][11] - 使用DINOv2提取图像特征 结合相机token与寄存器token 通过自注意力层和DPT头预测深度图及场景坐标图 [13] - 引入注意力掩码机制 使查询图像仅与锚图像表征交互 并通过相机头直接回归位姿 [17][19] - 训练阶段采用多任务损失函数 推理阶段通过KV-Cache缓存键值以节省GPU内存 [11][20] 性能表现 - 在Tanks & Temples数据集上 平均每场景处理300+张图像 FFD版本达到70.4% RRA@5和74.7% RTA@5 误差仅0.008 耗时233秒 [21][26] - 在7-Scenes数据集定位任务中 平均精度达93.8% 与ACE0持平 但训练加定位总耗时仅8分钟 远低于ACE0的2小时 [32] - 新视角合成任务中 PSNR指标全面领先:Mip-NeRF 360数据集平均PSNR达19.5 超越DROID-SLAM的16.9和BARF的18.1 [33] - 锚图像数量从10张降至2张时精度仅缓慢下降 300 token/图像配置实现精度与速度平衡 [32] 效率优势 - 处理数千张图像仅需数分钟 显著快于COLMAP的1977秒和ACE0的5499秒 [21][32] - 无需逐场景训练 支持大规模场景一次性前馈推理 后优化阶段10k次迭代仅需2-10分钟 [7][24] - 在TUM-RGBD数据集实现与SLAM相当的精度 且无需相机内参 [32]
某头部智驾公司最快或11月美股上市,估值或超60亿美金
自动驾驶之心· 2025-09-03 07:33
融资与上市进展 - 公司M于2025年完成两轮融资(C-12及C-13轮),投资方包括中东主权基金和地方国资基金,累计融资金额达数亿美金 [6][10] - C-13轮融资估值约为60亿美元,该轮即将关闭,部分投资人仍希望参与 [10] - 公司M最快可能于2025年11月登陆美股,估值或将突破60亿美元 [6][10] - 2024年中公司M已取得境外上市批文,原计划2024年底IPO,但因故延期 [9] 财务表现与盈利预测 - 公司M连续三年保持营收及毛利高速增长,但目前仍处于亏损状态 [7] - 行业测算显示公司M有望在2026年实现盈亏平衡 [7] - 公司M的毛利快速增长主要来自License业务,该模式毛利最高可达90%以上 [12] - 公司M的收入结构以NRE(量产车型适配费用)为主,License(单车软件授权费用)为辅 [12] 业务布局与战略动向 - 公司M近期对外投资布局重卡等产业链相关企业,其芯片子公司X于2025年8月完成新一轮融资,投资方包括深创投、IDG资本、蔚来资本、均胜电子等机构 [8][12] - 公司M与Uber达成战略合作,计划2026年初在欧洲启动自动驾驶车辆运营 [12] - 公司M累计合作量产车型达130款,并与宝马中国达成合作,集齐BBA三大豪华品牌订单 [12] - 公司M的芯片子公司X首款芯片已成功点亮并进入实车测试,对标英伟达Orin-X与高通8650 [12] 市场地位与交付能力 - 公司M累计交付超过30万辆,预计最快明年突破100万交付大关 [13] - 公司M是唯一证明过跨平台(英伟达和高通)、多客户(同时服务10+车企)交付能力的厂商,新车型适配和交付周期可缩短至3个月 [14] - 公司M满足传统车企智驾上车需求,客户覆盖国资合资、自主品牌三强、德系三强、日系三强 [14] 核心优势与行业评价 - 公司M以平台能力和快速执行见长,能快速跟进新技术并承诺交付量产时间,未出现过食言情况 [13] - 行业认为公司M是确定性最高的企业,其复制化交付能力强,NRE毛利逐步提高 [12][13] - 公司M的盈利路径清晰,主要依靠量产车型增加、高阶方案渗透率提高、License占比提升以及批量复制化交付摊薄研发成本 [15]
拿到offer了,却开心不起来。。。
自动驾驶之心· 2025-09-03 07:33
发offer的是业内一家tier 1公司,测试的岗位。受限于研究生期间做的工作,转感知算法还有一些困难,剩下两个月的时间,还是打算冲一把到算法岗,平时跟着 自动驾驶之心一直学习前沿的算法,觉得自己还是有机会的。 很开心,这位同学没有放弃自己,有时候不逼自己一把是不知道自己的极限在哪里! 值此开学季之际,我们也为大家准备了重磅学习礼包: 1. 重磅推出499元超级折扣卡(一年期有效):购买后,享受全平台课程七折优惠; 2. 自动驾驶之心知识星球立减88; 3. 课程福利放送:满1000元赠送2门带读课程(八选二); 4. 自动驾驶论文辅导1000最高抵扣10000; 5. 自动驾驶1v6小班课限时福利立减1000; 6. 全平台硬件优惠: 全栈教研平台黑武士001 足式/强化学习科研平台:TRON1 四足机械狗+机械臂科研平台 桌面级机械臂科研平台 数采夹爪(单臂+双臂方案) 对于秋招的小伙伴来说应该比较关键,金九银十正式开启了。这两天有个同学联系柱哥说已经拿到了一个offer,但却开心不起来。 超级折扣卡 重点介绍下我们最新推出的超级折扣卡!活动期间购买有效, 自购买之日起一年时间内,购买平台任意课程均享受七 ...
小米汽车招聘云端大模型算法工程师(BEV/3DGS/OCC等)
自动驾驶之心· 2025-09-03 07:33
小米汽车技术发展方向 - 公司专注于云端大模型算法研发 重点包括4D真值自动化标注和多模态大模型技术 [1][4] - 致力于提升自动驾驶算法的语义理解能力和空间感知能力 基于海量量产数据进行无监督/自监督算法开发 [4] - 构建数据驱动的自动驾驶算法迭代链路 通过自训练pipeline实现高效数据闭环 [4] 人才招聘需求 - 寻求具备C++或Python编程能力及数据结构算法知识的算法工程师 [4] - 优先考虑在BEV感知/3D检测/多传感器融合等自动驾驶感知算法领域有深入研究背景的候选人 [4] - 特别关注具有NeRF技术、3D场景生成和传感器仿真应用经验的专业人才 [4] 技术能力建设重点 - 要求候选人掌握计算机 数学 机器学习或机器人等相关专业领域知识 [4] - 重视自动驾驶相关项目实践经验 包括三维重建和深度估计等具体技术方向 [4] - 通过https://xiaomi.jobs.f.mioffice.cn/index/position/7483098801416421485/detail?spread=W6B69ND渠道接收人才投递 [2]
自动驾驶之心开学季活动来了(超级折扣卡/课程/硬件/论文辅导福利放送)
自动驾驶之心· 2025-09-02 17:57
日月更替,斗转星移。又到了金秋九月的开学季,校园里涌动的青春朝气与实验室里闪烁的代码光标遥相呼应。还记得十年前自己新学期踏进大学校园,看到无 人小巴的震撼,也是那个时候第一次接触到了自动驾驶,现在想想就是那个时候埋下了投身自驾的种子。 从16年开始,自动驾驶踏上了飞速发展的列车,整个世 界都处于人工智能爆发的前夕,有些人因为自身的努力或幸运站在了潮头之上,激昂和困惑交织在每个人的心头。 自动驾驶十年沉浮 这十年,自动驾驶从最开始的瞒珊学步,ImageNet图像分类,到COCO目标检测、分割、跟踪,进化到nuScenes 3D世界感知,再到BEV大一统整个感知模块(3D 检测/OCC/在线地图),又到今天的端到端、VLA。自动驾驶就像一个婴儿一样,终于快长大了。 未来又会是哪个方向呢?VLA和WA会是终局么?L4自动驾驶 还是具身智能抑或虚拟现实? 可能是,也可能不是。但科技总归是朝着智能化的大趋势大踏步前进,保持跟进与学习是重中之重。 自动驾驶的十年征程堪称一部浓缩的产业进化史,十年前我很难想象人工智能会到今天的高度。2015年百度无人车在雾霾中完成城市道路测试时,行业曾天真地 以为 L4 时代近在咫尺。无数 ...