Workflow
自动驾驶之心
icon
搜索文档
实验室10篇论文被ICCV 2025录用
自动驾驶之心· 2025-07-02 21:54
论文研究成果总结 论文1 - 提出类别级几何学习框架用于三维点云分割的域泛化问题 通过几何嵌入感知点云细粒度属性并构建类别级几何属性 耦合几何嵌入与语义学习提升泛化能力 [1] - 引入几何一致性学习模拟潜在三维分布并对齐类别级几何嵌入 使模型关注几何不变信息 实验验证该方法在域泛化三维分割中具有竞争力 [1] 论文2 - 开发分层变分测试时提示生成方法 通过Hyper Transformer动态生成文本/视觉提示 解决传统方法提示模板固定导致的领域适应性问题 [3] - 采用变分推理减轻提示模板敏感性和分布偏移 通过分层条件提示捕捉深层上下文依赖 实验显示该方法在零样本准确率上达到SOTA [3] 论文3 - 提出知识引导部件分割框架(KPS) 利用大语言模型构建部件结构知识图谱 通过结构知识引导模块将关系信息嵌入视觉特征 [5][6] - 设计粗粒度物体引导模块增强整体类别感知 实现复杂场景下的精细部件分割 突破传统方法忽视部件结构联系的局限 [5][6] 论文4 - 构建TopicGeo统一检索匹配框架 通过CLIP提示学习嵌入文本语义主题 消除多时相遥感图像的类内/类间分布差异 [9] - 采用中心自适应标签分配与离群点剔除机制优化检索匹配流程 实验表明该方法在召回率和匹配精度上均优于分离范式 [9] 论文5 - 提出视觉语言交互关系挖掘模型(VL-IRM) 通过多模态交互学习解决开放词汇场景图生成中的关系感知缺失问题 [11] - 开发关系生成模型增强文本模态的开放式关系探索能力 利用视觉引导扩展关系文本空间语义 实验验证其广义关系表征优势 [11] 论文6 - 设计VGMamba网络实现三维视觉定位 包含属性Mamba、位置Mamba和多模态融合Mamba三模块 通过SVD分解与滑动窗口捕获属性特征 [13] - 提出属性到位置线索推理机制 融合语言查询与点云空间信息精准定位目标物体 在复杂语义查询场景下表现优异 [13] 论文7 - 创新动态中心距离(DCD)度量 通过元学习框架计算特征空间样本难度 解决噪声标签学习中简单样本主导问题 [15] - 结合DCD与半监督训练策略 聚焦硬样本优化分类损失 在合成/真实噪声数据集及医学图像中验证鲁棒性 [15] 论文8 - 提出BuCSFR方法实现粗标签到细粒度表征学习 通过自底向上构建树状图适应动态类别变化 无需预定义类别数量 [17] - 基于最小信息损失准则迭代合并实例 利用EM框架协同优化树状图构建与特征可分性 在物种识别等任务中表现突出 [17] 论文9 - 开发类别特异选择性特征增强模型 针对长尾多标签分类中样本稀缺类别敏感性丧失问题 利用类激活图定位关键区域 [19][20] - 设计渐进式注意力增强机制 按头部-中部-尾部类别顺序提升低置信度响应 实验显示其在标签不平衡场景下的泛化优势 [19][20] 论文10 - 建立部分匹配子图定位框架 通过高斯分布建模跨模态歧义性 放宽指令文本与点云地图严格对齐假设 [22][23] - 提出不确定性感知相似性度量 将定位阶段的不确定性传播至场景识别阶段 提升真实噪声场景下的任务协同性 [22][23] 学术会议背景 - ICCV 2025为计算机视觉A类顶会 本届收到11239份投稿 录用率24% 将于10月19-25日在夏威夷举办 [25] 技术社区资源 - 具身智能之心知识星球聚集近1500名开发者 覆盖40+开源项目与60+数据集 涉及VLA、VLN、Diffusion Policy等前沿方向 [29][30] - 3D视觉之心社区聚焦三维重建、NeRF、SLAM等技术 提供行业交流与求职对接服务 [26][27]
自动驾驶论文速递 | 世界模型、VLA综述、端到端等
自动驾驶之心· 2025-07-02 15:34
世界模型Epona - 地平线、清华、北大等团队在ICCV'25中稿的自回归扩散世界模型工作,可以不依赖视频预测独立输出轨迹规划 [2] - 算法框架采用自回归扩散模型,实现长时间生成和实时轨迹规划 [3] - 实验结果:FID T为7.5,FVD T为82.8,最大持续时间达120秒/600帧,显著优于对比模型DriveGAN、DriveDreamer等 [5] - 核心优势:实现2分钟长时间生成,20Hz实时轨迹规划,连续视觉标记器保留丰富场景细节 [6] 视觉-语言-动作模型综述 - 麦吉尔大学、小米等团队发布VLA模型综述,涵盖DriveGPT-4、ADriver-I等15种模型 [13] - 模型对比表显示:输入类型包括单/多模态,数据集涵盖BDD-X、nuScenes等,输出包含轨迹规划(LLC/Traj) [18] - 最新模型如OpenDriveVLA(2025)支持2D/3D对齐,ORION(2025)实现连续动作推理 [18] StyleDrive基准测试 - 清华AIR等团队提出驾驶风格感知的端到端自动驾驶评测框架 [20] - 基于规则的驾驶风格分类标准覆盖10种交通场景,包括车道跟随、交叉路口等场景的动态特征 [22] - 实验结果:DiffusionDrive-Style模型表现最佳,SM-PDMS达84.10,优于TransFuser(81.09)和WoTE(81.38) [23] 技术社区推广 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息 [9] - 社区目标3年内建成万人规模,已吸引华为天才少年等专家加入,形成"课程+硬件+问答"闭环 [25]
从感知能力提升到轻量化落地,具身这条路还要走很长一段时间~
自动驾驶之心· 2025-07-02 10:05
具身智能技术发展趋势 - 感知能力升级与多模态融合成为技术发展重点,触觉感知在灵巧手领域发力,力控技术提升操作精细度及反馈能力 [1] - 大模型驱动机器人认知能力提升,基于多模态数据增强感知、自主学习与决策规划能力,轻量化模型设计成为行业落地关键需求 [1] - 仿真环境与数据生态建设加速技术突破,通过物理世界模拟构建机器人认知,sim2real技术推动仿真与现实对齐 [1] 行业生态与资源整合 - 国内外200+具身公司与研究机构形成技术社区,覆盖斯坦福、清华等高校及智元机器人、优必选等头部企业 [6] - 社区整合40+开源项目、60+数据集及主流仿真平台,提供感知、交互、强化学习等全栈技术路线 [6][20][24][26] - 行业数据生态建设聚焦本体多样化,双足、轮式等形态数据需抽象共同特征以促进技术通用性 [2] 技术应用与研究方向 - 多模态大模型在理解与生成领域快速发展,覆盖图像、视频、音频等多模态数据交互 [38][40] - 机械臂抓取、双足/四足机器人等硬件方案技术成熟,开源项目助力系统快速搭建 [51][53][55] - 视觉-语言-动作(VLA)模型与Diffusion Policy成为前沿研究方向,推动机器人任务泛化能力 [43][45][47] 行业服务与支持体系 - 提供研报、书籍、零部件品牌等资源汇总,覆盖工业、医疗、物流等应用场景 [14][16][18] - 建立技术交流与人才对接平台,包含岗位推荐、直播分享及研究方向选择指导 [7][11][57][59]
同样的idea别人中了CVPR,你的却被秒拒?
自动驾驶之心· 2025-07-02 10:05
论文辅导服务核心观点 - 顶会论文需具备广泛适用性而非单一场景解决方案 强调方法论的系统性和可扩展性 [1] - 论文实现难度与创新性需平衡 从实验设计到写作各环节均影响投稿区位 [2] - 提供全流程深度辅导 覆盖计算机全领域及AI4S领域 目标直指顶会录用 [2][5][10] 服务内容与优势 辅导模式 - 采用1对1保姆式服务 从idea生成到最终发表全程跟进 [3][5] - 导师团队协助解决数据问题 针对性指导实验设计与模型优化 [4][5] - 搭建论文写作框架 提供增删改查支持 强化薄弱环节 [5] 师资力量 - 拥有300+专职AI方向导师 均来自QS前100高校 具备顶会/子刊发表经验 [7][8] - 覆盖自动驾驶 具身智能 机器人等交叉学科 近3年辅导学员400+ 中稿率96% [7][8] 领域覆盖 - 计算机全领域支持 包括大模型 VLA 端到端自动驾驶等25+细分方向 [9][10] - 可辅导CCF-A/B/C类会议及TPAMI CVPR等顶刊 含SCI1-4区期刊 [10] 目标用户群体 - 缺乏中稿经验的研究生/本科生 需突破科研瓶颈的硕博生 [5] - 计划转自动驾驶方向或申博评职的CS领域研究者 [5] - 需快速掌握前沿技术方法论 提升论文国际认可度的学者 [5][11] 行业竞争力 - 背靠国内最大AI技术自媒体平台 拥有顶尖学术资源网络 [7] - 专注自动驾驶等前沿交叉学科 深度理解领域痛点与机遇 [7][8] - 强调时效性服务 帮助用户快速应对热门研究方向迭代 [11][12]
时序融合等价梯度下降?GDFusion刷新OCC SOTA !显存大降七成~
自动驾驶之心· 2025-07-01 20:58
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 澳门大学X 武汉大学 最新的工作! 时序融合等价于 梯度下降?GDFusion 刷新 OCC 性能 SOTA,显存还大降72%! 如果您有相关工 作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Dubing Chen等 编辑 | 自动驾驶之心 一句话总结:来自澳门大学等机构的研究者提出了一种全新的时序融合框架GDFusion。它通过一个极其巧 妙的视角——将传统RNN更新过程重新诠释为"特征空间上的梯度下降",成功统一了多种异构时序信息的 融合。GDFusion不仅在3D占用栅格预测任务上取得了1.4%-4.8%的mIoU提升,更惊人地将推理显存消耗 降低了27%-72%,实现了性能和效率的双赢。 论文标题 :Rethinking Temporal Fusion with a Unified Gradient Descent View for ...
黑武士!科研&教学级自动驾驶全栈小车来啦~
自动驾驶之心· 2025-07-01 20:58
产品发布与定价 - 黑武士系列001正式开售 原价34999元 支付定金1000元可抵扣2000元 优先锁定订单安排组装发货 [1] 产品定位与功能 - 面向科研与教学场景的自动驾驶全栈解决方案 支持感知、定位、融合、导航、规划等功能平台 [2] - 适用场景包括本科生学习比赛、研究生科研论文、高校实验室教具、职业院校培训等 [5] 硬件配置 - 主要传感器包括Mid 360 3D激光雷达、镭神智能2D激光雷达、奥比中光深度相机 [17] - 主控芯片采用Nvidia Orin NX 16G 配备1080p显示器 [17] - 采用阿克曼底盘系统 车体尺寸620x400x320mm 自车重量30kg [17][21] - 电池功率50w 供电电压24V 续航时间超过4小时 [21] 软件系统 - 基于ROS框架 支持C++和Python开发 [23] - 提供一键启动功能 包含完整的开发环境 [23] - 支持多种SLAM算法 包括2D/3D激光SLAM、视觉惯性SLAM等 [24] 性能参数 - 最大运动速度2m/s 轮毂外径130mm 载荷能力30kg [21] - 深度相机测量范围0.15-5m 相对精度≤2% [27] - 3D激光雷达FOV 360°×59° 测距范围0.1-40m [27] 售后支持 - 提供1年非人为损坏保修 人为损坏提供有偿维修 [46] - 支持硬件采购咨询和技术支持 [46]
小米社招&校招 | 自动驾驶与具身智能算法研究员 (VLA/具身方向)
自动驾驶之心· 2025-07-01 20:58
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,共同定义和构建下一代自动驾驶与机器人的"大脑",致力于突破性的具身基座模型研究,深度融合视觉-语言-行动能力,并具备卓越的空间感知与空间推理能力 [2] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 [3] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [4] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,探索其在自动驾驶和通用机器人领域的统一应用潜力 [4] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [4] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位或同等深度的研究经验 [5] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习、三维视觉与空间智能等领域有深入研究和实践经验 [6][7] - 理论与编程能力:在顶级会议上作为主要作者发表过高质量论文,具备将大模型、自然语言处理、计算机视觉、强化学习与机器人学知识融会贯通的能力 [8] 加分项 - 世界模型研究经验:对World Model理论有深入理解并有相关研究或项目实践经验 [11] - 大规模预训练:有从零开始训练亿级参数以上大模型的实际经验,熟悉分布式训练技术 [11] - 机器人平台经验:具有在真实机器人或高仿真平台上部署和验证算法的经验 [11] - 开源社区贡献:活跃于相关开源项目并有广受认可的贡献 [11] 工作地点与投递方式 - 工作地点以北京为主,少量上海职位 [10] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [10]
重磅直播!清华&博世开源SOTA性能纯血VLA:Impromptu-VLA告别双系统~
自动驾驶之心· 2025-07-01 20:58
自动驾驶技术进展 - 当前自动驾驶系统在结构化环境(如城市和高速公路)中取得显著进展,但在非结构化场景(如乡村小路、临时施工区、恶劣路况)中仍面临鲁棒性和安全性挑战 [1] - 现有大规模自动驾驶数据集主要关注常规交通状况,缺乏针对非结构化环境的专门、大规模且精细标注的数据 [1] Impromptu VLA框架 - 清华AIR联合博世中央研究院提出Impromptu VLA框架,旨在提供开放权重和开放数据的驾驶视觉-语言-动作模型 [1] - 该框架是完全端到端、无中间感知表征的"纯血VLA"系统,直接从驾驶视频片段提取多模态特征并生成自然语言格式的驾驶命令 [1] - 系统无需手工设计感知模块、行为先验或中间BEV表达 [1] - 在NeuroNCAP闭环安全评测中表现优异,得分2.15,显著超越CVPR 2025最新提出的BridgeAD系统(1.60) [1] 技术资源与分享 - 论文已发布于arXiv(编号2505.23757v1) [2] - 项目主页在GitHub(ahydchh/Impromptu-VLA) [2] - 清华大学计算机系本科生迟浩瀚将分享该VLA框架 [2] 学习建议 - 建议入门者扎实深度学习和计算机视觉基础,逐步了解自动驾驶各模块 [2] - 推荐通过阅读前沿论文和参与开源项目实践来熟悉数据处理和模型训练流程 [2]
目标导航到底是什么?自驾有没有落地的点?
自动驾驶之心· 2025-07-01 20:24
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划 [2] - 与传统视觉语言导航依赖显式指令不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模与动态决策能力 [2] 技术应用场景 - 终端配送场景:美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能的商用服务机器人及美国Aethon公司的TUG系列实现药品、文件、餐食自主配送 [3] - 人形机器人领域:宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成目标导航模块,特斯拉Optimus展示端到端操作能力 [3] 技术发展历程 - 第一代端到端方法:基于强化学习与模仿学习,在PointNav与闭集图片导航任务中SPL指标逼近人类表现 [5] - 第二代模块化方法:通过显式构建语义地图分解任务,利用CLIP等视觉语言模型提升零样本目标导航成功率 [5] - 第三代LLM/VLM融合方法:引入大语言模型生成语义指导策略,通过跨模态对齐解决开放词汇目标匹配问题 [7] 技术生态与挑战 - Habitat仿真生态形成覆盖空间认知到任务执行的闭环评测体系,融合视觉预训练模型、分布式强化学习与大语言模型技术 [4] - 当前技术梯度:PointNav和闭集ObjectNav接近人类水平,但开放词汇物体导航与动态障碍物场景仍存挑战 [4] - Sim2Real迁移框架为仿真到真实部署提供方法论,动态环境下的语义地图更新技术持续发展 [4] 课程核心内容 - 语义导航框架:系统剖析三代技术演进路径(端到端/模块化/LLM融合)及评测基准体系 [14] - Habitat仿真生态:解析Habitat-Sim/Lab/Baselines技术架构及NavMesh路径规划算法 [15][21] - 实战模块:涵盖端到端导航(ZSON/PIRLNav)、模块化架构(SemExp/VLFM)、LLM/VLM系统(InstructNav/3Dmem)的算法复现与改进 [15][16][17] - 大作业设计:聚焦VLFM算法复现,包括占据地图构建、边缘探索点生成、值地图生成及实机部署迁移 [18][22] 技术学习痛点与解决方案 - 跨领域知识整合困难:需同时掌握自然语言处理、计算机视觉、强化学习等多领域碎片化知识 [9] - 实践闭环缺失:Habitat生态文档不足导致从理论到实践的过渡障碍 [9] - 课程解决方案:采用Just-in-Time Learning理念构建领域框架,结合实战环节完成闭环学习 [10][11][12]
上岸小厂,心满意足了。。。
自动驾驶之心· 2025-07-01 12:04
行业趋势与人才需求 - 自动驾驶和具身智能技术突破撑起近一半技术路线和融资金额 但行业趋于饱和 部分应届生去年校招面临offer难问题[2] - L2~L4自动驾驶功能加速量产 人形机器人/四足机械狗等具身智能产品实现复杂动作 行业对技术和人才需求明确[2] - 行业技术方向覆盖自动驾驶、具身智能、3D视觉、机器人等领域 头部企业包括地平线、理想汽车、华为、小米汽车等[2] 求职服务平台内容 - AutoRobo知识星球已聚集近1000名成员 涵盖社招(地平线/华为等)和校招(2024-2025届)群体[2] - 提供面试题库:包含毫米波视觉融合、BEV感知、多传感器标定等自动驾驶领域100问 以及VLA、Diffusion Policy等具身智能领域100问[6][7][8][11] - 共享行业研报:包括世界机器人报告、中国人形机器人蓝皮书、具身智能创投报告等15+细分领域深度分析[12][15] 职业发展资源 - 面经库覆盖滴滴/NV/美团等20+企业 涉及算法/产品/C++等岗位 包含成功与失败案例的完整复盘[13][16] - 提供谈薪技巧、HR面应答策略、跨行转型经验等实战指南 汇总机器人/AI类专业书籍[17][19] - 实时更新校招/社招/实习岗位信息 与企业直接合作获取第一手招聘需求[4] 服务模式 - 会员制社区 日均成本约0.3元 提供简历优化、内推渠道等全流程求职服务[20] - 内容体系涵盖技术题库(15+方向)、行业认知、面试实战三大模块 形成完整学习路径[3][12][16]