Workflow
自动驾驶之心
icon
搜索文档
试了一下Grok 4,感觉学术界的天也要塌了
自动驾驶之心· 2025-07-25 18:47
Grok 4技术能力 - Grok 4能在1分钟内引用100多篇真实文献并附带链接 显著提升学术研究效率[1] - 该AI具备13.5万tokens的上下文窗口 约9.9万字处理能力 支持大篇幅论文分段处理[13] - 文献引用功能彻底解决AI编造文献问题 每篇引用均可直接跳转验证[1] 法医影像学技术 - 该技术能准确识别毒品在体内的分布与代谢 助力打击毒品犯罪[2] - 面临技术成本高昂 专业人才匮乏 隐私保护等发展挑战[2] - 需要政产学研协同推进技术创新 同时完善法律法规与伦理规范[2] 自动驾驶技术生态 - 行业已形成近4000人交流社区 吸引300+企业和科研机构参与[14] - 覆盖30+技术方向 包括大模型 端到端自动驾驶 多传感器融合等前沿领域[14][16] - 提供从感知 定位到规划控制的全栈学习路线 包含BEV感知 Occupancy等热点技术[14][16] Grok 4商业化应用 - 官网订阅价格30美元/月 但存在通过第三方平台免费使用的途径[9] - 免费方案每日提供200积分 每次调用消耗70积分 相当于每日2次免费额度[12] - 推荐使用Edge/Chrome浏览器访问特定网址安装使用[9][10]
传统的感知被嫌弃,VLA逐渐成为新秀......
自动驾驶之心· 2025-07-25 16:17
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 [1] - 二段式端到端以PLUTO为代表,专注于模型实现自车规划 [1] - 一段式端到端包括UniAD(基于感知)、OccWorld(基于世界模型)、DiffusionDrive(基于扩散模型)等不同流派 [1] - 基于VLM的方法推动自动驾驶VLA方向,开启大模型时代下的端到端研究 [1] - 传统BEV感知、车道线、Occupancy等研究方向在顶会中逐渐减少 [1] 学术界与工业界研究方向差异 - 工业界仍在优化传统感知、规划方案 [1] - 学术界转向大模型与VLA方向,为新兴研究领域 [1] - 新领域对初学者门槛较高,仅少数科研强者可独立产出 [1] - 论文研究方向建议优先考虑大模型、VLA领域 [1] VLA科研论文辅导课题 - 课程目标包括系统掌握VLA理论体系、提升动手能力、论文写作与投稿方法 [6] - 招生对象涵盖本硕博学生、留学申请者、自动驾驶从业者等 [7] - 课程收获包括经典与前沿论文分析、创新点挖掘、实验方法、写作投稿技巧 [8] - 硬件要求最低4张4090显卡,建议8张或租赁云服务器 [11] - 基础要求包括Python、PyTorch、Linux开发能力 [11] 课程结构与支持 - 12周在线科研+2周论文指导+10周维护期 [10] - 提供导师定制idea、baseline代码、数据集支持 [10][14][15] - 采用"2+1"多师制,含主导师与班主任全程跟踪 [13] - 学习阶段包括基础测试、个性化教学、学术回顾等 [13] - 产出包括论文初稿、结业证书、推荐信(优秀学员) [13] 学习资源与安排 - 提供开源代码库(UniAD、DiffusionDrive、OpenDriveVLA等) [14] - 必读论文涵盖VLA模型综述、Senna、SimLingo等前沿研究 [16] - 数据集采用nuScenes、Waymo、Argoverse等公开资源 [15] - 学习要求包括课前阅读、按时作业、全勤参与、学术诚信 [13]
这几个方向,从自驾转到具身会比较丝滑......
自动驾驶之心· 2025-07-25 14:47
具身智能实现路径 - 机械臂方向主要依赖VLM、VLA、Diffusion等模块,需要具备模型端和数据端能力,特别是VLM、Diffusion基础及自驾数据采集优化经验[1] - 四足机器人方向以强化学习为主,需熟悉强化学习框架及相关技术[1] - 人形机器人目前有强化学习和VLA两种方案,强化学习相对成熟,VLA受限于关节复杂度落地较难但适合学术研究[1] - 视觉语言导航(VLN)需要SLAM、导航背景,后期依赖大模型进行导航优化[1] 具身智能社区资源 - 社区汇总了40+开源项目、60+数据集及主流仿真平台[14] - 提供30+技术学习路线,涵盖感知、交互、强化学习、VLN、VLA等多领域[14] - 汇总国内外知名高校实验室和头部公司资源,包括斯坦福、清华、智元机器人、优必选等[14][19] - 整理了机器人相关书籍、零部件品牌、研报等资源[22][25][27] 社区特色服务 - 提供岗位内推机制,对接头部具身公司招聘需求[9] - 定期举办圆桌论坛和直播,邀请产业界大佬分享[3] - 成员可自由提问工作选择和研究方向问题并获得解答[73] - 为不同水平用户提供针对性资源,包括小白入门路线和进阶项目方案[10][12] 技术研究方向 - 强化学习领域汇总了基于LLM、可解释、深度强化学习等主流方案[37] - 多模态大模型涵盖理解和生成两大方向,支持多种输入输出组合[47][49] - 机械臂相关技术包括抓取、位姿估计、策略学习等[64] - 仿真平台覆盖通用机器人和真实场景仿真需求[35] 行业应用案例 - 社区成员来自教育、宠物、工业、救援、物流等多个应用领域公司[19] - 具体应用包括机器人导航与规划、触觉感知、视觉语言交互等[43][45] - 双足/四足机器人项目提供从仿真到硬件的完整资源[66] - 移动+执行硬件方案助力快速搭建系统[69]
火热报名中!欢迎参加第三届CCF智能汽车学术年会(CIVS 2025)
自动驾驶之心· 2025-07-24 17:42
会议概况 - 第三届CCF智能汽车学术年会(CIVS 2025)将于2025年8月16-18日在杭州举办,由中国计算机学会(CCF)主办,CCF智能汽车分会承办,国科大杭州高等研究院协办 [1] - 大会主题为"科研与产业同行,教育与科普共进",旨在汇聚政产学研用各界力量推动中国智能汽车高质量发展 [2] - 同期举办首届CCF智能汽车大赛(CCF IVC 2025),设置汽车安全攻防赛和自动驾驶仿真赛两个赛项 [3] 技术焦点领域 - 重点探讨恶劣天气下的新型传感器、车载RISC-V芯片、量子保密通信、智能车灯、"一带一路"国际合作、自动驾驶仿真等前沿方向 [2] - 设立十余个技术分论坛,涵盖芯片、自动驾驶、智能汽车安全等核心议题,以及投融资、国际化等产业生态话题 [2] 产学研融合 - 设置"高校学院院长及企业研发负责人论坛"等特色论坛,连接研究人员、产业实践者和政府人员 [2] - 邀请极氪汽车副总裁刘昊、美团自动车算法架构师李潇等产业界专家参与主旨报告 [6] - 苏州国芯科技、中国科学院半导体研究所等机构专家将分享车载RISC-V芯片、激光成像等技术进展 [6] 教育科普创新 - 面向大中小学生开设四个科学教育大讲堂,内容涵盖智能汽车中的数理化知识、芯片原理、汽车设计等 [2] - 教育大讲堂按学段分层设计,大学生侧重自动驾驶数学原理,小学生侧重未来汽车设计创意 [7] - 线上观看科学教育大讲堂仅需10-20元,大幅降低参与门槛 [15] 国际化合作 - 邀请英国爱丁堡大学Michael Herrmann教授、澳大利亚麦考瑞大学郑曦副教授等国际学者分享自动驾驶多学科视角 [6] - 设立海外华人学者论坛促进国际学术交流 [7] 商业合作机制 - 提供钻石(30万元)、铂金(10万元)、黄金(5万元)、白银(3万元)四级赞助方案 [8] - 支持灵活合作方式,包括视频宣传、特邀论坛参与等增值权益 [8] - CCF全球科技社团排名第5,中国排名第2,具备显著行业影响力 [8] 组织架构 - 由5位院士领衔指导委员会,包括中国工程院院士高文、中国科学院院士梅宏等 [9] - 北京师范大学斯白露教授、中科院刘玉岭研究员担任大会主席 [9] - 设立竞赛、奖励、宣传等12个专项委员会,保障会议专业化运作 [11] 参会方案 - 早鸟优惠截至2025年8月1日,线下参会费专业会员1000元起,学生会员600元起 [13] - 线上主会场参会费专业会员300元起,科学教育大讲堂统一收费10-20元 [14][15] - 论文作者参会费包含出版费用,专业会员1800元起 [13]
基于3DGS和Diffusion的自动驾驶闭环仿真论文总结
自动驾驶之心· 2025-07-24 17:42
自动驾驶仿真技术发展 核心技术框架 - 自动驾驶仿真器由场景渲染、场景外推、3D资产重建、Relighting、智能体、天气系统等模块构成,通过闭环模拟实现高真实感[1] - 静态环境建模采用3D Gaussian Splatting与Diffusion Model技术,可还原城市细节至路边奶茶杯级别[1] 关键技术突破 静态环境构建 - OmniRe、Street Gaussians、ReconDreamer、StreetCrafter等方案实现高精度3D场景重建,支持逼真城市建模[1] 动态资产采集 - 通过环视采集系统提取汽车、行人、动物等动态元素,MADrive与3DRealCar技术实现复杂场景对象抠像[2] 视觉渲染优化 - R3D2与DiPIR技术完成动态资产重打光,模拟清晨/黄昏/暴雨等复杂光照条件,确保毛发反光等细节真实[2] 智能体行为模拟 - BehaviorGPT、SMART、DFTO-FW等模型赋予资产自主决策能力,支持变道不打灯、行人拍照等拟人行为[4][8] 环境系统增强 - Weather-Magician与RainyGS实现动态天气模拟,可生成雨雪雾霾等极端条件,测试传感器失效场景[4][9] 行业应用与测试场景 极端场景模拟 - 构建"外卖小哥+快递电瓶车+遛狗大妈+抛洒钉子"的复合挑战场景,验证自动驾驶系统鲁棒性[4] 技术验证方向 - 覆盖传感器失效(雨刮罢工、摄像头模糊)、感知干扰(激光雷达雾霾衰减)等30+技术栈测试需求[6][9] 行业生态发展 技术社区规模 - 形成4000人规模的专业社区,吸引300+企业与科研机构参与,覆盖感知、定位、规划控制全技术链[6] 技术培训体系 - 提供端到端自动驾驶、BEV感知、多传感器融合等30+方向课程,包含CUDA部署、轨迹预测等实战内容[6][8][10]
出现断层了?ICCV2025的自动驾驶方向演变...
自动驾驶之心· 2025-07-24 17:42
多模态大模型 & VLA - ORION框架提出端到端自动驾驶方案 通过视觉语言指令生成动作 华科与小米联合研发 [5] - DriveMM构建全合一大型多模态模型 中山大学与美团合作开发 支持自动驾驶多任务处理 [6][7] - MCAM模型实现自我车辆级驾驶视频因果分析 重庆大学团队开源代码 [9] - AdaDrive/VLDrive双系统实现语言驱动的自适应驾驶 轻量化设计提升效率 [10] 仿真 & 重建 - ETA框架采用大模型双路径决策 科奇大学与港大合作提升自动驾驶效率 [13] - InvRGB+L实现复杂场景逆向渲染 清华与UIUC联合建模色彩与激光反射 [14] - AD-GS通过B样条高斯泼溅技术 南开与UIUC实现自监督场景重建 [16][18] - BézierGS动态重建城市场景 复旦大学采用贝塞尔曲线高斯泼溅技术 [19] - RGE-GS利用扩散先验引导场景重建 清华与菜鸟网络联合开发 [21][24] 端到端 & 轨迹预测 - Epona世界模型基于自回归扩散 清华与地平线合作生成驾驶轨迹 [25] - World4Drive构建意图感知潜空间模型 中科院自动化所与理想汽车联合研发 [30] - MagicDrive-V2实现高分辨率长视频生成 港中文与华为诺亚方舟实验室合作 [32][35] - DiST-4D解耦时空扩散生成4D场景 清华与旷视科技联合开发 [36] 占用网络 - B2S模型将二值占用数据升级为语义预测 丰田汽车公司研发 [44] - DISC模型解耦实例与场景上下文 华科团队实现3D语义场景补全 [45] - GaussRender采用高斯渲染学习3D占用 Valeo AI与索邦大学合作 [52] - GaussianOcc基于高斯泼溅自监督估计3D占用 东京大学团队开发 [54] 目标检测 - PI3Det实现透视不变3D检测 新国大与复旦联合研发 [59] - MambaFusion多模态3D检测框架 中科院自动化所与上海交大合作 [64] - OcRFDet基于神经辐射场多视角检测 南京理工大学开发 [69] 数据集与评估 - ROADWork数据集专注施工区场景识别 卡内基梅隆大学发布 [73] - VLADBench细粒度评估大视觉语言模型 中科大与华为诺亚方舟实验室联合推出 [81] - LiMA跨视角蒸馏提升LiDAR表征 新国大与南航合作 [88][89] 其他技术 - Dynamic-DINO实时开放词汇检测 浙大与中兴通讯联合开发 [83] - DepthForge增强域泛化语义分割 集美大学与中山大学合作 [87][90]
再见伪影!港大开源GS-SDF:SDF做高斯初始化还能这么稳~
自动驾驶之心· 2025-07-24 14:46
技术方案 - 提出统一的激光雷达-视觉系统,结合三维高斯喷溅(3DGS)与神经有符号距离场(NSDF),实现几何一致的真实感渲染与高精度表面重建 [5][6] - 通过NSDF提供的流形几何场进行高斯原语初始化,提升训练收敛性并减少悬浮伪影 [22][23] - 设计双向监督的形状正则化方法,在NSDF与高斯喷溅之间建立几何约束,优化渲染与重建效果 [6][28][33] 核心创新点 - 基于物理的高斯初始化策略,利用NSDF提取表面网格顶点作为初始位置,并通过SDF值定义不透明度 [23][24] - 针对背景渲染的"天空初始化"方案,在大球面上均匀布置高斯以避免前景伪影 [25] - 结合渲染法线一致性损失与SDF表面采样点约束的双重几何正则化框架 [30][33] 性能表现 - 在Replica数据集上平均表面重建精度达0.506cm(C-L1指标),优于M2Mapping的0.499cm [46] - 外推渲染SSIM达0.955,显著高于3DGS(0.914)和InstantNGP(0.944) [46] - FAST-LIVO2数据集测试中,平均PSNR达26.988,较基准方法提升1.5dB以上 [49] 应用场景 - 适用于机器人导航、数字孪生等需要实时高质量三维重建的领域 [1] - 支持低成本激光雷达与相机组合的硬件方案,降低部署门槛 [5][48] - 在稀疏观测条件下仍能保持几何一致性,适应复杂环境 [3][6] 实现细节 - 采用哈希编码+MLP构建可扩展的NSDF网络,通过Eikonal正则化保证梯度稳定性 [16][20] - 渲染阶段使用alpha混合的光栅化方法,结合L1+DSSIM损失优化颜色输出 [13][14] - 高斯属性参数化包含位置、切向量、缩放因子、不透明度及球谐函数编码颜色 [10][11]
研一结束了,还什么都不太懂。。。
自动驾驶之心· 2025-07-24 14:46
自动驾驶行业技术趋势 - 自动驾驶技术栈趋同,端到端VLA、世界模型等前沿方向成为行业热点 [3][4] - 传统规控仍有岗位需求,但需升级技术栈以适应大模型时代 [3][4] - 低算力环境下实现成果的策略和实践案例受到关注 [6] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大智驾技术社区,聚集近4000名成员 [11] - 社区覆盖30+自动驾驶技术学习路线,包含VLM、世界模型、端到端等前沿方向 [11][13] - 与数十家自动驾驶公司建立1v1内推渠道,简历直达 [11] 视觉语言模型(VLM)研究 - VLM预训练数据集规模从百万级(COCO)到十亿级(LAION5B)不等 [20] - VLM评估涵盖图像分类、文本检索、行为识别等多任务 [21][22][23] - VLM在自动驾驶中的应用包括感知理解、定位规划和决策控制 [29][30][31] 端到端自动驾驶 - 端到端方法整合感知、预测、规划模块,提高系统效率 [32] - 世界模型在端到端驾驶中实现场景理解和未来预测的统一 [34][35] - 扩散模型用于轨迹生成和场景合成,提升驾驶安全性 [37][38] 自动驾驶数据集 - 主流数据集包括KITTI、Cityscapes、nuScenes等,覆盖2D/3D检测、分割等任务 [26] - 语言增强数据集推动VLM在自动驾驶中的应用 [27] - 智能交通领域数据集支持语言引导的车辆检索和VQA任务 [28] 技术社区资源 - 知识星球提供四大板块:前沿技术、技术分类、学术直播、求职资料 [13] - 社区汇总近百个自动驾驶数据集和20+标注工具 [70] - 每周1-2场行业专家直播,年计划100场左右 [72]
SOTA!华科SDG-OCC:基于语义和深度引导的BEV多模态OCC新方案(ICCV'25)
自动驾驶之心· 2025-07-24 12:07
自动驾驶3D语义占用预测技术 - 3D语义占用预测通过为每个3D体素分配标签来建模环境几何和语义,相比传统3D目标检测和语义分割对任意形状和动态遮挡具有更强鲁棒性 [1] - 现有单模态方法存在明显局限:基于相机的方法缺乏深度信息,基于LiDAR的方法受遮挡影响;轻量级方法依赖LSS流水线但BEV特征稀疏且计算量大 [2] - 多模态融合方法计算负担重影响实时应用,需要解决外参冲突导致的特征错位问题 [2][11] SDG-OCC技术创新 - 提出语义和深度引导的视图转换方法,利用LiDAR稀疏深度信息在相同语义类别内扩散生成高精度虚拟点种子,相比LSS流水线显著提升深度估计精度和速度 [16][18][19] - 设计动态邻域特征融合模块,通过门控注意力机制从交叉特征中单向提取邻域特征,解决激光雷达和图像BEV特征错位问题 [23][24] - 采用占用驱动的主动蒸馏策略,基于活跃区域(AR)和非活跃区域(IR)的相对大小应用自适应缩放,平衡知识蒸馏重点 [24] 性能表现 - 在Occ3D-nuScenes数据集上实现SOTA性能:SDG-Fusion模型mIoU达51.66%,推理时间仅133ms;SDG-KL模型mIoU达50.16%,推理时间83ms [28][29] - 在SurroundOcc-nuScenes验证集上:SDG-Fusion模型mIoU达52.2%,SDG-KL模型mIoU达50.4%,优于现有方法 [29][31] - 消融实验显示:集成SDG视图转换使mIoU提升10.67%,结合激光雷达融合后mIoU比基线高13.82% [34][35] 技术实现细节 - 使用ResNet-50作为图像骨干网络,SPVCNN作为激光雷达骨干网络,在RTX 4090 GPU上训练 [27] - 占用网格设置:Occ3D-nuScenes为80m×80m×6.4m范围,0.4m体素;SurroundOcc-nuScenes为100m×100m×8m范围,0.5m体素 [30] - BEV编码器使用残差块进行多尺度特征扩散,占用预测头包含通道到高度的转换模块,将BEV特征从(B,C,H,W)重塑为(B,C,D,H,W) [25]
自动驾驶之心求职交流群来啦!!!
自动驾驶之心· 2025-07-24 12:07
自动驾驶之心求职与行业交流群成立了! 微信扫码添加小助理邀请进群,备注自驾+昵称+求职; 应广大粉丝的要求,我们开始正式运营求职与行业相关的社群了。社群内部主要讨论相关产业、公司、产品研 发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加入我们! ...