Diffusion Model

搜索文档
地平线&清华Epona:自回归式世界端到端模型~
自动驾驶之心· 2025-08-13 07:33
作者 | 蔡道清 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1932480841222723066 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 作者阵容挺强的,代码也开源了,值得follow。 Motivation 自动驾驶世界模型需同时满足长时程高分辨率场景生成与实时精准轨迹规划,但现有方法存在明显局限: 因而,本文提出一个 既能生成长时高分辨率视频,又能端到端输出连续轨迹 的统一框架。 Contribution Paper link : https://arxiv.org/pdf/2506.24113 Code link : https://github.com/Kevin-thu/Epona 扩散模型(如Vista):固定长度视频生成(≤15秒),无法支持灵活长时预测(>2分钟)和多模态轨迹控制; GPT式自回归模型(如GAIA-1):可无限延伸,却需把图像 离散成 token ,导致视觉质量下降,且缺乏连 ...
自动驾驶论文速递 | GS-Occ3D、BEV-LLM、协同感知、强化学习等~
自动驾驶之心· 2025-07-30 11:01
自动驾驶技术研究进展 - 清华大学与奔驰合作提出GS-Occ3D算法 首次实现纯视觉的大规模3D占用重建 在Waymo数据集上以0.56倒角距离刷新几何精度SOTA 训练效率仅需0.8小时 并在Occ3D-nuScenes数据集实现33.4 IoU 超越激光雷达基线的31.4 [3][5] - GS-Occ3D创新性地开发了纯视觉占用标签生成管道 摆脱对LiDAR标注依赖 支持利用大规模众包数据进行自监督标注 在长轨迹和复杂场景中保持高几何保真度 [5] - 该算法在Waymo数据集验证中 IoU达44.7 F1分数61.8 在nuScenes零样本测试中IoU 33.4 超越基线31.4 显示强大泛化能力 [6] 多模态场景理解技术 - 慕尼黑应用技术大学提出BEV-LLM框架 通过融合LiDAR点云与多视角图像生成3D场景描述 在nuCaption数据集BLEU-4分数达20.28% 超越SOTA模型5% [9][15] - BEV-LLM采用1B参数轻量级模型 创新使用正弦-余弦位置嵌入技术 将特征空间划分为六个视图 在BLEU系列指标上全面超越7B参数级大模型 [15][16] - 研究团队同步发布nuView(205k样本)和GroundView(7.4k样本)两个新数据集 为环境感知和对象定位研究提供新基准 [9][15] 协同感知技术突破 - 清华AIR研究院联合团队提出CoopTrack框架 在V2X-Seq数据集实现39.0% mAP与32.8% AMOTA 传输成本降至V2X-ViT的2.2% [21][26] - 该框架采用可学习实例关联模块和"融合后解码"流程 实现协作与跟踪的无缝集成 在mAP指标上较Early Fusion提升12个百分点 [26][29] 强化学习应用创新 - 德国研究团队提出自适应行为课程框架 通过多智能体强化学习教师动态生成交通行为 使智能体在未信号化交叉口平均速度提升98%至1.63 m/s [33][39] - 该框架采用图网络架构和新型奖励函数 能生成不同难度水平的交通行为 在最高难度场景(λ=-1)下成功率提升至40% [33][39] 视觉行驶区域预测 - ContourDiff模型突破单目视觉多模态驾驶通道预测技术 在CARLA实现0.7767 IoU与0.02障碍物重叠率 支持6种驾驶行为生成 [45][48] - 该技术首次将行驶区域预测定义为图像感知任务 采用自监督样本生成方法 摆脱对密集标注数据的依赖 [48][49]
Diffusion/VAE/RL 数学原理
自动驾驶之心· 2025-07-29 08:52
Diffusion Model - 扩散模型通过高斯分布的均值(原图提供)和方差(噪声系数提供)进行图像生成 [3] - 模型推导中关键变量α_t与噪声ε_t的线性组合服从N(0,1-α_tα_{t-1})的正态分布 [5] - 网络训练目标是拟合去噪过程中两个高斯分布的均值和方差 [7] - 通过KL散度项拟合理论去噪值与网络预测值 [9] - 将不确定的x_0转化为可预测的噪声ε进行迭代 [15] - 最终模型将分布拟合问题转化为噪声预测问题 [17] VAE模型 - 变分自编码器假设潜在空间服从高斯分布 [19] - 普通自编码器不具备生成能力 [21] - 使用神经网络拟合编码器 [23] - 通过重建损失+KL约束损失避免潜在空间退化 [26] - 最小化KL损失等价于最大化ELBO [27] - 训练过程包含重建损失和KL损失的平衡 [30] 强化学习 - 马尔可夫决策过程描述为状态-动作序列(s1,a1,s2,a2...) [35] - 表征学习分为语义表征(趋近脉冲分布)和生成表征(趋近高斯分布) [36] - 时间差分方法利用后续更准确的结果更新前期估计 [40] - 策略梯度方法学习最优状态-动作转换策略 [42] 自动驾驶行业 - 行业社区规模达4000人,涵盖300+企业和科研机构 [42] - 技术栈覆盖30+方向包括感知/定位/规划控制等领域 [42] - 重点技术包含BEV感知、多传感器融合、轨迹预测等 [42] - 专业课程覆盖端到端自动驾驶、大模型应用等前沿方向 [42]
一边是毕业等于失业,一边是企业招不到人,太难了。。。
自动驾驶之心· 2025-07-23 17:56
自动驾驶行业现状 - 自动驾驶行业面临人才供需失衡,企业招聘需求旺盛但匹配度高的顶尖人才稀缺 [2] - 行业资本趋于理性,公司更注重商业化落地和盈利而非盲目扩张 [2] - 技术栈虽完备但距离大规模低成本商业化仍有工程鸿沟 [3] - 企业招聘标准提高,对技术适配性和前沿研究能力要求严格 [3][4] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大技术社区,拥有4000+成员和100+行业专家 [7][9] - 社区覆盖30+技术方向学习路线,包括BEV感知、Occupancy、端到端驾驶等前沿领域 [9][69] - 与主流自动驾驶公司建立内推渠道,提供简历直达服务 [8][10] - 每周活跃度位居国内前20,形成学术与产业界的深度互动 [10][71] 技术研究方向 视觉语言模型(VLM) - 涵盖预训练、迁移学习、知识蒸馏等完整技术链条 [15][16][17] - 主流数据集包括LAION5B(50亿图文)、Conceptual 12M(1200万图文)等 [19] - 应用领域覆盖智能交通车辆检索、自动驾驶场景理解等 [27][28] 世界模型 - 聚焦驾驶场景生成与预测,代表工作包括HERMES、DriveDreamer等 [34][36] - 实现3D场景理解与生成的统一,提升自动驾驶系统泛化能力 [34][36] - 2024年涌现InfinityDrive等突破性模型,解决长序列预测难题 [36] 扩散模型 - 在3D重建、视频生成领域形成完整技术体系 [37][42] - DrivingDiffusion等框架实现时空一致性驾驶场景生成 [43] - 应用于数据增强,如Cityscape-Adverse模拟八种恶劣条件 [43] 端到端自动驾驶 - 形成从模仿学习到强化学习的完整方法论 [49][55] - 主流方案融合多模态输入,如DriveGPT4实现可解释决策 [31][55] - 面临开环评估与真实场景的差距挑战 [49][52] 行业应用与数据集 - 专用数据集覆盖200+任务,包括NuScenes(1000小时)、Waymo Open(1200万帧)等 [25][26] - 语言增强系统实现自然语言导航与车辆控制 [26][29] - 决策控制领域涌现GPT-Driver等大模型驱动方案 [29][30]
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-07-14 22:04
行业趋势与人才需求 - 自动驾驶和具身智能公司对人才要求较高,倾向于实力强、背景好的候选人 [3] - 大公司招聘需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向 [4] - 机器人初创公司融资活跃,未来几年发展前景可观 [4] - 传统机器人技术仍是产品主线,但具身智能是最前沿方向 [5] 技术方向与就业建议 - 双非学生可转向机器人/具身智能领域,从事SLAM、ROS相关优化和集成工作 [4] - LV融合、无图、BEV感知等技术已应用但人才饱和 [4] - 深圳、杭州的机器人公司提供全面技术培养机会 [5] 前沿技术资源汇总 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大技术方向 [9] - 提供10个Awesome和综述资源链接,涵盖智能交通、AIGC、视觉语言模型等领域 [10] - 列出17个VLM预训练数据集,最大规模达12B图像-文本对(LAION5B) [17] - 汇总图像分类、文本检索、行为识别等评估数据集,如ImageNet-1k(1000类)、Kinetics700(700类) [18][20] 自动驾驶数据集与应用 - 覆盖2D/3D目标检测、语义分割、跟踪等任务,如NuScenes(2020年,多模态)、Waymo Open Dataset(2020年) [23] - 语言增强数据集支持视觉-语言导航、车辆检索等应用,如NuScenes-QA(2023年) [24] - 智能交通领域方法聚焦语言引导的车辆检索和视觉问答 [25] - 自动驾驶感知技术包括语言引导的3D检测、开放词汇分割(如OpenScene) [26] 世界模型与扩散模型 - 世界模型研究集中在3D场景理解和生成,如HERMES(2025年)、DriveGPT(2024年) [32][33] - 扩散模型在自动驾驶中用于视频生成(如DriveDreamer)、数据增强(如Cityscape-Adverse) [35][41] - 汇总19篇扩散模型综述,涉及3D视觉、推荐系统等方向 [35][38][39] 端到端自动驾驶 - 开源仓库跟踪E2E最新研究,如opendilab/awesome-end-to-end-autonomous-driving [43][47] - 方法融合多模态感知与规划,如DriveGPT4(2023年)、VADv2(概率规划) [47][50] - 研讨会覆盖CVPR、ICRA等会议,探讨基础模型与规模化应用 [48] - 长尾分布问题通过对抗训练(如CAT)、场景生成(如KING)解决 [53][58]
4000人的自动驾驶黄埔军校,死磕技术分享与求职交流~
自动驾驶之心· 2025-07-12 22:43
智能驾驶行业现状 - 2025年智能驾驶行业呈现分化态势,部分从业者转向具身智能领域,但多数仍坚守原赛道 [2] - 头部企业持续高薪招聘人才,应届生薪资可达45k*16薪,超越2-3年经验社招水平 [2] - 行业技术迭代周期明显缩短,2025年技术基调确定为VLA(视觉语言行动)架构 [7] 核心技术趋势 - 大模型赋能端到端2.0技术成为主流方向,涵盖视觉大语言模型基座、扩散模型轨迹预测等技术栈 [7] - 世界模型成为关键技术,涉及3DGS生成技术、闭环仿真等前沿领域 [7] - 视觉语言模型(VLM)在感知任务中应用广泛,包括预训练、迁移学习和知识蒸馏等方法 [19][20][21] 自动驾驶社区生态 - 自动驾驶之心知识星球已成为国内最大专业社区,拥有近4000名成员和100+行业专家 [11] - 社区构建完整技术闭环,涵盖课程体系(9大视频教程)、硬件开发(标定板、机械臂)和实战项目 [3] - 与近200家企业建立合作,包括小米汽车、地平线、英伟达等头部公司,提供内推渠道 [7][66] 行业应用场景 - 智能交通领域应用语言引导车辆检索、视觉问答等技术,提升系统交互能力 [30] - 自动驾驶感知模块融合视觉语言模型,实现开放词汇目标检测和语义分割 [31] - 决策控制系统结合大语言模型,开发可解释的轨迹预测和运动规划方案 [32][33] 数据集发展 - 视觉语言预训练数据集规模显著扩大,LAION5B包含50亿图文对,WebLI达120亿规模 [23] - 自动驾驶专用数据集持续丰富,NuScenes、Waymo Open Dataset支持多任务学习 [28] - 语言增强数据集兴起,如NuScenes-QA支持视觉问答任务,推动人车交互发展 [29] 人才发展体系 - 社区建立30+技术学习路线,覆盖BEV感知、Occupancy等40个方向 [11] - 求职板块包含100问系列(TensorRT部署、BEV感知等)和面经分享,直击企业需求 [66][68] - 直播体系每年规划100场,邀请CVPR/ICCV作者和车企专家分享量产经验 [15][16]
4000人的自动驾驶黄埔军校,死磕技术分享与求职交流~
自动驾驶之心· 2025-07-12 13:41
自动驾驶行业现状与趋势 - 2025年自动驾驶行业面临技术迭代加速和人才竞争加剧的局面,部分从业者转向具身智能和机器人领域,但仍有大量人才坚守[2] - 行业薪资水平显示头部企业仍保持高投入,应届生可达45k*16薪,超越2-3年经验社招人员[2] - 技术迭代周期从2024年下半年开始明显缩短,2025年技术基调确定为VLA(视觉语言动作)2.0体系[8] - 前沿技术方向包括:视觉大语言模型基座、扩散模型端到端轨迹预测、3D高斯泼溅生成技术、世界模型等[8] 自动驾驶技术社区与资源 - 自动驾驶之心知识星球已成为国内最大专业社区,拥有近4000名成员和100+行业专家[13][14] - 社区内容覆盖30+技术方向学习路线,包含感知、定位、规划控制等全栈技术栈[14] - 提供独家资源包括:千元级付费课程8折、100+场学术/工业界直播回放、近5000份干货资料[19] - 每周举办1-2场前沿技术直播,2025年重点聚焦VLA、大模型、扩散模型等方向[21][22] 关键技术发展方向 视觉语言模型(VLM) - 形成完整技术体系包括预训练、迁移学习、知识蒸馏等方向,相关论文在CVPR2024等顶会集中爆发[24][25] - 应用领域覆盖智能交通和自动驾驶,包括语言引导车辆检索、视觉问答、异常识别等[37][38] - 基础理论持续创新,2024年出现RLAIF-V、RLHF-V等强化学习对齐方法[25] 端到端自动驾驶 - 形成两大技术路线:开环端到端1.0和闭环端到端2.0(VLA体系)[50] - 关键挑战包括:感知-规划耦合、长尾场景处理、可解释性等[55][62] - 典型方法包括DriveGPT4、DriveMLM等,结合大语言模型提升解释能力[59] 世界模型与扩散模型 - 世界模型成为研究热点,2024-2025年出现HERMES、DrivingWorld等统一框架[43][45] - 扩散模型在3D视觉、视频生成等领域应用广泛,相关综述论文超过20篇[47][48] - 自动驾驶应用包括DriveDreamer系列、MagicDriveDiT等街景生成方法[42][51] 行业人才发展 - 技术岗位需求呈现两极分化:基础算法岗竞争激烈,新兴领域(VLA、世界模型等)人才紧缺[2][97] - 职业发展建议:传统SLAM可转向3D重建,控制背景可拓展规划算法,感知方向需关注端到端技术[99] - 学习路径强调体系化:建议通过社区获取领域知识图谱、面试经验和岗位需求信息[3][14] 企业合作与生态 - 社区与近200家企业建立合作,包括小米、地平线、英伟达等头部公司[7][109] - 提供校招/社招内推渠道,简历可直达企业HR,覆盖算法、工程等多个岗位[10][19] - 资源对接涵盖学术机构(清华、ETH等)和工业界(华为、大疆等)[7][106]
告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
机器之心· 2025-07-11 16:27
AI视觉生成技术 - 当前AI视觉生成领域主流是基于Transformer架构的扩散模型,如Stable Diffusion和Sora,这些模型虽然生成效果好但计算开销大、推理速度慢[4] - 北大、北邮和华为的研究团队提出了一种纯卷积的扩散模型DiC,采用3x3卷积而非Transformer架构,在性能和推理速度上都有显著提升[1][5] - DiC模型证明了经过精心设计,简单的卷积网络依然能在生成任务中达到顶尖水平,挑战了生成模型必须依赖自注意力的固有观念[24] 技术架构创新 - DiC采用U-Net Hourglass架构而非Transformer的直筒形堆叠架构,通过下采样和上采样弥补了3x3卷积感受野受限的问题[13] - 模型减少了U-Net的跳连频率,降低了计算冗余,同时采用分阶段嵌入、条件门控机制等优化手段提升生成质量[14] - 将常用的SiLU激活函数替换为GELU,带来了一定的效果提升[15] 性能表现 - 在ImageNet 256×256测试中,DiC-XL的FID分数从DiT-XL/2的20降低到13,IS分数也大幅提升[17] - DiC-XL的推理吞吐量达到313.7,是DiT-XL/2(66.8)的近5倍,展现了显著的效率优势[17][18] - 在512x512分辨率下,DiC-XL用比DiT-XL/2更少的计算量,实现了更好的生成效果和更快的速度[22] 训练效率 - 不使用cfg时,DiC的收敛速度是DiT的十倍;使用cfg时FID可以达到2.25[18] - DiC-H模型在400K训练步数时FID为11.36,600K时降至9.73,800K时进一步降至8.96,展现了良好的训练扩展性[19] - 在相同设定下,DiC-H仅需256×2M的训练就能达到2.25的FID,优于DiT-XL/2需要256×7M训练才能达到的2.27[20]
2025秋招开始了,这一段时间有些迷茫。。。
自动驾驶之心· 2025-07-08 15:53
自动驾驶行业就业趋势 - 双非研究生在自动驾驶和具身智能领域面临就业挑战,需提升技术实力和背景竞争力 [2] - 行业需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向,传统技术人才已相对饱和 [3] - 机器人/具身智能初创公司融资活跃,技术栈培养全面,深圳、杭州是产业聚集地 [3][4] 技术发展方向 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大前沿技术方向 [8] - 视觉大语言模型领域涵盖预训练、迁移学习、知识蒸馏等技术,涉及图像分类、文本检索、行为识别等任务 [10][13][14] - 世界模型在自动驾驶中实现3D场景理解和生成一体化,如HERMES、DrivingGPT等模型 [31][32] - 扩散模型应用于自动驾驶视频生成、3D视觉、轨迹预测等领域,技术成熟度快速提升 [33][35][40] 数据集与评估体系 - VLM预训练数据集规模从百万级到百亿级,如LAION5B含50亿图文对,WebLI含120亿数据 [16] - 自动驾驶专用数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,如NuScenes、Waymo Open Dataset等 [22][23] - 评估指标包括mAP(目标检测)、mIoU(语义分割)、Recall(文本检索)等,不同任务有标准化测试集 [17][20][21] 应用领域创新 - 智能交通领域采用语言引导的车辆检索技术,如Multi-granularity Retrieval System提升自然语言交互能力 [24] - 自动驾驶感知系统集成VLM技术,实现开放词汇检测(OpenScene)和语言引导3D检测(Language-Guided 3D Object Detection) [25] - 决策控制系统结合LLM,如GPT-Driver、DriveGPT4实现可解释的轨迹规划和运动控制 [26][27] 端到端自动驾驶进展 - 端到端方法整合感知、预测、规划模块,DriveGPT4、DriveMLM等模型实现行为状态对齐 [28][48] - 技术挑战包括长尾分布处理(BEVGPT)、开环控制优化(MiniDrive)和安全性验证(CAT) [50][56] - 行业报告指出端到端技术需平衡模块化与一体化,特斯拉FSD验证了大规模数据驱动的可行性 [45] 行业资源与社区 - 知识星球提供自动驾驶课程、硬件代码资料及招聘信息,已吸引华为天才少年等专家加入 [5][60] - GitHub资源库汇总Awesome系列,如Awesome-Diffusion-Models、Awesome-End-to-End-Autonomous-Driving等 [34][42] - 学术会议(CVPR、ICRA)设立自动驾驶专题研讨会,推动技术标准化和产学研合作 [46]
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-06-30 13:51
自动驾驶与具身智能行业趋势 - 自动驾驶和具身智能公司对人才要求较高,倾向于招聘实力强、背景好的同学[2] - 行业技术方向正从传统方法向端到端、大模型、VLA、强化学习、3DGS等前沿领域转型[3] - 机器人初创公司融资活跃,未来几年发展前景可观[3] 职业发展建议 - 双非背景同学可考虑SLAM和ROS方向,从事机器人/具身智能相关的优化、集成类工作[3] - 建议关注机器人公司,虽然工作较苦但能学习到实打实的技术栈[4] - 具身智能是最前沿方向,但传统机器人仍是产品主线[4] 技术社区资源 - 知识星球提供自动驾驶视频课程、硬件及代码学习资料,以及全栈学习路线图和招聘信息[5] - 社区已形成学术+产品+招聘的完整链路,包含课程、硬件和问答闭环[5] - 社区关注行业技术动态、技术分享、讨论和求职信息,聚焦具身智能与自动驾驶结合等前沿话题[5] 前沿技术方向 - 四大前沿技术方向包括视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[7] - 视觉大语言模型领域有多篇CVPR 2024论文,涉及预训练、迁移学习等方向[11][12] - 扩散模型在自动驾驶中的应用包括场景生成、数据增强等方向[38][39] 数据集资源 - VLM预训练数据集规模从百万级到百亿级不等,最大达12B样本[15] - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等任务,时间跨度从2009到2024年[21] - 语言增强的自动驾驶数据集支持文本解释、视觉问答等任务[22] 应用领域进展 - 智能交通领域主要研究语言引导的车辆检索和视觉问答技术[23] - 自动驾驶感知方向聚焦行人检测、目标指代等任务[24] - 定位规划领域探索语言引导导航和运动规划技术[25] - 决策控制方向研究大语言模型在自动驾驶决策中的应用[26] 端到端自动驾驶 - 端到端方法整合感知、预测和规划模块,实现自动驾驶全流程[27] - 相关研究关注模型可解释性、行为规划和场景生成等方向[45] - 世界模型在端到端驾驶中发挥重要作用,支持场景理解和生成[30][50]