自动驾驶之心

搜索文档
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 20:45
未来帧合成(FFS)综述核心观点 - FFS任务目标是从历史帧或单帧生成未来帧序列,强调合成能力并扩展视频预测范围[1] - 领域经历了从确定性方法向生成性方法的演变,生成模型在产生逼真多样化预测中的作用日益重要[1] - 关键挑战包括平衡像素保真度与场景理解、评估指标设计、长期合成困难等[5] - 未来方向在于预测技术与生成技术的协同整合,实现更稳健连贯的合成[4] 研究方法分类 确定性范式 - 采用CNN、RNN、LSTM等架构进行像素级拟合,但易产生模糊输出[9] - Transformer架构逐渐挑战传统方法主导地位,如ViT、Swin Transformer等[9] - 优化PSNR/SSIM等指标会导致模型对多个未来取平均[10] 随机性范式 - 通过随机变量或概率模型建模视频动态不确定性[10] - 包括VAE、GAN等方法,能产生多样化预测但可能偏离真实值[10] - 面临多样性、视觉保真度和计算效率的平衡挑战[46] 生成性范式 - 优先考虑连贯合理的视频序列而非像素级保真度[10] - 利用扩散模型、LLM等先进生成技术[10] - 在对象出现/消失等复杂场景表现更优[59] 关键技术进展 架构创新 - 循环网络(PredNet、PredRNN)在时空建模中表现突出但计算复杂[26] - 卷积网络(SimVP)简化架构实现相当性能[29] - Transformer架构(TimeSformer、ViViT)处理时空信息能力显著[9] 运动建模 - 光流方法(DMVFN)在短期预测有效,长期生成仍存挑战[31][33] - 3D高斯表示(GaussianPrediction)等新方法探索运动表示[34] - 内容-运动解耦(LEO、D-VDM)提升逼真度[48] 生成模型 - 扩散模型(Video LDM、SEINE)实现高质量视频生成[60][61] - 基于令牌方法(MAGVIT、VideoPoet)探索LLM在视觉生成的应用[67][69] - 大型模型(HunyuanVideo 13B)展现强大生成能力[63] 应用领域 自动驾驶 - GAIA-1整合多模态LLM和扩散模型提升决策能力[74] - 视觉语义信息利用显著改善行为预测[74] 机器人技术 - GR-1/2显示视频生成预训练大幅提升操作能力[75] - 在动态环境中实现高效路径规划和避障[75] 电影制作 - 生成逼真场景增强叙事连贯性和艺术表达[77] - 可控合成技术(CineMaster)支持精确场景控制[58] 数据集发展 - 数据集复杂性和分辨率持续提升(如HD-VILA-100M)[21] - 高质量高分辨率数据集仍稀缺,限制模型泛化能力[18] - 多模态标注(文本、深度、语义等)成为趋势[21]
上海期智&清华!BEV-VAE:首个自监督BEV视角的VAE,从图像到场景生成跃迁~
自动驾驶之心· 2025-07-08 20:45
核心观点 - BEV-VAE通过结构化BEV隐变量空间实现多视角图像生成与操控,显著提升自动驾驶场景生成的空间一致性与可控性 [2][4][5] - 该方法突破传统以图像为单位的生成范式,直接以三维场景为单位建模,支持任意相机配置下的新视角合成与对象编辑 [5][6][13] - 在nuScenes和AV2数据集上验证显示,隐变量维度提升至32时PSNR达26.32/26.68,SSIM达0.7455/0.8004,优于SD-VAE基准 [22][23] 技术架构 双阶段设计 - **重建阶段**:通过Transformer编码器将多视角图像压缩为BEV隐变量,解码器重建时保持空间一致性,隐变量维度从4到32逐步提升信息容量 [7][10][12] - **生成阶段**:采用Diffusion Transformer在BEV空间去噪,通过Classifier-Free Guidance实现可控生成,支持15°视角旋转调整 [8][11][13] 关键组件 - 编码器包含图像/场景/状态三模块,解码器通过对抗损失优化生成质量,联合训练KL散度/重建/对抗损失 [7][8] - 判别器采用StyleGAN结构,确保生成图像真实度,消融实验显示隐变量维度32时FID降至13.72/3.02 [22][25] 性能表现 数据集对比 - **nuScenes**:155K×6视图训练,隐变量32维时MVSC+指标达0.9291,接近SD-VAE水平但训练数据量仅0.1% [22][23] - **AV2**:224K×7视图训练,同参数下PSNR提升3.19,验证数据规模规律(Scale Law)的有效性 [22][28] 基准测试 - 在零额外先验条件下,BEV-VAE w/DiT的FID为21.14,显著缩小与基于Stable Diffusion微调方法的差距(DriveWM为12.99) [25] - 对象编辑实验中,移除特定车辆后生成图像无空洞,证明三维结构建模能力 [18][19][20] 应用优势 - **跨平台兼容**:解耦空间建模与生成过程,适配不同相机数量/位姿配置,实现零成本算法迁移 [5][28] - **效率提升**:相比传统数据采集,可低成本生成场景变体(如车辆增减),加速端到端模型训练 [4][18] - **扩展性**:BEV隐变量天然支持NeRF、Occupancy等三维任务,降低世界模型构建门槛 [28][31]
最近才明白,智能驾驶量产的核心不止是模型算法。。。
自动驾驶之心· 2025-07-08 20:45
自动驾驶4D自动标注技术 核心观点 - 行业共识认为模型算法是智驾能力从0到10的关键 但海量自动标注数据才是从10到100的核心 未来将进入自动标注数据时代 [2] - 4D自动标注(3D空间+时间维度)是智能驾驶量产泛化的核心 需解决动态目标追踪、多模态数据融合、场景泛化等关键难题 [7] - 当前行业痛点包括:人工标注成本高(周期长、费用贵)、复杂场景下自动化标注精度不足、跨城市/天气的场景泛化能力待提升 [7][8] 技术实现路径 动态障碍物标注 - 流程包含四大模块:离线3D目标检测(点云或激光雷达-视觉融合)、离线跟踪、后处理优化、传感器遮挡优化 [5] - 3D检测采用SAFDNet等算法 需处理数据增广、BEV/多帧时序融合等关键问题 跟踪环节需解决ID跳变、轨迹生命周期管理等工程挑战 [11] 静态元素与OCC标注 - 静态标注依赖SLAM重建技术 通过全局clip道路信息避免单帧感知偏差 激光/视觉SLAM算法为重建核心 [12][14] - 通用障碍物OCC标注需处理稠密化点云、跨传感器遮挡优化 真值生成支持激光/视觉双方案 [15] 端到端标注 - 主流范式包括一段式和两段式实现 需整合动态障碍物、静态元素、可行驶区域等多元数据 [16] - DrivingGaussian等闭环仿真算法为端到端自动驾驶刚需 扩展4D标注的应用边界 [16] 行业发展趋势 - 数据驱动架构转向大规模无监督预训练+高质量数据集微调模式 联合标注取代传统分模块标注 [3] - 头部公司加速布局Occupancy Network技术 2022年特斯拉量产应用后OCC已成为感知标配 [15] - 数据闭环面临scaling law有效性验证、跨传感器系统兼容性等深层挑战 [17][18] 技术能力要求 - 自动标注系统需综合离线算力与时序信息处理能力 对工程师的大模型系统驾驭能力要求极高 [2] - 核心技能包括多模态3D感知、SLAM重建、Transformer模型应用及PyTorch工程化能力 [11][24]
2025秋招开始了,这一段时间有些迷茫。。。
自动驾驶之心· 2025-07-08 15:53
自动驾驶行业就业趋势 - 双非研究生在自动驾驶和具身智能领域面临就业挑战,需提升技术实力和背景竞争力 [2] - 行业需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向,传统技术人才已相对饱和 [3] - 机器人/具身智能初创公司融资活跃,技术栈培养全面,深圳、杭州是产业聚集地 [3][4] 技术发展方向 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大前沿技术方向 [8] - 视觉大语言模型领域涵盖预训练、迁移学习、知识蒸馏等技术,涉及图像分类、文本检索、行为识别等任务 [10][13][14] - 世界模型在自动驾驶中实现3D场景理解和生成一体化,如HERMES、DrivingGPT等模型 [31][32] - 扩散模型应用于自动驾驶视频生成、3D视觉、轨迹预测等领域,技术成熟度快速提升 [33][35][40] 数据集与评估体系 - VLM预训练数据集规模从百万级到百亿级,如LAION5B含50亿图文对,WebLI含120亿数据 [16] - 自动驾驶专用数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,如NuScenes、Waymo Open Dataset等 [22][23] - 评估指标包括mAP(目标检测)、mIoU(语义分割)、Recall(文本检索)等,不同任务有标准化测试集 [17][20][21] 应用领域创新 - 智能交通领域采用语言引导的车辆检索技术,如Multi-granularity Retrieval System提升自然语言交互能力 [24] - 自动驾驶感知系统集成VLM技术,实现开放词汇检测(OpenScene)和语言引导3D检测(Language-Guided 3D Object Detection) [25] - 决策控制系统结合LLM,如GPT-Driver、DriveGPT4实现可解释的轨迹规划和运动控制 [26][27] 端到端自动驾驶进展 - 端到端方法整合感知、预测、规划模块,DriveGPT4、DriveMLM等模型实现行为状态对齐 [28][48] - 技术挑战包括长尾分布处理(BEVGPT)、开环控制优化(MiniDrive)和安全性验证(CAT) [50][56] - 行业报告指出端到端技术需平衡模块化与一体化,特斯拉FSD验证了大规模数据驱动的可行性 [45] 行业资源与社区 - 知识星球提供自动驾驶课程、硬件代码资料及招聘信息,已吸引华为天才少年等专家加入 [5][60] - GitHub资源库汇总Awesome系列,如Awesome-Diffusion-Models、Awesome-End-to-End-Autonomous-Driving等 [34][42] - 学术会议(CVPR、ICRA)设立自动驾驶专题研讨会,推动技术标准化和产学研合作 [46]
自动驾驶岗位面试时,这个简历助力拿到了60k!
自动驾驶之心· 2025-07-08 09:47
自动驾驶岗位面试时,一份好的简历是什么样的? 可以适当夸大,别太过分(简历上写的一定要是自己非常了解的): 自驾行业是出了名的工资高,好多同学都想往这个方向卷!但你真的知道怎么写一份合格的简历 吗?最近好几位同学让我们帮忙改简历,但都存在各种各样的问题。 看了这么多简历,我觉得其中一位同学的蛮好,最终拿到了某新势力60k的offer,才3年经验!总结 下来,一份合格的简历是条理清晰、重点突出、细节体现、能力体现几个部分。不要乱堆项目和奖 励,要找符合项目岗位的优势点。 1)开门见山 结论先行,直接说出自己的成果和成就(可以在项目前) 举例主要成就: A公司:搭建了什么动态感知后融合,发表专利三篇; B公司:优化了静态目标的融合算法,优秀个人; 2)职责清晰 BEV 算法框架搭建:主要参与者(算法负责人) BEV 算法模型优化:负责人 3)逻辑清晰 每一个点都有目的,多用数字,条理分明,按照序号和标题进行改进(千万别段落式) 1)模型上 ,采用ohem + focal 解决长尾分布问题(经验),提升10%。改进ohem的方案(思考能 力) 2)数据上,10w数据整理,协调(综合能力和沟通能力) 3)部署和融合上 ...
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-08 07:31
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受行业重点关注 [1] 大模型优化课程核心内容 - 课程系统探讨大模型前沿优化方法,聚焦参数高效计算、知识动态扩展和复杂推理三大方向 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等范式 [2] 课程技术重点 - 结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等关键技术 [2] - 使用LLaMA、GPT等主流大模型作为实验平台 [2] - 多智能体协作和多模态理解等前沿方向 [2][3] 课程安排与产出 - 12周在线小组科研+2周论文指导+10周论文维护期 [7] - 每周1-1.5小时课程,涵盖大模型剪枝、量化加速、PEFT、多智能体协作等主题 [18][20] - 最终产出包括论文初稿、写作方法论、投稿建议 [6][7] 学员收获 - 系统掌握大模型优化理论体系,解决知识零散问题 [6] - 获得导师提供的定制化研究idea和baseline代码 [7][17] - 提升Coding能力,掌握论文写作与投稿技巧 [6][7] 技术要求与资源 - 需具备PyTorch和Python基础,建议配备4张4090显卡 [13] - 提供公开数据集和Baseline代码,包括LLM-Pruner、LLaVA等开源项目 [15][16][17] - 必读论文涵盖GPTQ量化、Sheared LLaMA剪枝等前沿研究 [17][19]
自动驾驶之心课程续费来啦!欢迎和我们一起继续成长
自动驾驶之心· 2025-07-08 07:31
续费政策 - 公司为老学员提供续费优惠,无需原价重新购买课程 [1] - 续费选项包括1个月、3个月、6个月、12个月四种时长 [2] - 1个月续费按原价除以12后全额计算费用 [2] - 3个月续费按原价除以12后乘以3再打7折计算费用 [2] - 6个月续费按原价除以12后乘以6再打5折计算费用 [2] - 12个月续费按原价除以12后乘以12再打3折计算费用 [2] - 续费时长越长优惠力度越大 [2] 续费咨询 - 有续费需求的学员可联系公司助理进行进一步咨询 [3]
AI Day直播!复旦BezierGS:利用贝塞尔曲线实现驾驶场景SOTA重建~
自动驾驶之心· 2025-07-07 20:17
今天自动驾驶之心很荣幸邀请到BezierGS工作的一作马梓培,为大家分享这篇ICCV'25中稿的新工作!今晚七点 半,自动驾驶之心直播间不见不散~ 1. 构建一个高质量街景世界,供自驾模型在其中训练、探索,减少数据采集的成本; 2. 减少对bounding box精确性的依赖,目前业界以及开源自驾数据集采集的准确性不是很高,bounding box的 标注不精确; 3. 这篇是对自驾世界的学习与探索,未来会探索一个真正的自驾世界模型,该工作只能实现轨迹内插,无法轨 迹外插。 论文链接:https://arxiv.org/abs/2506.22099 代码代码:https://github.com/fudan-zvg/BezierGS 复旦大学ICCV 2025中稿的最新工作!自动驾驶场景的真实重建对于开发闭环仿真至关重要。大多数现有方法依 赖于目标的位姿标注,使用这些位姿来重建动态目标并在渲染过程中实现动态重建。这种对高精度目标标注的依 赖限制了大规模和广泛场景的重建。为了解决这一挑战,复旦大学的团队提出了Bezier curve Gaussian splatting (BezierGS),该方法使用可学习的 ...
快手团队发布8B Kwai Keye-VL!技术报告速递~
自动驾驶之心· 2025-07-07 20:17
{ "核心观点": { "模型定位": "快手团队推出8B参数规模的多模态基础模型Kwai Keye-VL,专注于提升短视频理解能力,同时保持通用视觉-语言处理能力[2]", "技术突破": "通过6000亿token的大规模视频数据集和创新的四阶段预训练+两阶段后训练策略实现性能突破[2][4]", "应用价值": "在公开视频基准测试和自建KC-MMBench短视频基准上达到SOTA水平,用户体验优于同规模模型[3]" }, "技术架构": { "数据构建": "数据集总量超6000亿token,侧重视频数据,采用过滤、重描和帧级标注等严格处理流程[4]", "预训练流程": { "阶段1": "基于Qwen3-8B初始化,冻结视觉/语言模型参数,优化投影MLP层实现跨模态对齐[12]", "阶段2": "解冻所有参数,端到端多任务训练覆盖图像描述、OCR、VQA等任务[13][14]", "阶段3": "精选高质量数据进行退火优化,解决广覆盖训练中的细节理解不足问题[15]", "模型融合": "采用同构-异构融合技术平均不同数据混合策略的模型权重,降低偏差[16]" }, "后训练策略": { "阶段1": "通过监督微调(SFT)和混合偏好优化(MPO)提升指令遵循等基础能力[5]", "阶段2": "五模式冷启动数据混合+强化学习(RL)激发高级推理能力[6]" } }, "性能表现": { "基准测试": { "通用能力": "在MMMUval(71.4)、AI2D(86.7)、MMStar(75.5)等通用基准领先[27]", "视频专项": "Video-MME(67.7)、LongVideoBench(62.8)、MMVU(66.1)体现视频理解优势[27]", "数学推理": "MathVistaMINI(80.7)、MathVersevision(59.8)显示跨模态推理能力[27]" }, "人类评估": { "视频子集": "整体评分3.33(5分制),在正确性(3.34)、相关性(4.83)等维度领先竞品[30]", "图像子集": "整体评分3.81,视觉识别(3.97)和基础描述(4.0)能力突出[30]" } }, "工程实现": { "并行策略": "混合数据并行(DP)与序列并行(SP),集成ZeRO优化器实现计算/通信重叠[23]", "负载均衡": "全局贪心策略按FLOPs分配样本,减少硬件空闲时间[24]", "容错机制": "样本级自动恢复检查点,精确恢复训练状态[25]", "推理优化": "适配vLLM框架支持视频输入,奖励模型随机调度降低RL时间开销[26]" }, "行业贡献": { "基准建设": "发布KC-MMBench短视频基准含6类任务1840个实例,填补领域空白[28]", "方法论输出": "提供从数据构建、训练策略到工程优化的全链路实践参考[3][4]" } }
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 20:17
自动驾驶世界模型Epona的核心创新 - 提出自回归扩散世界模型框架Epona,融合扩散模型与自回归模型优势,支持分钟级长视频生成、轨迹控制生成和实时运动规划[1][2] - 两项关键架构创新:解耦时空分解(分离时间动态建模与细粒度生成)、模块化轨迹与视频预测(端到端整合运动规划与视觉建模)[2][18] - 引入链式前向训练策略(CoF),解决自回归误差累积问题,FVD指标提升7.4%,支持600帧(2分钟)长视频生成[23][26][29] 技术架构与性能表现 - **解耦设计**:时序建模采用多模态时空Transformer(MST),空间生成采用双-单流DiT结构,支持逐帧自回归生成[20] - **多模态生成**:TrajDiT分支生成3秒连续轨迹(20Hz实时),VisDiT分支生成下一帧图像(4090 GPU上2秒/帧)[21][25] - **基准测试优势**:在NuPlan数据集上FVD降至82.8(优于Vista的89.4),NAVSIM轨迹预测碰撞率0.36%(优于UniAD的0.31%)[29][30] 行业应用价值 - 突破现有世界模型局限:解决传统视频扩散模型固定长度限制(如GAIA-2)与自回归Transformer模型离散token质量损失(如GAIA-1)[15] - 支持实际场景需求:可应用于轨迹控制视频生成(定制化驾驶模拟)和轻量化实时规划(仅启用TrajDiT分支)[21][28] - 参数量2.5B,计算效率优于NVIDIA Cosmos等同类模型,在消费级硬件(4090)上可部署[25][32] 行业技术趋势 - 世界模型成为下一代端到端自动驾驶关键路径,减少对感知模块与标注数据的依赖[6] - 自回归+扩散的混合架构成为前沿方向,Epona首次实现连续表征下的长序列自回归生成[9][33] - 当前行业痛点包括长时序一致性(如Cosmos限于短视频)与实时规划能力(如Vista缺乏轨迹控制),Epona提供统一解决方案[17][26][32]