Workflow
扩散模型
icon
搜索文档
北京大学:AI视频生成技术原理与行业应用 2025
搜狐财经· 2025-12-09 14:48
AI视频技术概览 - AI视频属于狭义AI范畴内基于学习的生成式AI,是AIGC的重要分支,核心任务包括视频生成、编辑与理解,典型生成方式为文生视频、图生视频、视频到视频 [1] - 技术演进从2016年前的GANs探索阶段,到2020-2024年扩散模型实现商业化突破,再到2024年Sora发布开启“AI视频元年”,行业进入分钟级高清视频量产阶段 [1] - 国内外主流工具平台包括OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika等,各平台在时长、画质、风格上各具特色 [2] 技术原理与架构 - 扩散模型因训练稳定、生成多样性强成为主流技术范式,其架构分为U-Net和DiT两类,U-Net易训练但一致性弱,DiT成本高但长视频一致性强 [3] - 关键技术组件包括:Transformer的自注意力机制保障时空一致性,VAE实现像素空间与潜空间的压缩转换,CLIP完成文本与视觉的语义对齐,时空补丁统一数据格式降低计算成本 [3] - 训练数据的规模、质量和多样性决定模型上限,主流数据集包括WebVid-10M等文本-视频对数据集,以及UCF-101等类别级数据集 [4] 技术能力发展与突破 - 主流模型已实现1080p/4K分辨率、最长2分钟时长的生成,部分模型支持原生音画同步,国产模型在中文语义理解和可控性上优势显著 [5] - 现存核心瓶颈包括时序一致性、物理逻辑合理性、细节情感表达,且算力成本制约技术普及 [5] - 已形成VBench、SuperCLUE等评估体系,VBench2.0更聚焦“内在真实性”,谷歌Veo 3、快手可灵AI等模型在榜单中表现突出 [5] 行业应用案例与价值 - 在影视娱乐领域,AI实现从前期概念设计、中期虚拟制片到后期智能剪辑的全流程介入,催生了AI短剧、AI重制长片等新业态,大幅降本增效 [6] - 在短视频与营销领域,AI视频成为应用最广泛领域,可快速生成品牌广告、UGC创意内容、虚拟主播带货视频,实现低成本规模化内容量产 [6] - 在文旅行业,AI用于制作城市宣传片、打造AI文旅推荐官、结合VR/AR实现沉浸式体验,助力文化IP传播与旅游营销 [7] - 在教育培训领域,AI用于批量生成微课视频、打造AI虚拟教师、定制个性化学习内容,解决教育资源不均问题 [8] - 在新闻媒体领域,AI虚拟主播实现24小时播报,AI生成沉浸式新闻叙事,但面临内容真实性、版权合规等伦理挑战 [9] 工具选用建议 - 建议根据场景化选型:专业影视选Runway或可灵AI,短视频运营选即梦AI或Pika,动漫动态化选海螺AI或Pixverse,国风内容选Vidu等国产工具 [10] - 使用门槛分级:国内工具零门槛直连,海外工具需科学上网和外币支付,Sora/Veo等生态绑定工具门槛最高 [11] - 核心原则是采用多工具协作工作流,以“导演思维”驾驭工具,而非依赖单一平台 [12] 市场格局与厂商动态 - 代表性厂商及产品包括:OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika Labs、生数科技Vidu、Luma AI、阿里通义万相等 [49] - 可灵AI支持生成长达2分钟、1080p、30fps的视频,其Kling 2.5 Turbo版本成本降低30%,全球用户已突破4500万 [49] - 即梦AI背靠抖音与剪映生态,打通从“AI生成”到“剪辑发布”全链路,月活5400万,2025年10月网站访问量达1000万 [49] - 通用大模型通过集成顶尖视频模型获得强大视频生成能力,例如ChatGPT集成Sora,Gemini生态集成Veo,Meta AI集成Emu Video,通义千问集成通义万相,豆包与抖音/TikTok和剪映形成闭环 [51] 发展前景与核心观点 - AI视频最终将走向“人机共创”范式,成为像互联网一样的基础设施,人类需聚焦创意与判断力,实现与AI的协同进化 [13] - AI视频正从实验性“技术炫技”阶段迅速发展为影视预演、广告创意、短视频制作和在线教育的实用工具,行业变革的临界点已清晰可见 [37] - 2024年初Sora模型凭借一分钟长度、高清画质及物理世界连贯性理解,重新定义了AI视频生成能力 [37]
Roblox CEO感叹AI研究进展:曾博览群书的自己都快看不懂了
搜狐财经· 2025-12-08 19:28
行业研究动态 - AI研究更新速度飞快,新论文几乎每天出现,技术概念复杂,Roblox CEO认为想真正看懂所有论文极其困难[1] - AI研究浪潮规模巨大、速度惊人,从Transformer到扩散模型再到世界模型,内容多到难以完全掌握[3] - 随着AI从学界扩展到国家战略高度,Meta、微软等公司纷纷建立自己的研究部门,并以极高薪资吸引顶尖人才[3] - AI研究变得更封闭,2023年谷歌决定减少公开发表的AI论文,公司进入要靠内部知识竞争的阶段[3] - OpenAI联合创始人认为,真正决定AI走向的仍是研究本身,现在重新回到研究时代,只不过用的是更大的计算机[3] 公司观点与战略 - Roblox CEO在创业初期几乎读遍从物理模拟到图形渲染的各类研究且都能理解,但AI时代的到来改变了一切[3] - Roblox CEO的结论是,AI在三维世界里仍然处于非常初期的阶段[3] - AI依赖的是人类制造出来的文本和图像,是用自己创造的内容训练AI,而不是用真实世界的三维原始数据[3]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
新浪财经· 2025-12-02 19:22
世界模型的定义与前景 - 世界模型本质是预测模型,给定当前状态及动作序列,预测下一个状态 [3] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量状态模拟 [3] - 终极目标是对世界进行1:1建模,可能达到原子级别,但实际需根据不同任务目的进行建模 [3] - 三大应用前景包括:为自动驾驶、具身智能等多模态任务提供更多数据、建立模型与世界的结合替代传统模拟器、以及最终成为端到端系统的一部分 [3] 世界模型的构建与数据挑战 - 构建面临核心悖论:先有模型还是先有数据,自动驾驶公司积累上亿公里数据但99%为晴天道路数据,缺乏危险场景数据 [5] - 可行路径为先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强世界模型 [5] - 有公司构建世界模型时数据采集成本达千万级,研究团队难以承担,需通过特定高质量数据提升模型效果 [5] - 提出循环过程:先有0.1版本模型生成0.1版本数据,再进一步训练模型,采用生成数据与真实数据混合模式 [5] 技术实现路径与架构分歧 - 技术路径存在分歧,有研究团队偏向融入物理信息保持视觉模型与物理世界一致性如重力 [6] - 模型构建与需求相关,面向影视游戏方向视频生成更合适,面向通用任务可能不需严格保持物理规律 [6] - 随着生成能力增强,模型最终形态可能是纯生成式,无需重建 [6] - 架构存在扩散模型与自回归模型之争,扩散模型从随机噪声还原内容更接近物理世界生成方式 [7] - 观察到技术融合趋势,包括OpenAI正探索将不同架构在特定阶段统一,如使用token化扩散 [7] - 已有扩散和自回归结合工作,扩散擅长捕捉现实世界分布,自回归补足时序与逻辑连贯性 [7] 发展时间表与商业化前景 - 世界模型的ChatGPT时刻可能需要三年左右出现,目前最困难是缺乏高质量长视频数据 [8] - 视频生成时长大多在5到10秒,大厂演示仅达一分钟量级,因此ChatGPT时刻可能需更长时间 [8] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟需开拓新研究方向 [8] - 存在ToB和ToC商业化挑战,如ToB端按token收费时如何定义视频生成数据价值,ToC端如何提升token [8] - 未来需训练强化学习Agent并将视觉-语言-动作技术进化为世界-语言-动作技术 [8]
扩散模型走了十年弯路!何恺明重磅新作JiT:回归真正“去噪”本质
自动驾驶之心· 2025-12-01 08:04
文章核心观点 - MIT何恺明团队提出极简扩散模型架构JiT,让模型直接预测干净图像本身,而非预测噪声或混合噪声 [10] - 该方法在高维像素空间中表现更强、更稳、更简单,无需潜在空间、分词器、预训练或额外损失函数 [11][13] - 直接预测干净图像的任务更简单,因为自然图像位于低维流形上,而噪声是高维乱流,网络容量有限时预测噪声会导致模型崩溃 [14][15][17] 技术原理与创新 - 核心思想是让网络预测干净数据,而非噪声或混合噪声,通过数学推导证明直接输出干净图像可使任务更简单 [18][19] - 即使在高维场景如3072维patch(32×32×3)中,只有直接预测干净图像的方式不会崩溃 [20] - 框架仅使用Vision Transformer直接在原始像素patch上操作,输入输出均为像素patch,结构极简 [17] 模型性能与实验结果 - 在ImageNet 256×256分辨率上,JiT-L/16模型FID达到2.36,JiT-G/16模型FID达到1.82,与依赖复杂潜在空间的大型扩散模型性能相当 [30] - 在512×512分辨率下,JiT-H/32模型FID为1.94,JiT-G/32模型FID为1.78,证明在3072维高维patch下仍能稳定训练 [31] - 在1024×1024超高分辨率下,JiT-B/64模型FID为4.82,且计算成本几乎不随分辨率增加而上升,序列长度保持恒定 [32] 架构优势与反直觉发现 - 即使将patch embedding压缩至低维瓶颈(如32维甚至16维),模型不仅未崩溃,FID指标反而显著提升,与低维流形假设一致 [27][28][35] - 模型可处理高达12288维的patch(64×64×3),完全摆脱潜在空间,在原生像素空间自洽工作 [24][25] - 该方法特别适合需要处理原始高维数据的领域,如具身智能和科学计算,有望成为更通用的生成基础方式 [34]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
机器之心· 2025-11-29 09:49
世界模型的定义与愿景 - 世界模型本质上是预测模型,给定当前状态及动作序列,预测下一个状态 [4] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量3A大作级的虚拟环境模拟 [4] - 终极目标是将世界1:1建模,可能到原子级别,但实际只需依照不同任务目的进行建模 [4] 世界模型的应用前景 - 为自动驾驶、具身智能等多模态任务提供更多数据 [4] - 建立模型与世界的结合以替代传统模拟器 [4] - 最终成为端到端系统的一部分 [4] 数据瓶颈与构建路径 - 自动驾驶公司积累上亿公里数据,但99%都是晴天道路数据,真正危险场景数据稀缺 [5] - 构建世界模型时采集数据的成本在千万级,非研究团队能直接承担 [5] - 可行路径为:先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强模型 [5] - 采用“生成数据 + 真实数据”的混合模式,通过模型、产品、数据的循环推动发展 [5] 技术路径与架构分歧 - 技术路径分歧明显:有团队偏向融入物理信息以保持一致性(如重力),而面向影视、游戏等创意领域则视频生成可能更合适,甚至不需要严格遵守物理规律 [7] - 模型最终形态可能是纯生成的,但随着生成能力增强,对物理规律的掌握会越来越好 [7] - 在架构上,扩散模型从随机噪声中逐步还原内容,更接近物理世界生成方式及人脑解码机制,被认为更适合世界模型 [8] - 观察到技术融合趋势,如OpenAI正探索将不同架构(如token化的扩散)统一 [9] - 扩散模型擅长捕捉现实世界真实分布,但需自回归模型补足时序与逻辑连贯性,已有扩散和自回归结合的工作 [9] 商业化挑战与发展时间表 - 世界模型存在ToB和ToC两方面的商业化挑战:ToB端需定义视频生成数据对用户的价值,ToC端需提升token价值 [10] - 业内人士估计世界模型的“ChatGPT时刻”可能需要三年左右出现 [10] - 目前最困难的是缺乏高质量长视频数据,视频生成时长大多在5到10秒,大厂演示也只能做到一分钟量级 [10] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟,需开拓新研究方向推动AI进步 [10] 未来技术演进方向 - 未来世界模型可能更需要训练强化学习Agent,以及如何将VLA(视觉-语言-动作)进化为WLA(世界-语言-动作) [11]
NeurIPS 2025奖项出炉,Qwen获最佳论文
具身智能之心· 2025-11-28 08:04
会议概况 - NeurIPS 2025会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] 最佳论文奖 - **论文1:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)** - 研究核心为解决大语言模型生成内容同质化问题,提出了Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [7] - 提出了首个用于刻画语言模型面对开放式提示的综合分类体系,包含6个顶层类别和17个子类别 [7] - 基于该数据集的研究揭示了语言模型在开放式生成中存在显著的“人工蜂群思维”效应,包括模型内重复和模型间同质化 [8][14] - 该数据集包含31,250条人工标注,每个样本由25位独立标注者参与 [9] - **论文2:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free** - 论文首次系统性分析了门控机制对大语言模型的有效性,证明其通过增强注意力机制的非线性和提供输入相关的稀疏性来提升性能 [13] - 研究显示,在SDPA之后进行门控取得了最佳效果,在15B MoE模型上提升了测试集PPL和MMLU性能 [17] - 门控机制实现了更低的最终训练损失,并大幅增强了训练稳定性,有效缓解了损失尖峰,允许使用更高学习率 [17] - 该技术已成功应用于Qwen3-Next模型,显著提升了模型性能与鲁棒性 [13][18] - **论文3:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities** - 论文证明将网络深度增加到1024层可显著提升自监督强化学习性能,在模拟任务上性能提升了2倍至50倍 [20] - 该方法在无监督的目标条件设定下进行,智能体从零开始探索,增加模型深度不仅提升了成功率,还改变了学到的行为 [20] - **论文4:Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training** - 研究揭示了扩散模型训练动力学中的隐式正则化机制,识别出模型开始生成高质量样本的时间点t_g和出现记忆化的时间点t_m [22] - 关键发现是t_m随训练集大小N线性增长,而t_g基本不变,随着数据集变大,会出现一个越来越宽的泛化训练时间窗口 [22] 最佳论文亚军 - **论文1:Reinforcement Learning with Verifiable Rewards is Insufficient for Novel Reasoning in LLMs** - 论文给出了关键否定性结论,挑战了“带可验证奖励的强化学习能够激发LLM全新推理能力”这一广泛接受的假设 [28] - **论文2:Optimal Mistake Bounds for Transductive Online Learning** - 该研究解决了传导式在线学习领域一个长达30年的公开难题,精确刻画了最优错误上界为Ω(√d),并给出了与之匹配的O(√d)上界 [32] - **论文3:Superposition Yields Robust Neural Scaling** - 论文论证表征叠加是支配神经网络缩放定律的主要机制,超越了现象性描述,为缩放定律提供了机制性解释 [35] 时间检验奖 - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》获奖 [2][38] - 该论文是计算机视觉领域里程碑工作,奠定了现代目标检测框架的核心范式,截至现在已被引用超过56,700次 [38][42] - 论文实现了第一个完全可学习的两阶段目标检测pipeline,取代了selective search和手工设计候选框的方法 [43] Sejnowski-Hinton奖 - 获奖论文为2016年发表的《Random synaptic feedback weights support error backpropagation for deep learning》 [45] - 该论文提出了著名的反馈对齐机制,证明多层网络可在无需对称反馈权重下有效学习,推动了生物可行学习规则的研究方向 [48]
NeurIPS 2025最佳论文开奖,何恺明、孙剑等十年经典之作夺奖
36氪· 2025-11-27 15:27
NeurIPS 2025奖项概览 - NeurIPS 2025共评选出4篇最佳论文和3篇亚军论文(Runners Up)[1][2] - 本届会议是首个双城会议,分别于12月2日-7日在圣地亚哥和11月30日-12月5日在墨西哥城举办[3] - 时间检验奖(Test of Time Paper Awards)授予了10年前发表的Faster R-CNN论文,该论文已被引用超过56,700次[49][50] 最佳论文一:大语言模型多样性评估 - 研究核心是评估大语言模型(LLM)在开放式生成任务中的输出多样性,并提出了“人工蜂群思维效应”(Artificial Hivemind effect)的概念,指出现有模型存在显著的输出同质化问题[5][6][10] - 为解决评估方法不足的问题,研究团队推出了大规模数据集Infinity-Chat,该数据集包含2.6万条真实世界开放式用户查询以及31,250条人类标注,每个示例均由25位标注者独立评判[6][12] - 研究首次提出了针对LM开放式提示的完整分类体系,包含6大顶层类别及其下17个子类别,发现最先进的LM、奖励模型与LM评判器较难校准人类评分[8][12] 最佳论文二:门控注意力机制 - 论文由阿里千问团队等机构合作完成,核心发现是在缩放点积注意力(SDPA)后引入头部特异性Sigmoid门控这一简单修改,可持续提升模型性能[14][15][17] - 该改进在3.5万亿词元数据集上训练的15B混合专家模型(30种变体)与1.7B稠密模型上得到验证,能增强训练稳定性、允许更大学习率,并改善缩放特性[15][17] - 门控机制的有效性归因于两个关键因素:在Softmax注意力的低秩映射中引入非线性变换,以及采用查询依赖的稀疏门控分数调控SDPA输出,该技术已应用于Qwen3-Next模型系列[18] 最佳论文三:自监督强化学习的深度缩放 - 研究聚焦于自监督强化学习(RL)的网络深度缩放,证明将网络深度提升至1024层可带来显著性能突破,而近年多数RL研究采用的浅层架构仅约2-5层[21][24] - 在无监督目标条件设定下,新方法在模拟运动与操控任务上将自监督对比强化学习算法的性能提升了2至50倍,显著超越其他目标条件基线模型[24][26] - 网络深度的增加不仅提升了任务成功率,更引发了智能体学习行为的质性转变,实现了可扩展性的质的飞跃[24][26] 最佳论文四:扩散模型的隐式正则化 - 研究旨在理解扩散模型避免训练数据记忆并实现泛化的内在机制,发现了两个关键时间尺度:早期阶段τgen(模型开始生成高质量样本)和后期阶段τmem(记忆现象显现)[28][29] - 关键规律是τmem随训练数据量n呈线性增长,而τgen保持恒定,形成了随n扩大的有效训练时间窗口,揭示了训练动态中存在的隐式动态正则化机制[29][31] - 结论通过基于标准U-Net架构在真实与合成数据集上的数值实验,以及采用高维极限可解析随机特征模型的理论分析得到验证[31] 亚军论文核心发现 - 论文一系统评估了强化学习(RLVR)对大语言模型推理力的真实增益,结果显示RLVR主要提升采样效率,在小k(如k=1)更易命中正确路径,但在大k时基座模型表现更好,当前RL训练并未诱发全新的推理模式[33][34][37] - 论文二解决了“无标签数据在在线学习中的力量”这一开放问题,对任意Littlestone维度为d的概念类,传导式在线学习的最小错误次数精确为Θ(√d),与标准在线学习的Θ(d)形成严格的二次差距[38][39][41] - 论文三提出“表征叠加”是神经缩放律(Neural Scaling)的关键机制,指出LLM用少量维度承载超量特征,由此产生向量几何重叠并决定损失的Scaling形态,该发现与Chinchilla Scaling Law一致[42][46][48] 时间检验奖获奖工作 - 获奖论文《Faster R-CNN》由任少卿、何恺明、Ross Gisshick和孙剑合著,对计算机视觉领域产生了深远影响,成为众多后续研究工作的基石[50] - 该论文在实现极高检测精度的同时,达到了接近实时的检测速度(每秒5帧),使基于神经网络的目标检测模型得以应用于现实世界的各种场景[50] - 这是首个用完全可学习的两阶段流程(包括区域建议网络RPN和检测网络)取代传统选择性搜索和人工设计候选框方法的工作[50]
NeurIPS 2025奖项出炉,Qwen获最佳论文,Faster R-CNN获时间检验奖
机器之心· 2025-11-27 11:00
NeurIPS 2025 会议概况 - 会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN》获得时间检验奖 [2] - 《Random synaptic feedback weights support error backpropagation for deep learning》获得Sejnowski-Hinton奖 [3] 最佳论文奖核心研究 - 论文《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》提出Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [5][6] - 研究揭示了语言模型在开放式生成中存在人工蜂群思维效应,包括模型内重复和模型间同质化 [6] - Infinity-Chat包含31,250条人工标注,每个样本有25位独立标注者参与 [8] - 论文为理解语言模型多样性、价值多元与社会影响做出重要贡献 [9] - 论文《Gated Attention for Large Language Models》首次系统分析注意力门控对大模型性能的影响 [12] - 研究证明门控机制通过增强注意力机制的非线性和提供输入相关稀疏性来提升性能 [12] - 门控机制能消除注意力池和巨量激活现象,提高训练稳定性并减少损失波动 [16] - 该方法已成功应用于Qwen3-Next模型,并在各尺寸架构上验证有效性 [16] - 论文《1000 Layer Networks for Self-Supervised RL》证明将网络深度增加到1024层可显著提升自监督强化学习性能 [18] - 在无监督目标条件设定下,该方法在对比式RL算法上将性能提升2×–50× [18] - 增加模型深度不仅提升成功率,还会在质量上改变学到的行为 [18] - 论文《Why Diffusion Models Don't Memorize》揭示了训练动力学中存在隐式动态正则化 [20] - 研究发现随着训练集大小N线性增长,模型泛化时间窗口变宽 [20] - 只有当N超过与模型相关的阈值时,过拟合才会在无限训练时间极限下消失 [20] 最佳论文亚军研究 - 论文《Optimal Mistake Bounds for Transductive Online Learning》解决了长达30年的公开难题 [30] - 研究精确刻画了传导式在线学习的最优错误上界为Ω(√d),并给出与之匹配的O(√d)上界 [30] - 这一结论确立了传导式在线学习与标准在线学习之间存在二次量级差距 [30] - 论文《Superposition Yields Robust Neural Scaling》论证表征叠加是支配神经网络缩放定律的主要机制 [33] - 研究不再停留在现象描述,而是为缩放定律提供了新的机制性洞见 [33] 时间检验奖研究 - 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文已被引用超过56,700次 [40] - 该论文是第一个用完全可学习的两阶段pipeline取代selective search和手工设计候选框的方法 [41] - 实现了极高精度与接近实时(5 FPS)检测的统一,使目标检测模型得以真正部署到实际应用中 [40] Sejnowski-Hinton奖研究 - 获奖论文《Random synaptic feedback weights support error backpropagation for deep learning》提出了著名的反馈对齐机制 [46] - 研究证明多层网络可在无需对称反馈权重下有效学习,前向权重会自然与随机反馈信号对齐 [46] - 这项工作帮助建立了生物可行学习规则的全新研究方向 [47]
即将开课!面向量产的端到端小班课,上岸高阶算法岗位~
自动驾驶之心· 2025-11-27 08:04
课程核心定位 - 课程聚焦于自动驾驶领域端到端技术的量产化实战应用,旨在解决行业量产人才稀缺的问题 [1] - 课程设计历时三个月,内容涵盖从模型优化、场景优化、数据优化到下游规划兜底的全栈技能 [1] - 课程由自动驾驶之心联合工业界算法专家开设,重点为面向就业直击落地,目前仅剩35个招生名额 [3][5] 核心算法与技术内容 - 课程涉及的核心算法包括一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习等 [3] - 技术组合涵盖扩散模型+强化学习、自回归+强化学习、时空联合规划等前沿方法 [3] - 课程最后将分享实际的量产经验,帮助学员构建完整的量产优化知识体系 [3] 讲师背景 - 讲师王路拥有C9本科和QS50 PhD学历,已发表多篇CCF-A和CCF-B论文 [6] - 现任国内顶级tier1公司算法专家,从事大模型、世界模型等前沿算法的预研和量产工作 [6] - 所研发算法已成功落地并量产,拥有丰富的端到端算法研发和实战经验 [6] 课程大纲详解 - 第一章介绍主流感知模型一体化架构和经典规控learning化方案,以及开源数据集和评测方式 [9] - 第二章讲解两段式端到端算法框架,包括建模方式、感知与PNC信息传递,并通过PLUTO算法实战 [10] - 第三章深入一段式端到端框架,涵盖基于VLA和diffusion的方法,重点学习VAD系列 [11] - 第四章专注导航信息的量产应用,包括导航地图格式、编码嵌入方式及能力发挥 [12] - 第五章从模仿学习过渡到强化学习,重点介绍RL算法及其训练策略以解决corner-case场景 [13] - 第六章进行nn planner项目实战,结合模仿学习与强化学习,重点讲解扩散模型和自回归算法 [14] - 第七章介绍时空联合规划等轨迹平滑优化算法,作为模型直出的兜底方案确保轨迹稳定可靠 [15] - 第八章从数据、模型、场景、规则多视角分享量产经验,提升系统能力边界 [16] 课程安排与学员要求 - 课程于11月30日开课,预计三个月结课,采用离线视频教学加VIP群答疑模式 [17] - 学员需自备GPU,推荐算力在4090及以上,并具备BEV感知、视觉Transformer等算法基础 [18] - 要求掌握强化学习、扩散模型理论基础,熟悉Python、PyTorch及mmdet3d算法框架 [18] - 需要一定的高等数学、线性代数和矩阵论基础,课程按周解锁章节,持续至次年2月底 [19]
浙大一篇中稿AAAI'26的工作DiffRefiner:两阶段轨迹预测框架,创下NAVSIM新纪录!
自动驾驶之心· 2025-11-25 08:03
文章核心观点 - 提出一种名为DiffRefiner的全新两阶段轨迹预测框架,该框架融合了判别式轨迹提议与生成式扩散精炼,旨在解决端到端自动驾驶规划中的多模态挑战 [3][9] - 该框架通过基于Transformer的提议解码器生成粗粒度轨迹预测,再通过扩散精炼器进行迭代优化,显著提升了规划性能 [3][9] - 在NAVSIM v2和Bench2Drive两个公开基准测试中均达到当前最优性能,EPDMS分数为87.4,驾驶分数为87.1,成功率为71.4% [3][11][41][42] 技术背景与动机 - 传统单阶段回归方法在处理轨迹预测任务的多模态特性方面存在局限,易导致预测效果欠佳和泛化能力差 [7] - 基于扩散模型的生成式方法能学习未来运动的潜在分布,生成多样化轨迹,但依赖无结构噪声或固定锚点初始化,存在计算延迟和场景适应性不足的问题 [2][8] - 离散化解空间的方法(如基于评分的方法)随着锚点集规模增大会导致计算复杂度显著增加,限制其在延迟敏感系统中的应用 [7] DiffRefiner框架设计 - 采用粗到细的两阶段架构:第一阶段使用基于Transformer的提议解码器回归预定义轨迹锚点,生成粗粒度轨迹提议 [9][14][20] - 第二阶段引入条件扩散精炼器,对初始提议进行迭代去噪与优化,并设计了细粒度去噪解码器以增强场景适应性 [9][14][22] - 框架整合三个关键组件:以BEV为中心的感知模块、粗轨迹提议解码器和基于扩散的轨迹精炼器 [14] 关键技术创新 - 提出细粒度语义交互模块,通过交叉注意力和可变形注意力分层整合全局场景上下文与局部几何细节,实现轨迹与环境的精准对齐 [10][27][30] - 采用自适应门控网络动态融合全局场景表征与局部语义信息,平衡粗粒度上下文理解与精准空间对齐 [10][32] - 通过两阶段训练方案优化模型,采用赢者通吃策略选择最接近真实轨迹的预测进行损失计算 [34][36] 实验验证与性能 - 在NAVSIM v2开环基准测试中,EPDMS分数达到87.4,使用ResNet34骨干网络时相比之前最佳方法提升3.7%,使用V2-99骨干网络时提升1.6% [3][41] - 在Bench2Drive闭环基准测试中,驾驶分数达到87.1,成功率达到71.4%,相比之前最佳方法驾驶分数提升0.3,成功率提升2.3 [3][42] - 消融实验证实了各组件有效性,引入精炼器使EPDMS提升1.2,仅需一次去噪步骤即可实现接近最优性能,表明框架适用于实时系统 [43][50] 性能优势体现 - 在复杂交互场景中,该方法能更好地关注细粒度场景细节,减少与周围智能体的碰撞,并更严格地遵守地图约束 [51] - 该混合范式在大多数多能力指标上均取得持续提升,证明了其在多样化交互式驾驶场景中的鲁棒性和有效性 [42]