Flow Matching
搜索文档
扩散规划器全新升级!清华Flow Planner:基于流匹配模型的博弈增强算法(NeurIPS'25)
自动驾驶之心· 2025-10-16 07:33
文章核心观点 - 清华大学AIR研究院等机构提出全新自动驾驶决策算法框架Flow Planner,该框架基于Flow Matching生成式模型,在轨迹表征、模型架构和生成机制三方面进行协同改进,旨在解决复杂交通场景下的博弈行为建模挑战 [1] - Flow Planner在高密度车流多车博弈、行人突发横穿等激烈竞争场景下,能够动态感知周围意图变化并生成自然流畅的类人规划轨迹 [1] - 实验结果显示,Flow Planner在nuPlan闭环评测及新设立的interPlan高交互基准上均取得了学习型算法的SOTA性能,决策成功率和轨迹质量显著超越现有扩散模型规划方法 [1] 技术背景与挑战 - 自动驾驶规划的核心挑战在于多车密集、行为多样的交通场景中实现安全可靠且类人的决策,传统规则方法缺乏泛化能力,而学习型方法面临博弈行为建模不足和高质量博弈数据稀缺两大核心挑战 [3][6] - 当前学习型规划方法简单地增大模型参数量难以有效捕捉博弈关系,容易导致过拟合和呆板驾驶行为,而引入过多人工结构设计又会增大模型复杂度 [6] - 高密度强博弈场景在训练数据中呈显著长尾分布,模型难以通过模仿学习准确捕捉专家驾驶意图 [6] 关键技术创新:细粒度轨迹分段表示 - Flow Planner将轨迹划分为多个重叠片段并为每个片段建立局部token表示,改变了传统用整体token表示完整轨迹的方法 [8] - 该策略使模型能够保持运动学连续性、精确捕捉不同时间段交互模式、提升多模态驾驶行为的可表达性 [8][12] - 局部建模加全局拼接的策略兼顾表达力与平滑性,有效改善了规划轨迹的连贯性与多样性 [8] 关键技术创新:博弈增强时空融合机制 - 设计了基于尺度自适应注意力的特征融合模块,使模型能够在统一特征空间中同时处理车道、自车与周车轨迹信息 [9][13] - 模块能基于具体场景动态调整每个token的感受野大小,自动聚焦于关键交互对象 [9][13] - 通过独立的Adaptive LayerNorm与FFN模块优化异构信息融合,避免不同模态特征互相干扰 [13] 关键技术创新:周车增强轨迹生成 - 利用流匹配模型的无分类器引导生成策略,在推理时通过调整周车信息、道路信息等生成条件的权重来放大其对轨迹规划的影响 [10] - 该机制能引导模型生成超越数据的驾驶行为与策略,并帮助模型平衡保守与激进策略,在交互密集场景中生成更自然可控的驾驶行为 [10] 实验性能结果 - 在nuPlan的Val14基准上首次突破90分大关,得分90.43,不依赖任何规则先验或后处理模块 [11][14] - 在引入基于规则的后处理模块后,Flow Planner表现与最优混合式方法相当甚至更优,得分94.31 [11][14] - 在新设立的interPlan高交互基准上,整体性能提升8.9分,在高密度交通、行人横穿等极端交互情境下展现出卓越反应策略 [15] - 在部分分布外场景中展现出出色泛化能力,如对训练数据中未出现的“前车撞车”场景能准确判断并采取绕行策略 [15][20]
Diffusion Model扩散模型一文尽览!
自动驾驶之心· 2025-09-14 00:04
扩散模型数学原理 朗之万采样与扩散模型基础 - 扩散模型本质是通过神经网络学习解常微分方程/随机微分方程的过程,核心是从随机噪声逐步生成目标数据分布[3] - 图像生成任务可视为从高维概率分布采样,朗之万采样通过分数函数(概率密度梯度)将随机噪声推向高概率区域[11] - 噪声项在朗之万采样中必不可少:无噪声会导致收敛到局部极大值(模式搜索),有噪声才能确保采样多样性并探索多模态分布[11][14][26] - 网络负责生成宏观结构和方向,噪声提供高频细节和纹理,两者结合产生真实感图像[11][26] 分数匹配与训练目标 - 通过高斯核密度估计(KDE)将离散分布连续化,获得可求梯度的分数函数:∇ₓlog pσ(x) = (μ_w(x) - x)/σ² [41][46][53] - 训练目标分为分数匹配和噪声预测两种等价形式:分数匹配直接预测梯度,噪声预测则估计添加的噪声,关系为 sθ(x_t, t) ≈ -(1/σ_t) · εθ(x_t, t) [64][65][66] - 方差爆炸(VE)和方差保持(VP)是两种主流噪声调度策略:VE让方差随时间递增最终变为高斯噪声,VP保持总方差不变[69][70] Flow Matching 框架 - Flow Matching 直接学习速度场而非分数函数,通过构造确定性流将先验分布传输到数据分布[144][145] - MeanFlow 学习平均速度场而非瞬时速度场,可实现一步生成(1-NFE),推理公式为 z₀ = z₁ - uθ(z₁, 0, 1) [105][107][111] - Rectified Flow 通过重流(reflow)技术拉直轨迹,使ODE可用单步欧拉求解,提升推理效率[94][97][98] - 与扩散模型对比:Flow Matching 不依赖高斯先验和边界分数,支持任意可采样分布[144][145] 分类器自由引导(CFG) - CFG 通过线性组合有条件和无条件预测增强控制效果:ū_t(x|y) = (1-w)u_t(x|∅) + wu_t(x|y),其中 w > 1 为引导尺度[179][183][184] - 训练时以概率 η 替换条件 y 为空集 ∅,统一学习有条件和无条件速度场[184][189] - 推导基于贝叶斯规则:∇log p(x|y) = ∇log p(x) + ∇log p(y|x),引导项放大分类器梯度[177][181][193] 概率流ODE统一框架 - 概率流ODE构建确定性生成路径:dX_t = [f(X_t,t) - ½g(t)²∇log p_t(X_t)] dt,其分布演化与SDE一致[148][158][164] - 分数匹配(SDE/ODE)和Flow Matching属同一家族,前者学分数再转速度,后者直接学速度场[148][151] - 扩散模型依赖高斯先验的原因:线性高斯SDE有闭式解,梯度易计算,且边界分数已知(∇log p₀(x) = -x)[133][134][143] 技术实现与优化 - 实现涉及雅可比向量积(JVP)计算,框架如Jax和Torch提供原生支持[115][122] - 损失函数设计避免EMA和stop_gradient,理论保证收敛性且训练稳定[120][121][125] - 采样效率通过平均速度场和直线轨迹优化,减少推理步数[98][105][111] 注:本文仅涉及扩散模型数学原理及算法框架,未包含风险提示、免责声明、评级规则等无关内容[3]
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 09:54
方法范式 - 传统强化学习(RL)和模仿学习结合Sim2Real技术,方法包括DQN/PPO/SAC/D4PG/GRPO等,主流仿真环境有Mujoco、Gazebo、Bullet、IssacSim/IssacGym [5] - Diffusion Policy和VLA模型与传统RL的根本区别在于用训练数据分布描述任务目标,而非依赖reward function,适合复杂任务如叠衣服、收拾桌面等 [4] - OpenVLA模型整合多模态输入,基于7B参数的Llama 2语言模型,结合DINOv2和SigLIP视觉编码器 [7] - RDT(Robotic Decision Transformer)采用Goal-Conditioned设计,在AGIBot百万真机数据集上训练 [9] - pi-0引入动作抽象层,将不同机器人关节空间映射到统一潜空间,缓解本体差异问题 [13] - 流匹配(Flow Matching)建模从标准正态分布到复杂目标数据分布的映射,用于生成机器人动作序列 [15][17][18] 技术实现 - 基础运动控制(如人形/四足机器人)以RL+sim2real为主,模型较小,算力消耗低,但全场景丝滑动作仍有差距 [22] - 复杂/长程操作任务采用预训练ViT编码器+LLM,使用diffusion/流匹配/transformer decoder输出动作,通过预训练+微调实现跨机器人泛化 [23] - 宇树官方demo基于IssacGym和PPO算法 [24] - 北京亦庄人形机器人中心开源强化学习运动控制,基于IssacLab融合人体运动数据与AMP奖励,实现天工Ultra机器人21公里奔跑 [24] - pi0预训练阶段利用10,000小时多机器人数据,微调阶段需1-5小时到上百小时任务数据,模型规格为33亿参数 [25] - Google Gemini Robotics采用云端VLA骨干(160毫秒延迟)和本地动作解码器的快慢架构 [25][26] 数据集 - Open X-Embodiment数据集包含1M+ trajectories、500+ skills、22种机器人类型,统一为RLDS格式 [21] - AGIBot数据集为智元机器人开源的百万真机数据集 [9][24] - EgoDex数据集包含829小时人类操作视频,338K轨迹/194任务 [24] 应用场景 - 基础运动控制依赖仿真器、机器人模型和domain randomization设计,reward shaping和sim2real技术 [35] - 复杂长程任务依赖VLA和Diffusion/FM,用训练数据分布描述任务目标,语言索引任务分布 [35] - 任务过程和目标定义方面,强化学习通过reward函数,VLA用数据分布描述,未来可能通过多模态输入预测任务目标 [35] - 底层控制任务适合RL+sim2real,上层复杂任务适合VLA+数据,如叠衣服、收拾桌面等需要理解人类意图的任务 [40]
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
量子位· 2025-05-30 13:01
AI生图技术突破 - FLUX1 Kontext采用流匹配架构(Flow Matching)实现文本和图像输入的同步处理,突破传统文本编码器与扩散模型分离的技术路线[2] - 该模型由Black Forest Labs开发,具备真正的上下文生成和编辑能力,在奥特曼照片编辑和猩猩打羽毛球生成案例中展现细节丰富度[3][4][5] - 提供专业版(pro)和最高配版(max)两种型号,后者在提示遵循、文字排版和一致性方面有提升[7] 核心功能特性 - 角色一致性:支持跨场景保留人物特征,需通过详细描述保持面部、服饰等元素[11][28][29] - 局部编辑:可精准修改特定区域而不影响其他部分,复杂编辑需分步骤描述[11][15][18] - 风格迁移:需具体到艺术流派或艺术家特征,模糊描述会导致效果偏差[19][20] - 文本编辑:支持增删改文本,但需注意字体易读性和文本长度匹配[22][24][25] 技术性能比较 - 第三方测试显示FLUX1 Kontext在图像质量上优于OpenAI的GPT-4o,且成本更低、无偏色问题[12] - 当前文生图领域排名前三为GPT-4o、Seedream 30和Recraft V3,FLUX1前代产品已落后[34][35] 使用优化建议 - 编辑场景时需明确摄像机角度等构图要素,动词选择需具体化(如"换衣服"优于"改造")[32][37] - 复杂修改应分解为小步骤,通过"保持原始构图"等短语保护关键元素[37] - 颜色和视觉元素需精准命名,避免模糊表述,文本编辑需使用引号标注[37]
Z Tech|对话CV泰斗何恺明新作研究团队,三位05后MIT本科生,Diffusion真的需要噪声条件吗?
Z Potentials· 2025-02-27 12:09
AI生图技术研究突破 - 传统扩散模型和流匹配技术是AI生图主流方法,持续展现创造力 [1] - 最新研究发现噪声条件在去噪模型中可能非必需,颠覆传统认知 [1][3] - 研究由CV专家何恺明领衔,MIT三位大一新生共同一作完成 [1][2] 研究成果核心发现 - 移除噪声条件后模型性能仅温和衰减,流匹配模型表现更优 [2][4] - 新型无噪声条件模型uEDM在CIFAR-10测试中FID达2.23,接近顶尖噪声模型EDM的1.97 [2][6] - 研究提出误差理论解释模型行为差异,无噪声架构性能仅相差13% [3] 研究方法与验证 - 在主流去噪模型上实验证明噪声条件移除影响有限 [4] - 理论分析与实验结果匹配,给出误差界解释 [5] - uEDM模型在图像生成任务中达到接近SOTA水平 [6] 学术活动与资源 - 论文作者团队将于3月3日通过Z Potentials平台进行专题直播讲座 [1] - 讲座含Q&A环节,探讨生成模型及DeepSeek等开源模型发展方向 [2] - 论文链接已公开于arXiv平台,提供学术交流入口 [7]