Workflow
轨迹规划
icon
搜索文档
扩散模型终于学会「看题下菜碟」!根据提示词难度动态分配算力,简单题省时复杂题保画质
量子位· 2026-03-09 18:05
文章核心观点 - 中国联通数据科学与人工智能研究院联合高校提出的新框架“轨迹链”(CoTj),通过赋予扩散模型动态规划能力,实现了对文生图/视频模型计算资源的智能分配,在极低计算步数下显著提升生成质量,证明了“路径规划”比“求解器优化”更为关键 [4][23][35] 技术原理与创新 - CoTj框架的核心创新是让扩散模型拥有了类似“系统2”的规划能力,能够根据提示词的复杂程度动态分配计算资源,解决了传统方法固定步数采样导致的“简单题算力过剩,复杂题细节崩坏”问题 [1][2][4] - 团队通过提取名为“Diffusion DNA”的低维结构化特征,量化每个去噪阶段的难度,成功将高维复杂的采样过程转化为有向无环图上的最短路径优化问题,克服了“状态维度灾难” [8][9][11] - 该框架采用“预测-规划-执行”推理范式:首先通过极轻量级预测器快速预判难度,然后基于图论进行全局轨迹规划,最后动态执行算力分配 [14][15] 性能表现与实验结果 - 在极端加速场景下,CoTj展现出颠覆性优势:在仅5步的极端压缩下,CoTj规划出的轨迹配合最朴素的1阶Euler求解器,其生成质量(GenEval 0.626)超越了传统固定调度配合高阶UCGM求解器的方案(GenEval 0.528) [4][23][24] - 当CoTj规划配合高阶UCGM求解器时,在5步下能达到GenEval 0.775,在10步下能达到0.850,证明了正确规划与高阶求解器结合能达到最佳效果 [24] - 在轨迹可达性方面,10步的CoTj轨迹其重构质量(MSE减少超60%,PSNR提升超6dB)能媲美或超越传统固定分配的数十步结果 [25][28] - 在缓存自适应方面,CoTj能根据预测的DNA引导Cache更新节点,精准锁定高信息密度区域进行计算复用,在25步预算下,其性能(PSNR 35.20)反超了专门针对缓存优化的LeMiCa算法(PSNR 32.77) [27][28] 跨模态应用与扩展发现 - 在视频生成任务中,CoTj应用于Wan2.2模型测试,发现了“生成层级”逻辑,即在极限压缩下采取“保真度优先”策略,先稳定空间结构再释放动态效果,从而在40步充足预算下实现运动平滑度和动态逼真度的全面反超 [29][31] - Diffusion DNA特征可作为模型诊断工具,通过分析分步重建增益曲线,能揭示模型的内在收敛性,例如发现某些蒸馏模型在迭代后期仍保持高更新能量,存在“过度烹饪”和结构不收敛的隐患 [32][34] 未来展望与行业影响 - CoTj框架被视为将生成式AI从被动执行引向“资源感知规划”的里程碑式探索,标志着扩散模型“系统2”深思熟虑时代的开启 [35][37] - 团队指出了未来的研究方向,包括扩展到更复杂的视频动态建模、引入在线反馈机制进行轨迹修正,以及探索跨模态下无监督的Diffusion DNA发现 [36] - 该研究的论文已在arXiv发布,推理代码也已开源 [5][37]
基于深度强化学习的轨迹规划
自动驾驶之心· 2025-08-29 07:32
强化学习技术范式演进 - 业界从端到端自动驾驶转向VLA和强化学习等新技术范式 [4] - 强化学习在2018年AlphaZero和2023年ChatGPT RLHF推动下获得更广泛应用潜力 [4] - 2025年初DeepSeek-R1在线推理进一步拓展强化学习使用场景 [4] 学习范式对比 - 监督式学习通过海量数据拟合输入到输出的映射函数 优化目标为平均均方误差值 [5] - 模仿学习以专家动作为监督信号进行行为克隆 在自动驾驶中扩展为短时序轨迹学习 [6] - 强化学习通过环境交互和任务结果反馈优化模型 采用延迟满足的时序决策机制 [7] - 逆强化学习通过用户反馈学习reward-model 解决奖励函数难以定义的问题 [8] 基础理论框架 - 马尔可夫决策过程将时序任务分解为状态概率转移任务 适用于自动驾驶目标生命周期管理 [10] - 动态规划通过分解最优子问题解决离散空间时序任务 [12] - 蒙特卡洛方法利用大数原理统计系统宏观特性 [13] 核心概念体系 - 策略分为确定性和随机性两种 自动驾驶通常采用确定性策略 [14] - 奖励函数提供环境反馈 价值回报定义为衰减因子加权和的时序期望值 [15] - 状态价值函数表示状态期望回报 动作价值函数评估状态动作组合的期望回报 [16][17] - 优势函数衡量动作价值与状态价值的差异 [19] - 贝尔曼方程通过动态规划分解价值函数 [20] 算法分类体系 - 值优化方法直接最大化Q或V函数 包括动态规划/蒙特卡洛/时序差分算法 [25][26] - 策略优化分为on-policy和off-policy两种 后者训练稳定性更好但存在分布偏差 [27][28] - 动态规划采用策略迭代和价值迭代算法求解离散任务 [30] - 蒙特卡洛方法通过统计平均估计价值函数 [32] - 时序差分算法引入常数alpha简化更新过程 衍生出SARSA和Q-learning等算法 [34][39] 深度强化学习算法 - DQN算法通过经验回放和目标网络解决连续状态表达问题 [41] - Dueling DQN将价值网络分解为Q和A的和并增加正则项 [42] - GAE算法结合蒙特卡洛和时序差分进行优势估计 [42] - 策略梯度算法使用梯度下降方式更新策略参数 [46] - Actor-Critic算法同时学习策略和价值函数 [49] - TRPO算法通过置信区间约束保证训练稳定性 [53] - PPO算法简化TRPO约束条件为clip函数 [55] - GRPO算法采用在线group样本统计平均替换value-model [57] 自动驾驶应用实践 - 预训练通过模仿学习任务初始化策略和价值网络 [58] - 策略梯度采用概率建模方法处理action输出 [59] - reward设计涵盖安全性/安心感/效率等指标 高级功能通过逆强化学习实现 [60] - 闭环训练需要多智能体博弈建模环境动态响应 [60] - 端到端强化学习需实时生成更新后的sensor内容 [61]