扩散模型
搜索文档
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 12:00
文章核心观点 - 视觉-语言-动作模型是机器人技术从传统控制向通用机器人技术范式转变的关键标志,将视觉-语言模型从被动序列生成器重新定位为在复杂动态环境中执行操作的主动智能体[2] - 该综述基于300多项最新研究,首次对纯VLA方法进行系统全面总结,提出清晰分类体系并分析五类范式的设计动机、核心策略与实现方式[2][3][7] - VLA模型通过整合视觉编码器表征能力、大语言模型推理能力和强化学习决策能力,有望弥合"感知-理解-动作"鸿沟,成为实现通用具身智能的核心路径[15][20][21] VLA模型技术背景与发展历程 - 单模态建模突破为多模态融合奠定基础:计算机视觉领域从CNN到ViT的演进,自然语言处理领域Transformer架构催生大语言模型,强化学习领域从DQN到决策Transformer形成序列决策新视角[13] - 视觉-语言模型作为关键桥梁经历从模态对齐到复杂跨模态理解发展:早期对齐模型如ViLBERT、对比学习模型如CLIP、指令微调模型如BLIP-2和LLaVA[16] - VLA模型核心设计思路包括模态token化和自回归动作生成,实现端到端跨模态对齐并继承VLMs语义泛化能力[15][17] VLA模型主要方法范式 自回归模型 - 通用VLA方法发展经历三个阶段:早期统一token化如Gato、大规模真实数据训练如RT-1和RT-2、跨平台泛化与效率优化如Octo和NORA[26][27] - 基于大语言模型的推理与语义规划使VLA从"被动输入解析器"转变为"语义中介",支持长任务和组合任务的推理驱动控制[29][33] - 结构优化与高效推理机制包括分层模块化优化、动态自适应推理、轻量化压缩与并行化,如MoLe-VLA降低40%计算成本[35][36] 扩散模型 - 通用方法实现从确定性动作到概率性多轨迹生成转变:几何感知生成如SE(3)-DiffusionFields、视频驱动生成如UPDP、时间一致性优化如TUDP[37][40][44] - 多模态架构融合趋势明显:大规模扩散Transformer如Dita、多模态token对齐如M-DiT、推理与扩散结合如Diffusion-VLA[41][45] - 应用优化部署呈现三大趋势:效率优化如TinyVLA仅需5%可训练参数、任务适应性如DexVLG支持零样本灵巧抓取、认知启发架构如TriVLA实现36Hz交互频率[42][46] 强化学习微调模型 - 聚焦奖励设计、策略优化和跨任务迁移:自监督奖励与表征学习如VIP生成密集奖励函数、跨模态奖励代理与人类反馈如SafeVLA引入安全约束机制[48][49] - 实现跨机器人形态适配:四足机器人如NaVILA、人形机器人如LeVERB、自动驾驶如AutoVLA通过链推理微调生成离散可行动作[49][50] - 融合离线与在线强化学习:ConRFT结合离线行为克隆与在线一致性目标,平衡样本效率与策略安全性[49] 数据集与仿真平台支撑 - 真实世界数据集规模显著扩大:Open X-Embodiment整合21个机构22个机器人数据集,包含527项技能和160266个任务,通过标准化格式促进研究可复现性[18][64] - 仿真平台解决数据稀缺和实机测试风险:多样化环境与物理真实性支持,如MuJoCo/Isaac Gym适用于动力学仿真,CARLA面向自动驾驶场景[18][19] - 基准测试评估指标以成功率为主,自动驾驶领域增加L2距离和完成率等专用指标,仿真领域开发交互式导航评分等新指标[65][67][70] 技术挑战与未来方向 - 面临可扩展性、泛化性、安全性三大核心挑战:现有模型难以适应大规模真实场景,在未知场景中准确性下降,实机部署存在安全隐患[21][25] - 数据局限性突出:标注成本高,长尾场景覆盖不足,真实世界数据采集受硬件设备和精准操控限制[18][62][73] - 未来需突破仿真到现实差距,解决多模态对齐稳定性问题,开发更丰富评估协议匹配真实世界自主系统需求[21][73]
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-25 07:33
文章核心观点 - 视觉-语言-动作模型代表了机器人技术从传统控制向通用机器人技术的范式转变,将视觉-语言模型从被动生成器转变为能在复杂环境中决策的主动智能体 [1] - 该综述综合了300多项最新研究,对VLA方法进行了系统分类,并探讨了其应用、关键挑战及未来发展方向 [1] - VLA模型通过整合视觉编码器、大型语言模型和强化学习的优势,旨在弥合“感知-理解-动作”的鸿沟,成为实现通用具身智能的核心路径 [16][23] VLA模型的核心范式与分类 - VLA方法被划分为五大范式:自回归模型、扩散模型、强化学习模型、混合方法及专用方法 [1][24] - 自回归模型通过Transformer架构统一多模态感知和序列动作生成,支持跨任务泛化,但存在误差累积和延迟问题 [26][39] - 扩散模型将机器人控制从确定性回归转变为概率性生成,支持从同一观测生成多种有效轨迹,但在动态环境中的轨迹稳定性仍需改进 [41][43] - 强化学习微调模型通过融合视觉-语言基础模型与RL算法,增强VLA的感知和决策能力,擅长结合人类反馈和适应新任务 [48][51] VLA模型的技术演进与关键创新 - VLA模型的发展经历了从单模态基础模型到多模态融合,再到“多模态+可执行控制”的演进路径 [16] - 关键技术创新包括模态token化、自回归动作生成、以及将视觉、语言、状态和动作统一在单一序列建模框架中 [20][30] - 代表性模型如Gato实现了异质模态的统一token化,RT-1基于13万条真实世界数据训练,RT-2融入了网络级VLM知识 [30] - 扩散模型领域的创新包括SE(3)-DiffusionFields将扩散扩展到SE(3)位姿空间,以及Dita构建的可扩展扩散Transformer [42][45] VLA模型的应用场景与机器人形态 - VLA模型已应用于多种机器人形态,包括机械臂、四足机器人、人形机器人和轮式机器人 [7] - 在自动驾驶领域,VLA模型用于轨迹生成和危险规避,CoVLA构建了包含5万条语言指令-轨迹对的大规模数据集 [55] - 专用领域适配包括GUI交互、人形全身控制以及特殊任务如魔方还原,展现了VLA的通用性 [55][57] - 人形机器人控制通过分层VLA框架实现,如LeVERB将视觉-语言处理与动力学级动作处理耦合,支持150+任务的仿真到现实迁移 [55] 数据集与仿真平台的支撑作用 - VLA模型的发展高度依赖高质量数据集和仿真平台,以解决数据稀缺和实机测试风险高的问题 [17] - 真实世界数据集如BridgeData涵盖10个环境中的71项任务,Open X-Embodiment整合了22个机器人数据集,包含160266个任务 [21][65] - 仿真平台如MuJoCo/Isaac Gym提供精确的物理仿真,CARLA面向自动驾驶提供真实城市交通场景,支持安全高效的大规模训练 [21] - 评估指标通常采用成功率、语言遵循率、L2距离和完成率等,以衡量模型的性能、鲁棒性和泛化能力 [66][68][74] VLA模型面临的挑战与未来方向 - 关键挑战包括可扩展性不足、在未知场景中的泛化性下降、实机部署的安全性风险以及仿真到现实的差距 [23][29] - 未来研究方向需解决数据局限性、推理速度、安全性以及长尾场景覆盖不足等问题,以加速通用机器人技术的发展 [7][23] - 效率优化和轻量化设计成为趋势,如MoLe-VLA通过混合专家路由降低40%计算成本,BitVLA采用1位量化将内存占用降至30% [36][55] - 安全机制和可解释性研究受到重视,SafeVLA引入安全评论网络和约束策略优化框架,以降低开放环境中的风险事件 [51][57]
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-24 07:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
机器之心· 2025-09-22 15:26
研究背景与挑战 - 扩散模型与流匹配模型已成为视觉生成主流方案 但仅靠预训练无法保证与人类意图完全对齐 [5] - 人类反馈强化学习(RLHF)被引入以优化生成模型 使其输出更贴近人类偏好 [6] - 群体相对策略优化(GRPO)在应用中面临两大瓶颈: 采样复杂度达O(N×T)导致低效性 以及稀疏奖励导致训练波动大和收敛不稳 [8] BranchGRPO方法创新 - 通过树形分叉结构在扩散过程中实现多轨迹共享前缀 在中间步骤分裂 大幅减少冗余采样 [11] - 采用奖励融合与逐层归因机制 将叶子节点奖励自底向上传递并在每一深度标准化 形成逐步稠密的优势信号 [14] - 设计宽度剪枝和深度剪枝两种策略 避免树形结构带来的指数级成本 [14] 性能表现:图像对齐 - 迭代时间显著缩短: DanceGRPO需698秒 BranchGRPO仅493秒 剪枝版314秒 Mix变体148秒(相对加速近4.7倍) [15] - 对齐效果更优: HPS-v2.1得分0.363–0.369 稳定高于DanceGRPO的0.360 ImageReward得分1.319为全表最佳 [15] - Mix变体在极致加速的同时保持与原始BranchGRPO相当的对齐效果和训练稳定性 [16] 性能表现:视频生成 - 生成质量提升: 视频帧更锐利 细节更丰富 角色和物体在时间维度上保持一致 [18] - 训练效率翻倍: DanceGRPO每次迭代需近20分钟 BranchGRPO仅需约8分钟 [19] 扩展性与多样性 - 多样性保持良好: 分叉未削弱样本分布 MMD²≈0.019 几乎与顺序采样一致 [24] - 扩展性优异: 在81样本规模下 DanceGRPO迭代需2400秒 BranchGRPO仅需680秒 [27] - 性能随分支规模扩大持续提升 使大规模对齐训练变得可行 [27] 应用前景 - 未来可通过引入自适应分裂/剪枝策略 拓展至多模态与更大规模生成任务 [30] - 有望成为扩散/流模型RLHF的核心方法 为高效稳定的人类偏好对齐提供新范式 [30]
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 14:59
公司业务与招聘计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 业务合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 招聘主要技术方向 - 招聘方向涵盖大模型/多模态大模型、扩散模型、视觉语言模型、端到端自动驾驶、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿技术领域 [3] 岗位要求与待遇 - 候选人需来自QS200以内高校,拥有硕士及以上学历,拥有顶会论文者优先 [4] - 提供的待遇包括自动驾驶行业资源共享、丰厚的现金激励以及创业项目合作与推荐机会 [5]
上交严骏驰团队:近一年顶会顶刊硬核成果盘点
自动驾驶之心· 2025-09-19 07:33
文章核心观点 - 上海交通大学严骏驰教授团队在CVPR、ICLR、NeurIPS等顶级会议上发表了一系列开创性研究,代表了人工智能领域的硬核突破 [2] - 团队研究工作聚焦于AI技术的核心挑战,包括提升机器人复杂任务能力、使AI在工业决策中超越人类专家、为黑盒模型建立坚实理论根基 [2] - 这些研究成果展示了未来AI研究的三大关键趋势:理论与实践的深度融合、AI对传统科学计算的颠覆性重塑、以及迈向更鲁棒高效自主的智能系统 [32] - 团队工作具有高度可复现性和可落地性,有望演变为更聪明的机器人、更强大的设计工具和更高效的商业解决方案 [32] CVPR 2024研究成果 - 提出基于网格的神经场模型系统性理论框架,引入网格切线核概念分析模型的近似和泛化行为 [4] - 开发MulFAGrid模型,通过联合优化核参数和网格特征的自适应学习方案,在欠拟合和过拟合极端间取得平衡 [5] - 在2D图像拟合任务中达到56.19 PSNR,在3D有符号距离场重建任务中达到0.9995 IoU和4.51法向角误差,在NeRF基准测试中PSNR高达30.12 [5] ICLR 2025研究成果 - 提出CR2PQ连续相对旋转位置查询方法,解决密集视觉对比学习中跨视图像素对应问题 [7] - 在COCO数据集上,仅用40个预训练epoch就比SOTA方法获得10.4% mAP^bb和7.9% mAP^mk的显著提升 [7] - 开发BTBS-LNS二进制紧缩分支搜索方法,在MIPLIB2017基准测试中比Gurobi提供10%更好的原始间隙 [10][11] - 提出结构化宇宙图学习方法结合异常值OOD检测,在Pascal VOC和Willow Object数据集上持续优于最先进方法 [12][13] SIGKDD 2025研究成果 - 提出BiQAP神经双层优化框架,通过修改输入实例挖掘深度网络在纯数值二次分配问题上的潜力 [15] - 内层优化使用熵正则化求解修改后的实例,外层优化处理原始QAP的二次目标函数 [15] NeurIPS 2024研究成果 - 提出Fast T2T优化一致性方法,实现扩散模型在组合优化中的快速单步求解,仅用一步生成和一步梯度搜索就超越需要数百步的SOTA扩散方法 [16][17] - 开发CLOVER闭环视觉运动控制框架,在CALVIN基准上比开环方法提升8%,实际机器人长时域操作任务完成长度提升91% [19][20] - 提出AdaptiveDiffusion无训练自适应扩散方法,通过有界差分近似策略实现2-5倍加速而无质量降低 [23][24] TPAMI 2024研究成果 - 提出EasyDGL易用流水线,实现连续时间动态图学习中编码、训练和解释的统一框架 [29] - 包含时间点过程调制的注意力架构编码模块、原则化损失训练模块和图傅里叶域扰动分析解释模块 [29] - 在公共基准上显示优越性能,能有效量化模型从演化图数据中学习的频率内容的预测能力 [30]
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]
冲破 AGI 迷雾,蚂蚁看到了一个新路标
雷峰网· 2025-09-16 18:20
大模型发展瓶颈 - 数据压榨已到尽头 AGI实现面临突破难题 [2][4] - 自回归范式存在单向建模缺陷 导致模型无法逆向推理和修正错误 [16][17][18] - 出现人名截断 语义颠倒 医疗诊断左右混淆等基础错误 [13][15] 当前技术迭代方向 - 马斯克提出提纯数据方案 尝试打开AGI大门 [5] - 多模态成为重点研究方向 Open AI发布GPT-4o实现多模态感知 [7][8] - 斯坦福李飞飞提出视觉是智能基石的观点 [8] 扩散模型新范式突破 - 蓝振忠与李崇轩合作推出LLaDA-MoE模型 基于扩散理论架构 [12][50] - 扩散模型具备并行解码 双向建模和迭代修正三大优势 [32][33][34][35] - 模型在20T高质量数据上训练 总参数量7B 激活参数量1.4B [63][66] 技术性能表现 - LLaDA-MoE在MMLU测试中获得67.18分 超越LLaDA1.0的65.50分 [71] - 在数学任务GSM8K测试中获得82.41分 接近Qwen2.5-3B的86.28分 [71] - 代码任务MultiPL-E测试中获得52.53分 显著优于LLaDA1.0的29.08分 [71] 行业发展意义 - 首次验证MoE架构在扩散语言模型上的放大效应 [71] - 为行业提供全新技术路径 打破自回归范式垄断 [54][72] - 蚂蚁集团开源模型权重和推理引擎 推动社区共同发展 [74][77] 未来挑战 - 生成速度需提升 当前扩散模型每秒仅50token 远低于自回归300token [72] - 更大规模扩展仍需突破 包括block diffusion等技术难题 [72] - 需要更多研究人员参与 加速扩散语言模型生态建设 [73][78]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-16 07:33
PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务,而是直接对感知输出的结构化信息(如边界框、车道线等)进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数,主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速,去年的技术方案已不适合当前环境 [13] - VLA(视觉语言动作)范式是当前端到端自动驾驶的皇冠,上限高但难度大,行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点,多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史,涵盖从模块化方法到端到端的演变,分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习、BEV感知等,这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端,分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA,包括基于感知的方法(UniAD、VAD、PARA-Drive)、基于世界模型的方法(Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(DiffusionDrive、Diffusion Planner、DiffE2E)和基于VLA的方法(ORION、OpenDriveVLA、ReCogDrive) [22][24][26][29] - 第五章设置RLHF微调大作业,提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架,梳理端到端自动驾驶研究发展脉络,形成自己的研究体系 [16] - 理论结合实践,配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架,将所学应用到实际项目中 [37]
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%
量子位· 2025-09-15 11:59
技术突破 - 腾讯混元团队提出Direct-Align和SRPO两项创新方法 显著提升AI图像生成质量 人工评估真实感评分从8.2%提升至38.9% 美学评分从9.8%提升至40.5% [2][5][17] - Direct-Align通过预定义噪声先验实现任意时间步图像恢复 在仅5%去噪进度阶段即可恢复图像粗略结构 解决传统方法梯度爆炸问题 [9][10][11] - SRPO将奖励定义为文本条件信号 通过正负面提示词计算相对奖励差值 实现无需额外数据的在线偏好调整 [5][14][16] 性能表现 - SRPO在HPDv2基准测试中全面领先 自动评估指标Aesthetic Score达6.194 PickScore达23.040 显著优于ReFL DRaFT等方法 [17][18] - 仅需10分钟训练即在32块H20上收敛 训练效率远超DanceGRPO(480 GPU小时)和ReFL(16 GPU小时) [1][18][19] - 通过添加"Realistic photo"控制词 模型生成图像真实感提升3.7倍 美学质量提升3.1倍 [16] 技术优势 - 全扩散轨迹优化突破现有方法局限 避免仅在后25%时间步训练导致的奖励黑客问题(如HPSv2偏好红色调 PickScore偏好紫色图像) [8][13] - 控制词效果与训练集频率相关 高频词如"painting"效果最佳 低频词需组合使用 [16] - 相比DanceGRPO方法 SRPO在保持高美学质量的同时避免产生过度光泽感和边缘高光等不良伪影 [18] 行业影响 - 开发者评价SRPO为下一代RLHF(人类反馈强化学习)技术 展现其在对齐人类偏好方面的突破性潜力 [6] - 该方法在FLUX1.dev模型上实现突破 表现超越最新开源版本FLUX.1.Krea [19]