扩散模型

搜索文档
Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-26 21:35
宋飏,扩散模型领域的核心人物, DALL·E 2技术路径的早期奠基者。 编辑 | 艾伦 来源| 新智元(ID:AI_era) 封面来源 | Unsplash 就在不久前,OpenAI前高层研究员宋飏已正式加盟Meta Superintelligence Labs(MSL),担任研究负责人(Research Principal)。 他将直接向MSL首席科学家赵晟佳(Shengjia Zhao)汇报。 左:宋飏;右: 赵晟佳 对于这个突发消息,很多名人网友都对此感到震惊: 也有人并不看好本次「转会」,认为打造最强战队并不只是把世界最强的选手都买过来就能万事大吉了的。 赵晟佳主导过ChatGPT、GPT-4及其后续版本的多个核心研发。 本次人事流动背后,或许透露出Meta在AI竞赛中释放的三重信号。 MSL的人才拼图更完整了 赵晟佳与宋飏的组合,或许标志着MSL逐渐从「顶级个体」迈向「协同作战」的团队形态。 两人有不少交集:本科都在清华,博士在斯坦福同门,曾先后就职于OpenAI,分别在大模型系统与生成建模领域有深厚积累。 而宋飏长期关注跨模态模型架构与可扩展生成技术,其研究影响了OpenAI的DALL·E 2。 ...
AnchDrive:一种新端到端自动驾驶扩散策略(上大&博世)
自动驾驶之心· 2025-09-26 15:50
端到端多模态规划已成为自动驾驶领域的变革性范式,能有效应对行为多模态问题及长尾场景下的 泛化挑战。 本文提出端到端框架AnchDrive,该框架可有效引导扩散策略(diffusion policy),以降低传统生成 模型的高计算成本。 与从纯噪声开始去噪不同,AnchDrive利用丰富的混合轨迹锚点(hybrid trajectory anchors)为规划器 初始化。这些锚点来源于两个互补的数据源:一是包含通用驾驶先验知识的静态词汇表,二是一组 动态的、具备情境感知能力的轨迹。其中,动态轨迹由Transformer实时解码生成,该Transformer可 处理密集型与稀疏型感知特征。随后,扩散模型通过学习预测轨迹偏移分布来优化这些锚点,从而 实现精细化调整。这种基于锚点的引导式设计,能够高效生成多样化、高质量的轨迹。在NAVSIM 基准测试中的实验表明,AnchDrive达到了新的性能上限(state-of-the-art),并展现出强大的泛化能 力。 更多关于端到端自动驾驶、VLA、世界模型的前沿技术,欢迎加入『自动驾驶之心知识星球』! 一、引言 近年来,端到端自动驾驶算法受到广泛关注,其相较于传统基于规 ...
突发,Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-25 19:56
刚刚,Meta又从OpenAI挖来一员猛将——宋飏,扩散模型领域的核心人物,DALL·E 2技术路径的早期奠基者。他已正式加入Meta Superintelligence Labs,担任研究负责人,直接向他的师兄赵晟佳汇报。 就在刚刚,OpenAI前高层研究员宋飏已正式加盟Meta Superintelligence Labs(MSL),担任研究负责人(Research Principal)。 他将直接向MSL首席科学家赵晟佳(Shengjia Zhao)汇报。 左:宋飏;右:赵晟佳 对于这个突发消息,很多名人网友都对此感到震惊: 也有人并不看好本次「转会」,认为打造最强战队并不只是把世界最强的选手都买过来就能万事大吉了的。 本次人事流动背后,或许透露出Meta在AI竞赛中释放的三重信号。 MSL的人才拼图更完整了 赵晟佳与宋飏的组合,或许标志着MSL逐渐从「顶级个体」迈向「协同作战」的团队形态。 两人有不少交集:本科都在清华,博士在斯坦福同门,曾先后就职于OpenAI,分别在大模型系统与生成建模领域有深厚积累。 赵晟佳主导过ChatGPT、GPT-4及其后续版本的多个核心研发。 而宋飏长期关注跨模态模型架构 ...
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 12:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 兰州大学、中科院、新加坡国立等单位联合出品的一篇最新survey! Pure Vision Language Action (VLA) Models: A Comprehensive Survey 论文链接:https://arxiv.org/pdf/2509.19012 视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉- 语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中,机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些 方法通常应用于简单、重复性的任务,例如工厂 ...
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-25 07:33
视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉-语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 为此,兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法,旨在提供清晰的分类体系,并对现有研究进行系统、全面的综述。文中全面分析了VLA 在不同场景下的应用,并将VLA方法划分为多个范式: 自回归、扩散模型、强化学习、混合方法及专用方法 ;同时详细探讨了这些方法的设计动机、核心策略与实现方 式。 此外,本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状,综述进一步提出了该领域面临的关键挑战与未来发展方向,以推动 VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解,本综述勾勒出这一快速发展领域的研究轮廓,并强调了将塑造可扩展、通用型VLA方法发 展的机遇与挑战。 论文标题:Pure Vision Language Action (VLA) M ...
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-24 07:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
机器之心· 2025-09-22 15:26
研究背景与挑战 - 扩散模型与流匹配模型已成为视觉生成主流方案 但仅靠预训练无法保证与人类意图完全对齐 [5] - 人类反馈强化学习(RLHF)被引入以优化生成模型 使其输出更贴近人类偏好 [6] - 群体相对策略优化(GRPO)在应用中面临两大瓶颈: 采样复杂度达O(N×T)导致低效性 以及稀疏奖励导致训练波动大和收敛不稳 [8] BranchGRPO方法创新 - 通过树形分叉结构在扩散过程中实现多轨迹共享前缀 在中间步骤分裂 大幅减少冗余采样 [11] - 采用奖励融合与逐层归因机制 将叶子节点奖励自底向上传递并在每一深度标准化 形成逐步稠密的优势信号 [14] - 设计宽度剪枝和深度剪枝两种策略 避免树形结构带来的指数级成本 [14] 性能表现:图像对齐 - 迭代时间显著缩短: DanceGRPO需698秒 BranchGRPO仅493秒 剪枝版314秒 Mix变体148秒(相对加速近4.7倍) [15] - 对齐效果更优: HPS-v2.1得分0.363–0.369 稳定高于DanceGRPO的0.360 ImageReward得分1.319为全表最佳 [15] - Mix变体在极致加速的同时保持与原始BranchGRPO相当的对齐效果和训练稳定性 [16] 性能表现:视频生成 - 生成质量提升: 视频帧更锐利 细节更丰富 角色和物体在时间维度上保持一致 [18] - 训练效率翻倍: DanceGRPO每次迭代需近20分钟 BranchGRPO仅需约8分钟 [19] 扩展性与多样性 - 多样性保持良好: 分叉未削弱样本分布 MMD²≈0.019 几乎与顺序采样一致 [24] - 扩展性优异: 在81样本规模下 DanceGRPO迭代需2400秒 BranchGRPO仅需680秒 [27] - 性能随分支规模扩大持续提升 使大规模对齐训练变得可行 [27] 应用前景 - 未来可通过引入自适应分裂/剪枝策略 拓展至多模态与更大规模生成任务 [30] - 有望成为扩散/流模型RLHF的核心方法 为高效稳定的人类偏好对齐提供新范式 [30]
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 14:59
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 创业项目合作与推荐; 联系我们 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
上交严骏驰团队:近一年顶会顶刊硬核成果盘点
自动驾驶之心· 2025-09-19 07:33
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 本文只做学术分享,如有侵权,联系删文 AI技术日新月异,但真正的"硬核突破"在哪里?是让机器人更灵巧地完成复杂任务,还是让AI在工业决策上超越人类专家?抑或是为看似"黑盒"的模型找到坚 实的理论根基? 这些令人兴奋的前沿挑战,正是 上海交通大学严骏驰教授团队 的主攻方向。作为IAPR/IET Fellow、国家优青,他带领的这支顶尖团队,近期在CVPR、 ICLR、NeurIPS等舞台上交出了一份惊艳的答卷,用一系列开创性工作回应了这些时代之问。 严骏驰教授,上海交通大学人工智能学院教授,IAPR/IET Fellow,CCF优博/杰出会员。科技部2030新一代人工智能重大项目负责人、国家自然科学基金委优青、交 叉学部重大研究计划重点项目负责人、教育部资源建设深度学习首席专家。发表CCF-A类第一/通讯作者论文过200篇(CVPR24最佳论文候选、AAAI21最具影响力 论文),引用超21000次。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾 ...
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]