Workflow
扩散模型
icon
搜索文档
Bug变奖励:AI的小失误,揭开创造力真相
36氪· 2025-10-13 08:31
文章核心观点 - AI的创造力并非主动设计的能力,而是其模型架构(局部性和平移等变性)在运行中产生的副作用[6][12][18] - 这种由“不完美”架构导致的“即兴重组”能力,使得AI能生成前所未见的图像,而非简单的复制品[2][12][23] - 研究通过构建纯数学系统“ELS方程机”验证了该观点,其与真实扩散模型输出平均重合度高达90%[16] - AI的创造力机制与生物胚胎发育中的自组织过程具有相似性,表明人类创造力可能也源于类似的“不完美”拼接过程[19][21] 扩散模型的悖论与现象 - 扩散模型的核心任务是去噪,即将数字噪声还原成训练过的图像,理论上应只生成复制品[2] - 但实际应用中,如DALL·E 2、Imagen、Stable Diffusion等模型能生成全新组合的图像,例如“金鱼在海滩上啜饮可口可乐”[4] - 模型会产出如“多手指人像”等怪异但结构完整的图像,这种现象被称为“扩散模型的悖论”[4][6] 创造力的产生机制 - 机制一为局部性:模型生成图像时并非通盘考虑,而是每次只关注一个小的像素“拼块”[8] - 机制二为平移等变性:输入图像移动时,模型生成的画面必须同步移动以保持结构连贯[9] - 这两条机制本是模型限制条件,却使其无法完全依赖记忆,必须在局部进行即兴重组,从而意外产生新意[10][12] 数学验证与类比延伸 - 研究者构建了不依赖训练数据的纯数学系统“ELS方程机”,仅基于局部性和等变性规则进行图像预测[13][16] - ELS方程机与真实扩散模型的输出平均重合度达到90%,证明了创造力的产生可归因于这两条数学规则[16][18] - 该机制与胚胎发育中的形态发生过程类似,细胞根据局部信号自组织,偶尔出错(如多长手指)与AI图像生成错误高度相似[19] - 研究提出人类创造力可能同样源于对经验和记忆的不完整拼接与补全,创新往往生长于偏差之中[21][23]
北航团队提出新的离线分层扩散框架:基于结构信息原理,实现稳定离线策略学习|NeurIPS 2025
AI前线· 2025-10-09 12:48
研究背景与动机 - 离线强化学习的核心挑战在于如何仅利用固定的历史数据集训练有效策略,而扩散模型通过将策略学习重构为条件轨迹生成任务,能有效缓解分布外状态和动作导致的“外推误差”问题[3] - 为提升长时序任务效率,分层策略被引入扩散模型,但现有方法存在固定两层扩散层次结构和单一预定义时间尺度的局限,限制了其对不同任务复杂性的适应性和决策灵活性[2][3] - 这提出了一个核心开放性挑战:如何系统地分析历史轨迹,以构建一个既可泛化又具有任务感知能力的扩散层级结构[3] SIHD框架核心设计 - SIHD框架从层级构建、条件扩散和正则化探索三个方面进行创新设计,以应对现有方法的局限性[5] - 框架通过分析离线轨迹中内嵌的“结构信息”,自适应地构建一个多尺度的扩散层级,从而在具有稀疏奖励的长时序环境中实现高效、稳定的离线策略学习[2] - 其核心设计旨在克服固定层级结构和单一时间尺度的刚性限制,提升决策性能和灵活性[6] 基于结构信息的多尺度扩散层级构建 - SIHD首先从离线数据集中提取所有状态元素,并基于特征相似度构建一个k-近邻状态图[8] - 接着应用结构信息原理,通过HCSE优化算法最小化K-维结构熵,从而获得一个最优的树状编码结构,该树的每一层都代表了在不同粒度上对状态空间的划分[8] - 基于定义的社群结构,SIHD能够为每一条历史轨迹进行自适应的层级分割,确保每个片段内的状态都属于同一个社群,并将每个片段的末端状态定义为该层的子目标[8] - 这一过程使得SIHD能够从数据中自动推断出不同任务的动态时间尺度,构建出一个灵活的多尺度扩散层级[9] 基于结构信息增益的条件扩散模型 - 在SIHD中,每一层的扩散模型都由其上一层的子目标序列进行引导,但创造性地使用结构信息增益作为引导信号,而非传统方法依赖的局部奖励信号[10] - 对于层级中的子序列,其条件输入被定义为对应状态社群的结构信息增益,该增益项量化了从高层级社群过渡到更具体子社群所获得的“信息量”[10] - 这种引导方式不直接依赖于可能稀疏或有噪声的奖励函数,从而使生成过程更加稳定和鲁棒[10] 结构熵正则化器 - SIHD引入了一个结构熵正则化器,旨在缓解对有限离线数据集的过分依赖并鼓励有效探索[11] - 该正则化项通过最大化状态分布的香农熵来鼓励策略探索数据集中覆盖不足的状态区域,同时通过最小化在每个层级的社群划分上的结构熵来约束策略不会过度偏离由编码的行为模式,从而减轻分布偏移带来的风险[12] - 最终的训练目标函数将扩散模型的标准损失与这个正则化项结合起来,尤其是在底层的动作生成模型中,以实现探索与利用的平衡[12] 实验结果与分析 - 在D4RL Gym-MuJoCo基准测试中,SIHD在HalfCheetah、Hopper和Walker2D任务上均取得了最优的平均回报,相较于HDMI和HD等先进分层基线表现出更强的泛化能力[16][17] - 在中低质量的"Medium"和"Medium-Replay"数据集上,SIHD的性能优势尤为突出,平均提升分别达到3.8%和3.9%,验证了结构熵正则化器在缓解数据质量依赖方面的有效性[17] - 在奖励稀疏且对长时序规划要求更高的Maze2D和AntMaze任务中,SIHD的优势更加显著,在所有导航任务的数据集上均实现了最佳性能,平均奖励在单任务Maze2D、多任务Maze2D和AntMaze上分别领先8.3%、7.4%和4.4%[19][22] - 在AntMaze-Large数据集上,SIHD的得分为89.4,显著高于次优方法HD的83.6,并展现了卓越的鲁棒性,在数据质量下降时,其性能降幅被控制在17.1%以内,而基线方法最大降幅可达27.4%[22] 消融研究 - 消融研究证实了SIHD各个组件的必要性,尤其是自适应多尺度层级(SIHD-DH),它的缺失会导致最严重的性能下降,特别是在长时序任务中[21] - 研究结果表明,基于结构信息的自适应层级构建、结构信息增益的条件引导以及结构熵正则化探索共同贡献了SIHD框架的卓越性能[21][23]
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 12:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
业务合伙人招募!4D标注/世界模型/VLA/模型部署等方向
自动驾驶之心· 2025-10-02 11:04
业务合伙人招募计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 主要技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向包括具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等前沿领域 [3] 岗位要求 - 候选人需毕业于QS200以内高校,并拥有硕士及以上学历 [4] - 拥有顶级学术会议发表成果的候选人将获得优先考虑 [4] 合伙人待遇 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒
量子位· 2025-10-01 09:12
技术突破与核心创新 - 首次实现第一视角视频与人体动作的联合生成,攻克了视角-动作对齐与因果耦合两大瓶颈[1][2] - 提出基于扩散模型的框架,通过三模态联合生成框架实现视角一致且因果连贯的生成效果[4][12] - 采用以头部为中心的动作表征,使头部姿态回归误差显著降低,为视角对齐奠定基础[19][26] - 借鉴控制论设计结构化掩码的交互机制,实现视频与动作之间的双向因果交互,避免帧级错位问题[20][21] - 采用异步扩散训练策略与三阶段训练范式,适配视频与动作的模态差异,平衡效率与生成质量[22][23][27] 模型性能与实验结果 - 在Nymeria数据集上测试,包含17万条5秒时长的文本-视频-动作三元组数据[32] - 在9项关键指标上全面超越基线模型VidMLD,其中视角对齐误差从1.28米降低至0.67米,改善幅度达48%[32][33] - 手部可见一致性指标HandScore从0.36提升至0.81,改善幅度达125%[32] - 视频质量指标I-FID从157.86改善至98.17,FVD从1547.28改善至1033.52[33] - 消融实验证明三大创新设计缺一不可,移除任一组件都会导致模型性能明显下降[34] 应用前景与行业影响 - 为可穿戴计算、增强现实及具身智能领域打开了新的落地入口[2][34] - 支持多种生成模式:根据文本生成视频和动作、根据动作和文本生成视频、根据文本和视频生成动作[28][29][30] - 生成的视频可通过3D高斯点渲染技术提升到三维场景中,实现从生成内容到三维场景的还原[5][24] - 该技术为交互式内容创作和智能体仿真提供了可直接落地的生成基座[34]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 16:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-26 21:35
核心人事变动 - 前OpenAI高层研究员宋飏正式加盟Meta Superintelligence Labs担任研究负责人[2][3] - 宋飏将直接向MSL首席科学家赵晟佳汇报[5] - 两人背景高度契合:本科均毕业于清华,博士同在斯坦福同门,曾先后就职于OpenAI[13] 团队架构与战略方向 - 宋飏的加入巩固了MSL的“双核”格局:赵晟佳把握整体节奏,宋飏深化关键路径[16] - 宋飏研究方向聚焦扩散模型与多模态推理,其技术是生成式AI领域重要基石[29][37] - 团队战略目标是构建能理解图像、语言、音频等多种数据形式的通用模型,提升与真实世界互动的广度与深度[31] - 赵晟佳主导统一训练范式和推理堆栈,旨在打造完整AI产品体系[32] 行业人才流动趋势 - 今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL[20] - 顶级AI实验室间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月便离职加入Microsoft AI[22][24] - 项目匹配度、团队氛围和技术方向贴合度正成为人才选择的核心因素[25] - 人才选择项目的速度在加快,项目对人的要求也在提高,研究者与实验室关系呈现“双向奔赴”特点[46][47] 技术影响与产业意义 - 宋飏在OpenAI期间带领战略探索团队,专注于提升模型处理高维复杂数据的能力[30][39] - 其研究成果不止于方法创新,更擅长转化为平台能力,影响了OpenAI图像生成产品设计路径[40] - 这类研究者能直接推动从理论、数据到系统实现的完整链路,为团队补上技术纵深与工程整合的关键环节[41] - 跨模态、完整数据链路、工具集成与推理协同能力将成为AI从业者新阶段核心竞争力[48]
AnchDrive:一种新端到端自动驾驶扩散策略(上大&博世)
自动驾驶之心· 2025-09-26 15:50
端到端自动驾驶技术演进 - 端到端自动驾驶算法直接从原始传感器数据学习控制信号,绕过模块化设计复杂性,减少感知误差累积,提升系统一致性与鲁棒性 [4][12] - 早期方法依赖自车查询回归单模态轨迹,在复杂场景中易因行为多模态性导致预测失效 [6][12] - 多模态建模策略通过生成多个轨迹提案提升决策覆盖率,但固定轨迹集离散化限制模型表达灵活性 [6][13] 扩散模型在轨迹规划中的应用 - 扩散模型具备强大生成能力与自适应能力,适合多模态轨迹规划,能从高维联合分布采样并建模连续控制空间 [7][13] - 模型天然支持条件分布建模,可整合轨迹历史、地图语义、自车目标等上下文输入,提升策略一致性与情境相关性 [7][13] - 测试阶段可通过可控采样加入额外约束,无需重新训练模型 [7][13] AnchDrive框架核心创新 - 采用截断扩散策略,从混合轨迹锚点集初始化扩散过程,显著减少去噪步骤,降低计算成本与延迟 [8][15][29] - 动态锚点由多头部解码器实时生成,处理BEV场景表征、目标特征、地图特征和VLM指令四类输入,捕捉局部环境行为多样性 [27][29] - 静态锚点集从大规模人类驾驶数据预采样,提供跨场景行为先验知识,增强模型泛化能力 [8][28][29] 混合感知架构设计 - 密集感知分支构建128×128网格BEV特征图,覆盖64×64米区域,提供场景纹理与空间关系的隐式引导 [22][23] - 稀疏感知分支执行3D目标检测和在线高精地图矢量化,输出带属性边界框及矢量化地图元素,通过MLP编码生成目标与地图嵌入 [23] - 双分支协同融合隐式模式与显式几何约束,为规划提供全面可靠的环境理解基础 [21][23] 性能表现与基准对比 - 在NAVSIM v2基准测试中EPDMS达到85.5分,显著优于主流方法:较VADv2提升8.9分,较Hydra-MDP提升5.7分,较Hydra-MDP++提升4.1分 [9][15][34] - 轨迹锚点数量从VADv2的8192个大幅缩减至20个,减少比例达400倍 [34] - 在所有子分数指标上均优于DiffusionDrive基准方法,EPDMS分数提升1.2分 [34] 消融实验关键发现 - 动态锚点生成器中:BEV特征轨迹头使EPDMS提升0.5分;目标特征轨迹头显著提高无责任碰撞(NC)分数;地图特征轨迹头提升可行驶区域合规性(DAC)和行驶方向合规性(DDC)指标 [36] - 整合VLM指令后EPDMS达到最终85.5分 [36] - 2步去噪步骤在规划性能与计算效率间取得最佳平衡,更多步骤不保证性能提升且增加推理延迟 [36] 技术实现细节 - 实验基于NAVSIM数据集,标注频率2Hz,提供8摄像头360度视野和5传感器融合LiDAR点云数据 [32] - EPDMS评价指标整合乘法惩罚分数(无责任碰撞、可行驶区域合规性、行驶方向合规性、交通信号灯合规性)和加权平均分数(碰撞时间、自车进度、历史舒适性、车道保持、扩展舒适性) [32] - 模型完全端到端学习,未依赖任何手工后处理步骤 [34]
突发,Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-25 19:56
人事任命核心信息 - 前OpenAI高层研究员宋飏正式加入Meta Superintelligence Labs,担任研究负责人 [1] - 宋飏将直接向MSL首席科学家赵晟佳汇报 [4] - 宋飏是扩散模型领域的核心人物,也是DALL·E 2技术路径的早期奠基者 [1][21] 团队构建与战略意义 - 赵晟佳与宋飏的组合标志着MSL从“顶级个体”迈向“协同作战”的团队形态,形成“双核”格局 [13] - 赵晟佳主导过ChatGPT、GPT-4等核心研发,宋飏则长期关注跨模态模型架构,两人在技术专长上形成互补 [13] - 宋飏的加入进一步巩固了团队组合,使科研分工更具结构感 [13] 行业人才流动趋势 - Meta的招人节奏高频,今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL [14] - 顶级AI实验室之间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月后离职加入Microsoft AI [14][15] - 项目匹配度、团队氛围和技术方向的贴合程度,正逐渐成为影响人才选择的核心因素 [17] 技术发展方向 - 宋飏的研究方向与MSL整体战略紧密贴合,多模态推理或将成为MSL的主打方向 [18] - 宋飏专注于构建能理解图像、语言、音频等多种数据形式的通用模型,以提升模型与真实世界互动的广度与深度 [18] - 赵晟佳主导统一的训练范式和推理堆栈,与宋飏的研究相结合,正加速从输入到输出的完整技术闭环成形 [18] 个人背景与能力 - 宋飏在学术界以扩散模型研究闻名,其论文《Score-Based Generative Modeling through Stochastic Differential Equations》被引用8748次 [21][22] - 他拥有丰富的工业与理论背景,曾在谷歌大脑、Uber ATG、微软研究院等机构实习 [24] - 他不仅做方法创新,也擅长将研究成果转化为平台能力,能直接推动从理论到系统实现的完整链路 [28]
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 12:00
文章核心观点 - 视觉-语言-动作模型是机器人技术从传统控制向通用机器人技术范式转变的关键标志,将视觉-语言模型从被动序列生成器重新定位为在复杂动态环境中执行操作的主动智能体[2] - 该综述基于300多项最新研究,首次对纯VLA方法进行系统全面总结,提出清晰分类体系并分析五类范式的设计动机、核心策略与实现方式[2][3][7] - VLA模型通过整合视觉编码器表征能力、大语言模型推理能力和强化学习决策能力,有望弥合"感知-理解-动作"鸿沟,成为实现通用具身智能的核心路径[15][20][21] VLA模型技术背景与发展历程 - 单模态建模突破为多模态融合奠定基础:计算机视觉领域从CNN到ViT的演进,自然语言处理领域Transformer架构催生大语言模型,强化学习领域从DQN到决策Transformer形成序列决策新视角[13] - 视觉-语言模型作为关键桥梁经历从模态对齐到复杂跨模态理解发展:早期对齐模型如ViLBERT、对比学习模型如CLIP、指令微调模型如BLIP-2和LLaVA[16] - VLA模型核心设计思路包括模态token化和自回归动作生成,实现端到端跨模态对齐并继承VLMs语义泛化能力[15][17] VLA模型主要方法范式 自回归模型 - 通用VLA方法发展经历三个阶段:早期统一token化如Gato、大规模真实数据训练如RT-1和RT-2、跨平台泛化与效率优化如Octo和NORA[26][27] - 基于大语言模型的推理与语义规划使VLA从"被动输入解析器"转变为"语义中介",支持长任务和组合任务的推理驱动控制[29][33] - 结构优化与高效推理机制包括分层模块化优化、动态自适应推理、轻量化压缩与并行化,如MoLe-VLA降低40%计算成本[35][36] 扩散模型 - 通用方法实现从确定性动作到概率性多轨迹生成转变:几何感知生成如SE(3)-DiffusionFields、视频驱动生成如UPDP、时间一致性优化如TUDP[37][40][44] - 多模态架构融合趋势明显:大规模扩散Transformer如Dita、多模态token对齐如M-DiT、推理与扩散结合如Diffusion-VLA[41][45] - 应用优化部署呈现三大趋势:效率优化如TinyVLA仅需5%可训练参数、任务适应性如DexVLG支持零样本灵巧抓取、认知启发架构如TriVLA实现36Hz交互频率[42][46] 强化学习微调模型 - 聚焦奖励设计、策略优化和跨任务迁移:自监督奖励与表征学习如VIP生成密集奖励函数、跨模态奖励代理与人类反馈如SafeVLA引入安全约束机制[48][49] - 实现跨机器人形态适配:四足机器人如NaVILA、人形机器人如LeVERB、自动驾驶如AutoVLA通过链推理微调生成离散可行动作[49][50] - 融合离线与在线强化学习:ConRFT结合离线行为克隆与在线一致性目标,平衡样本效率与策略安全性[49] 数据集与仿真平台支撑 - 真实世界数据集规模显著扩大:Open X-Embodiment整合21个机构22个机器人数据集,包含527项技能和160266个任务,通过标准化格式促进研究可复现性[18][64] - 仿真平台解决数据稀缺和实机测试风险:多样化环境与物理真实性支持,如MuJoCo/Isaac Gym适用于动力学仿真,CARLA面向自动驾驶场景[18][19] - 基准测试评估指标以成功率为主,自动驾驶领域增加L2距离和完成率等专用指标,仿真领域开发交互式导航评分等新指标[65][67][70] 技术挑战与未来方向 - 面临可扩展性、泛化性、安全性三大核心挑战:现有模型难以适应大规模真实场景,在未知场景中准确性下降,实机部署存在安全隐患[21][25] - 数据局限性突出:标注成本高,长尾场景覆盖不足,真实世界数据采集受硬件设备和精准操控限制[18][62][73] - 未来需突破仿真到现实差距,解决多模态对齐稳定性问题,开发更丰富评估协议匹配真实世界自主系统需求[21][73]