Workflow
扩散模型
icon
搜索文档
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
机器之心· 2025-06-26 12:35
行业背景与挑战 - 人工智能正从感知智能向决策智能演进,世界模型成为机器人领域重要研究方向,旨在让智能体对环境建模并预测未来状态[1] - 具身算法高度依赖大规模真实机器人演示数据,但数据采集成本高昂、耗时费力,严重限制了可扩展性和泛化能力[1] - 仿真平台虽能低成本生成数据,但存在仿真与现实世界的视觉和动力学差异,导致训练策略难以直接迁移到真实机器人[1] - 高效获取、生成和利用高质量的具身数据已成为当前机器人学习领域的核心挑战[1] RoboTransfer技术方案 - RoboTransfer是一种基于扩散模型的视频生成框架,用于扩充机器人策略模型的训练数据[2] - 该框架融合多视角几何信息,并对场景中的关键组成成分实现显式控制,如背景和物体属性[4] - 通过引入跨视角特征交互机制及全局深度图与法向图作为条件输入,确保生成视频在多个视角下的几何一致性[4] - 框架支持细粒度编辑控制,例如更换背景、替换目标物体,从而灵活生成多样化、结构合理的视觉数据[4] - 采用深度图和表面法向图等强结构约束表示方式来引导生成视频中物体的三维空间结构,确保几何一致性[6] - 在外观控制方面,利用参考背景图像和目标物体的参考图像作为输入条件,以维持物体外观的细节还原能力[6] 技术应用与效果 - RoboTransfer可通过real-to-real和sim-to-real两种方式实现数据增广,并训练下游策略模型提升性能[8] - 在real-to-real数据增广中,基于真机采集的真实视频数据提取结构化信息作为控制条件,可灵活实现背景桌布的替换[9] - 在sim-to-real数据增广中,利用仿真数据中的结构化信息及真实场景的物体和背景作为控制条件,将仿真数据转化为逼真实数据,降低sim-to-real差距[11] - 使用RoboTransfer合成数据训练的机器人视觉策略模型在标准测试任务中表现显著提升:在更换前景物体的场景下成功率相对提升33.3%,在同时更换前景背景的挑战性场景下提升251%[4][15] - 得益于合成数据的多样性,下游策略模型在新场景下取得251%的显著提升,大幅提升策略模型的泛化性[2]
生成式视角重塑监督学习!标签不只是答案,更是学习指南 | ICML 2025
量子位· 2025-06-24 21:36
生成式视角下的监督学习范式革新 - 提出预测一致性学习(PCL)框架,通过噪声标签渐进式分解标签信息,实现标签信息的复用和价值挖掘 [1] - 核心思想是将标签作为学习过程的辅助参考而非单纯标准答案,借鉴生成式一致性模型的扩散过程 [1] - 通过引入噪声标签作为输入提示,模型在数据输入和噪声标签共同参照下预测完整标签 [1] PCL训练机制 - 传统监督学习直接对比预测结果与标准答案计算损失,PCL将学习过程分解为逐步逼近的渐进式任务 [4][5] - 采用扩散模型加噪过程,以不同噪声水平的带噪标签作为输入提示,约束跨噪声水平的预测一致性 [5][6] - 损失函数包含预测精度损失和一致性损失,权重由λ₁和λ₂控制 [8] 标签噪声处理技术 - 离散标签采用分类分布噪声过程,通过转移矩阵实现类别间转换 [9] - 连续标签采用高斯扩散模型,逐步添加方差为βₜ的高斯噪声 [10] - 复杂标签直接向潜在嵌入空间引入高斯噪声,计算效率与连续标签一致 [11] 推理阶段优化 - 测试时从随机噪声分布采样标签提示进行单步预测,实际效果优于传统监督学习 [14] - 多步推理策略通过逐步降低噪声水平细化输出,利用早期预测的提示信息提升精度 [14] - 训练目标是将低噪声条件下的高精度传递至高噪声条件,减少对标签提示的依赖 [7][19] 信息论理论基础 - 通过分解互信息I(X;Y)为条件互信息I(X;Y|Yₜ)和I(X;Yₜ),实现标签信息的渐进式学习 [15][16] - 噪声标签Yₜ的信息量控制学习重点:高噪声时捕捉全局结构,低噪声时优化细节 [17] - 最小化噪声条件依赖项,确保预测结果在不同噪声水平下保持一致 [18][19] 跨模态实验结果 - 图像语义分割任务中,PCL单步预测即超越传统监督学习,多步推理进一步提升质量 [22][25] - 图模态预测显示推理步数存在最优平衡点,需通过早停机制避免误差累积 [26][27] - 语言模型微调任务中,PCL在LLaMa2-7B上表现优于传统方法,但噪声过程仍有优化空间 [30][31] 技术实现资源 - 论文与代码已公开,涵盖理论推导和实现细节 [33] - 实验覆盖视觉、图结构、语言三大模态,验证框架通用性 [20]
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 20:06
π₀模型结构 - 核心架构基于预训练视觉语言模型(VLM)和Flow Matching技术,包含VLM backbone、动作专家和跨具身训练组件[3] - 整合7种机器人、68项任务、超10,000小时数据,通过权重调整处理不同机器人动作空间差异[3] - 训练流程继承PaliGemma VLM的语义知识,融合多模态输入(图像/语言/物理状态)[3] - 独立子网络(3亿参数)将VLM输出转换为连续动作,流匹配技术实现50Hz高频率动作序列生成[3] π₀优势与功能 - 零样本直接执行预训练覆盖的语言提示任务(如"fold shirt")[4] - 支持复杂任务多阶段微调(如叠衣服分解为4个子步骤)[5] - 语言指令跟随能力可将高层任务(如"bus the table")分解为子任务序列[6] - 流匹配技术实现50Hz精细操作,适用于衣物折叠等高精度场景[7] - 单模型适配多种机器人形态,降低部署成本[10] π₀性能分析 - 开箱即用性能:在餐桌清理等任务中指令跟随准确率比π₀-small高20%-30%[11] - 微调效率:预训练类似任务仅需1-5小时数据微调,全新任务性能比从头训练提升2倍[11] - 复杂任务表现:叠衣服等任务通过"预训练+微调"实现60%-80%完成度[11] - 衬衫折叠成功率接近100%,复杂清理任务正确分类数量比Octo高40%[12] π0.5模型结构 - 采用双阶段训练框架和分层架构,基于Transformer实现多模态序列编码[13] - 分层推理机制:高级语义子任务预测+低级动作生成,结合离散/连续动作表示[16] - 预训练阶段使用400小时异构数据(97.6%非移动机器人数据)[16] - 后训练阶段引入动作专家模块优化实时控制,SigLIP视觉编码器(400M参数)+Gemma语言模型(2.6B参数)[16] π0.5优势与功能 - 异构数据驱动泛化:在未见过场景中执行任务,支持10分钟以上长时程操作[18] - 离散-连续混合训练比纯扩散模型效率提升3倍[17] - 多场景适应性:家庭环境清洁/整理任务,跨实体迁移学习能力[20] - 数据效率突破:仅用400小时移动数据(占2.4%)实现强泛化[21] π0.5性能分析 - 真实环境表现:未训练家庭中多阶段任务成功率60%-88%,单任务耗时10-15分钟[25] - 数据规模影响:104个训练位置时性能接近测试环境基线(差距<5%)[26][27] - 关键数据源:跨实体数据移除导致性能下降20%-30%,网页数据对未知物体泛化至关重要[28] A0模型结构 - 分层架构设计:高层空间Affordance理解+低层动作执行[29] - 核心组件包括Position Offset Attention和Spatial Information Aggregation Layer[30] - 预训练策略:100万接触点数据集预训练+标注轨迹微调[31] A0优势与功能 - 跨平台泛化:支持Franka/Kinova等机器人平台无缝部署[34] - 高效空间推理:通过接触点预测降低计算成本[34] - 数据利用效率:少量任务数据即可适应新场景[34] A0性能分析 - Franka机器人平均成功率62.5%,开抽屉任务达75%[35] - Kinova机器人轨迹跟踪任务成功率比基线高20%[35] - 擦黑板任务成功率比MOKA高15%-20%,执行步骤仅为RDT-1B的1/8-1/10[35]
打造万人的自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-06-20 22:06
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位行业专家加入 [2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环体系 [2] - 社区内容涵盖最新技术动态、技术讨论、入门问答及行业求职分享,重点关注具身智能转型、自动驾驶技术趋势及大模型融合等前沿议题 [2] 技术发展方向 - 2025年技术基调确定为VLA(视觉语言行动)端到端2.0体系,涉及视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真等前沿技术栈 [6] - 技术迭代周期持续缩短,需专业社区持续跟踪学术界与工业界的技术演进 [10] - 重点研究方向包括BEV感知、Occupancy网络、世界模型、扩散模型等,其中视觉大语言模型在自动驾驶中的应用成为新热点 [11][55] 知识星球运营 - 国内最大自动驾驶技术社区,成员近4000人,汇集100+行业专家,总结30+技术学习路线 [11] - 提供四大核心板块:学术进展追踪、专家答疑、课程优惠及求职咨询,包含近5000份干货内容并每日更新 [14] - 每周组织1-2场顶会作者或企业团队直播,全年计划100场,聚焦VLA、大模型等前沿主题 [18][19] 数据集与模型 - 汇总主流自动驾驶数据集如nuScenes(20万帧多模态数据)、Waymo Open Dataset(12万场景)等,涵盖2D/3D检测、语义分割等任务 [31] - 视觉大语言模型预训练使用LAION-5B(50亿图文对)、CLIP(4亿图文对)等超大规模数据集 [26] - 扩散模型在3D视觉、视频生成领域形成完整技术体系,相关论文年增长率超过200% [43][44] 行业应用案例 - 智能交通领域应用语言引导车辆检索、视觉问答等技术,提升多模态交互能力 [33] - 自动驾驶系统集成VLM进行行人检测、开放词汇3D分割等任务,如VLPD模型通过自监督提升检测精度34% [34] - 规划控制领域采用GPT-Driver等大模型实现轨迹预测,DRIVEVLM系统将规划误差降低25% [35][36] 人才生态 - 社区成员来自地平线、蔚来、英伟达等头部企业及清华、ETH等顶尖院校,形成产学研协同网络 [114] - 求职板块覆盖TensorRT部署、多传感器标定等实战问题,整理BEV感知等方向高频面试题100+ [71][72] - 职业发展建议显示:传统3D检测岗位需求下降,端到端驾驶、数据闭环等方向人才缺口扩大 [101]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地,VLM(视觉语言模型)和VLA(视觉语言动作模型)成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理,VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA,VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息,已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块:技术分类汇总、顶级学者直播、求职资源、问题解答,形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区,已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集 视觉大语言模型 - 汇总10个Awesome资源库,涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption(2011年1M图文)发展到LAION5B(2022年5B图文) [13] - 自动驾驶专用数据集包括NuScenes(2020年多模态)、Waymo Open Dataset(2020年)等19个主流数据集 [19] 关键技术应用 智能交通系统 - 2022-2023年出现多模态车辆检索系统,支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD(2023)通过视觉语言自监督提升行人检测 [22] - OpenScene(2023)实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver(2023)、DRIVEVLM(2024)等模型将LLM融入运动规划 [23] - 扩散模型应用显著,如DiffusionDrive(端到端驾驶)、MagicDriveDiT(高分辨率视频生成) [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型,实现4D场景理解与高保真可控生成 [30] - 核心突破包括:InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文,跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD(稀疏query范式)、GenAD(新范式)等2024年新方法提升性能25% [46]
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
机器之心· 2025-06-19 17:30
CVPR 2024视觉生成建模前沿进展 核心观点 - 生成模型可能重现识别模型从逐层训练到端到端训练的历史演进路径,当前主流方法(如扩散模型)仍处于"AlexNet前时代"的多步迭代阶段[36][81] - 何恺明团队提出的MeanFlow框架在单步生成任务上实现突破,1-NFE生成FID达3.43,较之前最佳方法提升50%-70%[101][107][108] - 视觉生成建模正朝着端到端、前馈式方向演进,流匹配(Flow Matching)技术成为关键突破口[59][81] 技术演进路径 历史对照 - 识别模型在AlexNet后全面转向端到端训练,取代了DBN/DAE等逐层训练方法[10][15] - 当前生成模型(扩散/自回归)仍依赖多步推理,类似识别模型的"前AlexNet时代"[36] 方法论创新 - 提出平均速度场(Average Velocity)概念替代瞬时速度场,建立MeanFlow Identity理论框架[83][90] - 通过Jacobian-vector product计算时间导数,避免直接积分带来的计算复杂度[92] - 训练损失函数设计包含停止梯度(stopgrad)机制,防止高阶梯度干扰[93][96] 性能突破 ImageNet 256x256实验结果 - MeanFlow-XL/2模型: - 1-NFE生成FID 3.43,较Shortcut-XL/2的10.60提升67%[107] - 2-NFE生成FID 2.20,较iMM-XL/2的7.77提升71%[108] - 参数量与性能呈正相关: - 131M参数版本FID 6.17 → 676M参数版本FID 3.43[103][107] 横向对比 - 显著超越GANs(BigGAN FID 6.43)和自回归模型(MaskGIT FID 6.18)[109] - 接近多步扩散模型性能(DiT-XL/2 250步FID 2.10),但推理步数减少两个数量级[109] 行业研究方向 前沿技术路线 - 一致性模型(Consistency Models)系列:iCT/ECT/sCM等改进版本[110] - 双时间变量模型:CTM/Flow Map Matching/Shortcut Models[111] - 归一化流重构:TarFlow等新型架构[113] 开放性问题 - 如何构建不依赖迭代框架的真正端到端生成公式[113] - 神经网络在捕捉隐式轨迹与简化生成过程间的平衡优化[113] - 生成模型的"AlexNet时刻"尚未到来,存在范式创新空间[81][113]
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 16:41
3D场景生成技术综述 核心观点 - 南洋理工大学S-Lab系统梳理300+篇论文,将3D场景生成方法划分为四大技术范式:程序化生成、基于神经网络的3D表示生成、图像驱动生成、视频驱动生成 [2] - 领域自2021年起进入爆发期,主要驱动力为扩散模型、NeRF、3D Gaussians等新技术涌现 [4] - 当前技术面临生成能力不均衡、3D表征缺陷、数据瓶颈、评估标准缺失四大挑战 [16] - 未来发展方向聚焦高保真生成、物理约束引入、交互式场景、感知-生成一体化四大方向 [12][18] 技术路线分类 程序化生成 - 通过预定义规则/LLM先验自动构建复杂环境(如城市、地形),具备空间一致性优势 [8] - 细分方法包括基于规则生成(地形)、约束优化生成(室内)、LLM辅助生成(布局控制) [8] 神经网络3D表示生成 - 直接生成场景图/参数或3D表征(点云/NeRF/3D高斯),具备强三维理解能力 [8] 图像驱动生成 - 基于2D图像生成模型重建3D结构,包括整体生成(全景图)和迭代生成(图像序列) [9][14] 视频驱动生成 - 融合时空一致性,分为一阶段(端到端)和两阶段(时空分离控制)方法 [9][15] 性能评估维度 - 七大关键指标:真实感、多样性、视角一致性、语义一致性、效率、可控性、物理真实性 [7] - 不同方法在可控性/真实性/效率/一致性之间存在显著权衡关系 [7] 下游应用领域 - 覆盖3D场景编辑、人-场景交互、具身智能、机器人、自动驾驶等关键场景 [2] 未来技术突破方向 - 高保真生成需协调几何/纹理/光照/多视角一致性,提升材质建模与细节捕捉能力 [12] - 物理约束引入需结合可微分物理模拟器,保障物体移动/摆放符合真实规律 [18] - 交互式场景需实现动态响应能力,理解物体可用性/因果关系/多智能体逻辑 [18] - 感知-生成一体化需构建统一架构,双向增强场景理解与生成准确性 [18]
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 09:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
SSM+扩散模型,竟造出一种全新的「视频世界模型」
机器之心· 2025-05-31 12:00
研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术,开发出新型视频世界模型,实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制,难以维持长期一致性,导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案,配合局部注意力机制,显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式,确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法:将token序列分解为(b_h,b_w,T)块,通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块,采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理:通过MLP处理连续动作值,直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案:保持随机长度前缀完全无噪声,强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态,实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长,显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧):SSIM达0.898,显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧):SSIM达0.855,优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧):SSIM达0.454,优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域,而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展,推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 12:16
模型技术 - LaViDa是一种基于扩散模型的视觉-语言模型(VLM),能够联合处理视觉和文本信息,继承了扩散语言模型高速且可控的优点[1] - 不同于流行的自回归VLM,LaViDa将文本生成视为在离散token上的扩散过程,通过前向过程将文本token序列退化为掩码token序列,再通过反向过程转换为有意义的文本[3] - 扩散模型相比自回归模型具有多项优势:可通过调整扩散步骤数量灵活控制速度与质量平衡,能够建模双向上下文,更适合文本填空等任务[4] 模型架构 - LaViDa由视觉编码器和扩散语言模型组成,通过MLP投射网络连接[10] - 视觉编码器使用SigLIP-400M,将输入图像调整为多个视图并独立编码,产生3645个嵌入,通过平均池化减少到980个以提高训练效率[12][13] - 扩散语言模型采用多层Transformer架构,注意力掩码为非因果式,使用扩散语言建模目标而非下一个token预测[13] 训练方法 - 采用两阶段训练流程:预训练阶段仅更新投射算子使视觉嵌入与DLM隐空间对齐,微调阶段对所有组件进行端到端联合训练以实现指令遵循[19] - 通过第三阶段训练得到专用模型:使用1.92万个CoT样本蒸馏得到推理模型LaViDa-Reason,在MathVision等基准上相对提升达18%[25][27] - 使用阶段2数据20%子集进行额外训练得到LaViDa-FIM,支持长度可变的文本填空,在约束诗歌生成任务中实现100%约束满足率[30][32] 性能表现 - 在一般视觉-语言理解任务中,LaViDa-L在MMMU上取得43.3分,优于所有同类模型[22] - 在科学任务中,LaViDa在ScienceQA上取得81.4和80.2分,在AI2D上与Open-Llava-Next表现相当[23] - 在OCR任务中表现尚可但落后于最新自回归模型,主要因平均池化导致细粒度空间信息丢失[23] - 通过控制离散化步数K实现速度与质量权衡:NFE=75%和50%时速度比自回归基线更快且质量更好,NFE=25%时速度明显更快但性能略逊[35]