数据增强

搜索文档
超低标注需求,实现医学图像分割,UCSD提出三阶段框架GenSeg
36氪· 2025-08-12 11:24
医学图像分割技术 - GenSeg是一种用于训练语义分割模型的三阶段框架,通过数据增强模型与语义分割模型的紧密耦合,显著提升分割模型性能 [2] - 该技术可应用于不同分割模型如UNet和DeepLab,提升其在同数据集和跨数据集场景下的表现 [4] - 框架采用端到端训练方式,包含语义分割模型和掩膜到图像的生成模型两个核心组件 [9] 技术优势 - 在足部溃疡分割任务中,GenSeg-UNet仅需50张图像即可达到Dice分数0.6,相比传统UNet需要的600张减少12倍数据量 [13] - 在皮肤病变分割任务中,GenSeg-DeepLab使用40张ISIC图像即在DermIS测试集上达到Jaccard指数0.67,标准DeepLab使用200张图像仍未达到该水平 [13] - 胎盘血管分割任务中,GenSeg-DeepLab实现0.52 Dice分数,显著优于分离式策略的0.42 [15] 技术原理 - 采用三层优化框架:首阶段训练生成模型参数,次阶段生成合成图像-掩膜对训练分割模型,末阶段根据验证损失反向更新生成模型结构 [9] - 通过多层级优化过程直接以分割性能为目标生成高保真图像-掩膜对,确保合成数据质量与训练效果 [10] - 实验证明端到端优化机制优于分离式策略,且不依赖特定生成模型类型 [17] 应用效果 - 在11个医学图像分割任务和19个数据集上展现强泛化能力,涵盖多种疾病、器官与成像模态 [20] - 同域与跨域设定下均可带来10-20%绝对性能提升,训练数据量仅需现有方法的1/8到1/20 [20] - 支持3D数据分割任务扩展应用 [5] 行业影响 - 突破医学图像分割中标注数据稀缺的关键瓶颈,显著降低医生手工标注负担 [1] - 解决医疗领域数据隐私限制导致的超低数据困境,提升深度学习在数据匮乏场景的可行性 [1][10] - 研究成果发表于Nature Communications期刊,由加州大学圣地亚哥分校团队开发 [8]
ERMV框架:针对操作任务的数据增强,显著提升VLA模型跨场景成功率
具身智能之心· 2025-07-28 21:19
研究背景 - 机器人模仿学习依赖4D多视图序列图像,但高质量数据收集成本高且稀缺,限制了视觉-语言-动作(VLA)模型的泛化与应用 [4] - 现有数据增强方法存在局限:传统方法仅针对单张静态图像编辑,多视图编辑依赖固定相机位置,视频生成模型受限于计算成本和误差累积 [4] 核心挑战与解决方案 - ERMV框架通过单帧编辑和机器人状态条件,高效编辑整个多视图序列,解决动态视图和长时间范围内的几何与外观一致性、低计算成本下扩大工作窗口、确保关键对象语义完整性等挑战 [6] 视觉引导条件 - 采用视觉引导策略解决文本提示歧义问题,通过图像修复或手动编辑生成目标引导图像,经CLIP编码器处理为嵌入向量,确保编辑在所有视图和时间步中一致传播 [7] - 数学表达:$${\mathcal{C}}_{g u i d e}=E_{C L I P}\big(x_{g u i d e}^{\prime}\big)$$ [8] 机器人与相机状态注入 - 注入相机位姿、机器人动作、运动动态条件等状态信息,经MLP和位置编码处理后输入网络,确保准确渲染场景 [9][12] 稀疏时空模块(SST) - 通过稀疏采样将长序列问题重构为单帧多视图问题,在固定计算预算下处理更宽的时间范围,降低计算需求 [10] - 建模联合概率分布学习稀疏帧集特征,保证时空一致性 [13] 极线运动感知注意力(EMA-Attn) - 通过学习运动诱导的像素偏移,适应动态场景,确保几何一致性 [14] - 注意力计算:$$A t t e n t i o n_{E M A}(q_{i},K_{j},V_{j})=\sum_{m=1}^{M}s o f t m a x\bigg(\frac{q_{i}\cdot k_{j,m}}{\sqrt{d_{k}}}\bigg)v_{j,m}$$ [18] 反馈干预机制 - 引入多模态大语言模型(MLLM)作为自动检查器,对比原始图像和生成图像,检查关键对象一致性 [21] - 仅在模型出错时请求专家介入,最小化标注负担 [21] 扩散模型基础 - 基于潜在扩散模型(LDM),在潜在空间中进行扩散过程,编码器将图像映射为潜在表示,模型训练目标是预测添加的噪声 [23] 仿真环境实验 - ERMV在SSIM、PSNR、LPIPS等指标上大幅优于单帧编辑方法Step1XEdit,体现优异的时空一致性 [25][27] - 用ERMV增强数据训练的RDT和Diffusion Policy模型在原始场景和未知杂乱场景中的成功率显著高于基线 [27][28] 真实世界实验 - ERMV能成功编辑真实机器人操作序列,准确保留核心对象的形态和运动 [29] - ERMV增强数据训练的ACT模型在真实世界中的平均成功率从0.52提升至0.91,未知场景从0.02提升至0.89 [30][32] 扩展能力 - 基于单帧初始图像和动作序列,ERMV可预测生成多视图时空图像序列,作为低成本策略验证工具 [35] - 将仿真图像编辑为真实风格,生成"伪真实"4D轨迹,减少对高保真物理仿真的依赖 [37] 消融实验 - 移除运动动态条件和EMA-Attn后,模型无法生成真实运动模糊 [39] - SST模块相比密集采样减少50%GPU内存需求,提升模型性能 [41][43] - 禁用反馈干预机制后,长序列编辑出现质量下降和语义偏移 [43]