Workflow
多模态扩散模型
icon
搜索文档
清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测
机器之心· 2025-12-30 12:06
行业背景与核心问题 - 心血管疾病是人类主要致死病因之一 对个体的连续健康监测至关重要[3] - 现实监测面临两难困境:可穿戴设备获取的PPG信号便捷但易受噪声、运动伪影和信号中断影响 而高质量的ECG或动脉血压信号采集则可能带来不适、风险与成本 难以长期连续部署[3] - 高质量的心血管信号难以长期便捷获取 这是智能健康监测系统面临的现实困境[2] 现有研究局限 - 过去研究将问题拆解为单点任务 如信号去噪、缺失片段补全或信号模态转换[4] - 多数现有模型是任务特定、模态特定的 难以在同一个模型中同时覆盖多任务、多模态、多条件建模[4] - 现有方法难以充分利用心血管信号之间天然存在的相关性与互补性[4] UniCardio核心创新与目标 - 清华团队提出统一的多模态生成框架UniCardio 旨在在单扩散模型中同时实现心血管信号的去噪、插补与跨模态生成[2] - 该框架旨在同时完成两大类核心能力:信号恢复(包括去噪和插补)和模态转换(合成难以获取的目标信号)[7] - 其目标是为真实场景中的心血管监测与分析提供更完整的信号视角 为人工智能辅助医疗提供新的解决思路[2][7] 技术方法概述 - UniCardio将多模态心血管信号视为同一生理系统的不同观测 学习它们之间的多模态条件分布关系[11] - 采用扩散模型“从噪声到数据”的生成范式 使用Transformer架构建模时间与模态维度上的依赖关系[11] - 为每个模态配置模态专用的编码器与解码器 并在注意力计算中引入任务特定注意力掩码以约束信息流 使不同任务能在同一网络中被联合学习[11] - 引入面向生成任务的持续学习范式 以“条件模态数逐步增加”的方式分阶段纳入不同任务 以分配足量训练样本并平衡任务贡献 缓解灾难性遗忘问题[13] - 这种持续学习范式带来了跨任务-模态组合的知识迁移效应[13] 实验结果与性能 - 在信号去噪、插补与跨模态转换等任务中 UniCardio相较于多种任务特定基线方法展现出稳定而一致的优势[15] - 在仅使用单一条件模态时 UniCardio已能达到或超越相应的任务特定方法 引入额外条件模态后 生成误差可显著降低 波形恢复稳定性也随之提升[16] - 例如 在PPG与ECG插补任务中 引入多模态条件后 生成误差下降至原来的三分之一量级[16] - 在PPG→ECG等跨模态生成任务中 UniCardio在参数规模远小于部分生成基线的情况下 依然取得了更优或更稳健的结果[16] - 统一建模多模态条件分布本身即可带来跨任务的知识迁移收益 无需为每一种模态组合单独设计模型[17] 下游应用验证 - 将生成信号直接用于下游心血管应用验证 包括异常状态检测与生命体征估计[18] - 在多个未见域数据集上 基于UniCardio生成信号的下游任务性能显著优于直接使用噪声或间断信号 并在多数情况下接近使用真实信号的结果[18] - 在心电异常检测任务中 由UniCardio处理得到的ECG信号使检测准确率与特异性大幅提升 逼近真实ECG信号的表现[18] - 在心率与血压估计任务中 基于生成信号的预测误差也显著低于仅使用可穿戴信号或简单统计基线的情况[18] - 结果表明UniCardio生成的信号在功能层面具备直接支撑下游分析的可用性[19] 可解释性与临床价值 - 生成结果不仅追求误差数值降低 还尽可能保留可被临床专家识别的诊断特征[21] - 可视化展示表明 多类典型ECG异常形态在生成信号中得到复现 临床评估验证了其诊断特征的一致性[21] - 扩散模型逐步去噪的生成过程提供了可观察的中间状态 有助于人类专家理解信号的生成演化过程 从而增强模型的可解释性与可信度[23] 总体意义与应用前景 - UniCardio将心血管信号生成从单任务、单模态组合 推进到了一个更加统一且具备可扩展性的框架[25] - 这类统一的多模态生理信号生成范式不仅有望服务于医疗健康领域中的稳健监测与辅助诊断[25] - 也可能进一步拓展到脑科学、心理学与认知科学等同样依赖多源生理信号的研究场景[25]
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 12:16
模型技术 - LaViDa是一种基于扩散模型的视觉-语言模型(VLM),能够联合处理视觉和文本信息,继承了扩散语言模型高速且可控的优点[1] - 不同于流行的自回归VLM,LaViDa将文本生成视为在离散token上的扩散过程,通过前向过程将文本token序列退化为掩码token序列,再通过反向过程转换为有意义的文本[3] - 扩散模型相比自回归模型具有多项优势:可通过调整扩散步骤数量灵活控制速度与质量平衡,能够建模双向上下文,更适合文本填空等任务[4] 模型架构 - LaViDa由视觉编码器和扩散语言模型组成,通过MLP投射网络连接[10] - 视觉编码器使用SigLIP-400M,将输入图像调整为多个视图并独立编码,产生3645个嵌入,通过平均池化减少到980个以提高训练效率[12][13] - 扩散语言模型采用多层Transformer架构,注意力掩码为非因果式,使用扩散语言建模目标而非下一个token预测[13] 训练方法 - 采用两阶段训练流程:预训练阶段仅更新投射算子使视觉嵌入与DLM隐空间对齐,微调阶段对所有组件进行端到端联合训练以实现指令遵循[19] - 通过第三阶段训练得到专用模型:使用1.92万个CoT样本蒸馏得到推理模型LaViDa-Reason,在MathVision等基准上相对提升达18%[25][27] - 使用阶段2数据20%子集进行额外训练得到LaViDa-FIM,支持长度可变的文本填空,在约束诗歌生成任务中实现100%约束满足率[30][32] 性能表现 - 在一般视觉-语言理解任务中,LaViDa-L在MMMU上取得43.3分,优于所有同类模型[22] - 在科学任务中,LaViDa在ScienceQA上取得81.4和80.2分,在AI2D上与Open-Llava-Next表现相当[23] - 在OCR任务中表现尚可但落后于最新自回归模型,主要因平均池化导致细粒度空间信息丢失[23] - 通过控制离散化步数K实现速度与质量权衡:NFE=75%和50%时速度比自回归基线更快且质量更好,NFE=25%时速度明显更快但性能略逊[35]