超声AI领域技术突破 - 行业研究团队构建了首个100%专用于超声影像的大规模通用超声图像-文本数据集US-365K,该数据集包含36.4万对超声图像-文本样本、11676个临床真实病例,数据有效率超90%,填补了行业空白[3][11] - 针对超声领域数据稀缺(现有医疗跨模态数据中超声样本占比不足5%)和语义理解困难等核心瓶颈,研究团队提出了专为超声场景设计的语义感知对比学习框架Ultrasound-CLIP[1][3][5] - 该框架通过融入超声诊断分类体系(UDT)知识,实现了对超声临床诊断语义的精准建模与对齐,相关成果已被CVPR 2026接收,且数据集及代码已开源[3][19][20] 标准化数据构建 - 团队首先建立了超声诊断分类体系(UDT),为数据标准化和模型学习提供统一专业依据,该体系包含超声层级解剖分类(UHAT)和超声诊断属性框架(UDAF)两大核心模块[7] - UHAT系统梳理了9大人体系统、52个器官的层级解剖结构,解决了不同数据源中解剖分类混乱的问题[7] - UDAF凝练了临床医生解读超声影像时核心关注的9大诊断维度,并为每个维度定制了临床有效描述词汇表,形成了标准化的诊断描述体系[7] - 基于UDT框架,团队从5个国际权威医疗数据库收集数据,通过多步骤精细化处理(包括视频分解、大模型辅助标注、专家审核等),最终构建出US-365K数据集[11] 定制化模型设计 - Ultrasound-CLIP框架在经典双编码器基础上,创新融入了UDAF引导的异质图编码器和基于UDAF的语义软标签两大核心模块,并采用双目标优化策略[12] - UDAF引导的异质图编码器将文本标注转化为样本专属的异质图,通过图神经网络编码和交叉注意力融合,让文本嵌入融入超声诊断的结构化临床关联,突破单纯关键词匹配的局限[12][13] - 基于UDAF的语义软标签摒弃了传统二进制硬标签,通过计算样本对在9大诊断维度的语义亲和力并加权聚合,构建了连续的语义相似度软标签,以解决报告表述多样带来的语义模糊问题[14] - 框架采用对比损失与语义损失的双目标优化策略,使模型同时实现图像-文本的精准跨模态对齐和语义特征的正则化,真正理解超声的临床语言[15] 模型性能与验证 - 在多任务分类实验中,Ultrasound-CLIP的平均准确率达59.61%,其中病灶边缘、诊断结果等核心临床属性的识别准确率分别达到84.44%和64.05%[16] - 在图像-文本检索任务中,Ultrasound-CLIP实现了图像到文本检索(I2T)@10达37.45%,文本到图像检索(T2I)@50达80.22%的优异性能[17][18] - 在4个公开的超声下游数据集(如乳腺、胃肠超声)的零样本、线性探测、全微调任务中,Ultrasound-CLIP均取得最优性能,展现出强大的泛化能力和多临床场景适配性[18]
36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR'26
量子位·2026-04-12 10:03