36.4万超声图文对！中国团队构建首个大规模超声专属数据集，让AI真正读懂临床诊断语义丨CVPR'26

超声AI领域技术突破 - 行业研究团队构建了首个100%专用于超声影像的大规模通用超声图像-文本数据集US-365K，该数据集包含36.4万对超声图像-文本样本、11676个临床真实病例，数据有效率超90%，填补了行业空白[3][11] - 针对超声领域数据稀缺（现有医疗跨模态数据中超声样本占比不足5%）和语义理解困难等核心瓶颈，研究团队提出了专为超声场景设计的语义感知对比学习框架Ultrasound-CLIP[1][3][5] - 该框架通过融入超声诊断分类体系（UDT）知识，实现了对超声临床诊断语义的精准建模与对齐，相关成果已被CVPR 2026接收，且数据集及代码已开源[3][19][20] 标准化数据构建 - 团队首先建立了超声诊断分类体系（UDT），为数据标准化和模型学习提供统一专业依据，该体系包含超声层级解剖分类（UHAT）和超声诊断属性框架（UDAF）两大核心模块[7] - UHAT系统梳理了9大人体系统、52个器官的层级解剖结构，解决了不同数据源中解剖分类混乱的问题[7] - UDAF凝练了临床医生解读超声影像时核心关注的9大诊断维度，并为每个维度定制了临床有效描述词汇表，形成了标准化的诊断描述体系[7] - 基于UDT框架，团队从5个国际权威医疗数据库收集数据，通过多步骤精细化处理（包括视频分解、大模型辅助标注、专家审核等），最终构建出US-365K数据集[11] 定制化模型设计 - Ultrasound-CLIP框架在经典双编码器基础上，创新融入了UDAF引导的异质图编码器和基于UDAF的语义软标签两大核心模块，并采用双目标优化策略[12] - UDAF引导的异质图编码器将文本标注转化为样本专属的异质图，通过图神经网络编码和交叉注意力融合，让文本嵌入融入超声诊断的结构化临床关联，突破单纯关键词匹配的局限[12][13] - 基于UDAF的语义软标签摒弃了传统二进制硬标签，通过计算样本对在9大诊断维度的语义亲和力并加权聚合，构建了连续的语义相似度软标签，以解决报告表述多样带来的语义模糊问题[14] - 框架采用对比损失与语义损失的双目标优化策略，使模型同时实现图像-文本的精准跨模态对齐和语义特征的正则化，真正理解超声的临床语言[15] 模型性能与验证 - 在多任务分类实验中，Ultrasound-CLIP的平均准确率达59.61%，其中病灶边缘、诊断结果等核心临床属性的识别准确率分别达到84.44%和64.05%[16] - 在图像-文本检索任务中，Ultrasound-CLIP实现了图像到文本检索（I2T）@10达37.45%，文本到图像检索（T2I）@50达80.22%的优异性能[17][18] - 在4个公开的超声下游数据集（如乳腺、胃肠超声）的零样本、线性探测、全微调任务中，Ultrasound-CLIP均取得最优性能，展现出强大的泛化能力和多临床场景适配性[18]