精度提升5.2%,英伟达等发布多模态医学影像分割模型,实现三维影像自动分割与交互
英伟达英伟达(US:NVDA) 36氪·2025-03-26 15:18

VISTA3D模型技术突破 - 英伟达联合阿肯色大学医学院、美国国立卫生研究院及牛津大学提出VISTA3D多模态医学影像分割模型 [1][2] - 模型首创三维超体素特征提取方法,通过统一架构实现三维自动分割(涵盖127个解剖结构)与交互式分割双模态的协同优化 [1][2] - 在包含23个数据集的综合基准测试中,分割精度较现有最优专家模型提升5.2% [1] - 在包含14个数据集的测试中,零样本性能提高了50% [2] - 模型采用模块化设计,基于SegResNet构建三维分割核心,自动分支可管理127种人体结构,比传统方法节省60%内存资源 [12][14] - 人工修正模块采用三维点击定位技术,使医生修正效率提升40% [14] - 模型在14个公开数据集上验证,三维自动分割精度(Dice系数0.91±0.05)较传统基线模型提升8.3%,人工修正耗时降低至传统方法的1/3 [15] - 首创三维超体素特征迁移技术,在胰腺分割等零样本任务中实现50%的mIoU提升,标注效率较监督学习提升2.7倍 [15] 三维医学影像行业现状与挑战 - 现代256排螺旋CT可在0.28秒内采集0.16mm层厚的全身扫描数据,7T超高场磁共振能捕捉海马区神经纤维微观走向 [1] - 一套典型腹部CT影像的肝脏分割需45-90分钟,多器官联动的放疗规划标注可能持续8小时以上,专业人员视觉疲劳导致的边界误差率可达12% [1] - 传统方法为每个解剖结构打造独立专家模型,面对包含127个解剖结构的全身CT扫描时,计算资源消耗与结果整合复杂度呈指数级增长 [6] - 现有系统过度依赖预设类别与封闭式训练,在零样本学习与开放域适应方面存在缺陷,难以处理突破标准解剖图谱的罕见病例 [6] - 将二维SAM模型范式迁移到三维医学领域面临挑战,此前三维化的SAM2与SAM3D系统在血管追踪等任务中的Dice系数仍较专业模型低9-15个百分点 [7] - 医学影像解析必须融合解剖学先验知识,现有系统要求临床医生提供高质量示例标注本身违背自动化分割初衷,文本引导可能存在语义对齐偏差 [8][9] 国内三维医学成像与AI融合研究进展 - 上海交通大学提出3D医学图像分割新工作模型PnPNet,性能表现SOTA,优于MedNeXt、Swin UNETR和nnUNet等网络 [16] - 四川大学华西医院研发了基于数据驱动的中国肺结节报告和数据系统,实现了肺结节恶性风险精准分级和个性化管理 [17] - 北京大学科研团队发布“肾脏成像组计划”,拟通过多模态成像技术与人工智能算法构建全肾脏数字图谱 [18] - 中国地质大学团队联合百度提出对比度驱动医学图像分割通用框架ConDSeg,实现了模型精度的进一步提升 [18] - 昆明理工大学与中国海洋大学提出双向逐步特征对齐的未对齐医学图像融合方法,在统一框架内同时进行对齐和融合 [20] - 行业面临数据隐私、算法透明度、模型泛化能力和法规监管等关键挑战 [21]