肺癌筛查的临床挑战与现状 - 肺癌是全球最具侵袭性和普遍性的癌症之一,2020年预估新增病例达220万例,死亡病例达180万例 [2] - 多数肺癌病例在进展至晚期前无明显症状,晚期治疗选择有限,导致五年生存率低于10% [2] - 年度低剂量计算机断层扫描(LDCT)筛查是改善肺癌高危人群预后和生存率的关键策略 [5] - LDCT扫描中偶然发现的肺结节(<3厘米)需要临床决策支持,以决定是采取即时干预还是制定随访方案 [5] 大语言模型在临床决策支持中的研究进展 - 大语言模型(LLM)是基于数十亿单词训练的人工智能系统,其在支持诊断和治疗决策方面的潜力日益受到关注 [5] - 在肺癌领域,LLM已被用于回答非专业人士问题、对CT报告进行数据挖掘以及评估肺结节患者的纵向CT图像 [5] - 近期有研究表明,开源大语言模型DeepSeek-R1在临床决策中的表现与OpenAI的GPT-4o等领先的专有模型不相上下 [5] - 然而,此前的研究多基于医学教科书和学术期刊中的病例报告,在实际临床应用方面存在不足 [5] 多中心基准测试的研究设计与方法 - 复旦大学中山医院谭黎杰教授团队于2025年11月21日在Cell Reports Medicine上发表了一项多中心横断面研究 [3] - 研究旨在评估LLM是否为首次LDCT中发现肺结节的患者提供管理建议的合适决策支持工具 [6] - 研究从三家不同医疗机构收集了真实世界的LDCT报告,准备了148份匿名报告用于评估 [6] - 研究系统地评估了GPT-3.5、GPT-4、Claude 3 Sonnet和Claude 3 Opus四种LLM的可读性、准确性及一致性 [6] - 研究还使用一家医院的报告对最先进的专有模型GPT-4o及开源模型DeepSeek-R1进行了探索性分析 [6] 大语言模型在肺癌筛查中的性能评估结果 - 评估结果显示,Claude 3 Opus生成的建议可读性最高,而GPT-4达到了最高的临床准确性 [3][7] - 各LLM对来自不同医院的报告之间的性能差异并不显著,突显了其对报告模板变化的稳健性及在不同医疗环境中的实用性 [7] - 在探索性分析中,GPT-4o和DeepSeek-R1的表现与GPT-4相当,均优于GPT-3.5 [3][7][8] - 这些发现表明,大语言模型有可能在不同医疗环境中增强肺癌筛查的临床决策支持 [3][10]
复旦大学最新Cell子刊:DeepSeek-R1、GPT-4等大语言模型可增强肺癌筛查的临床决策
生物世界·2025-11-28 12:05