AI医学

搜索文档
Nature Medicine:盛斌/黄天荫团队开发眼科AI大模型,显著提升眼科医生诊疗水平和患者预后
生物世界· 2025-09-01 16:30
基础模型在眼科临床应用的突破性研究 - 开发了多模态视觉-语言眼科基础大模型EyeFM 具备基于1450万张眼部图像的多模态预训练能力 支持单模态影像任务(如疾病检测与病灶分割)和多模态影像任务(如跨模态诊断和集成模态诊断)[6][7] - 通过云端协同模式在全球多地域(亚洲、北美、欧洲及非洲)基层及眼科医生中前瞻性部署 验证其对诊疗能力的提升效果[3][6] - 首次为AI医学领域提供大模型赋能基层与专科诊疗的高级别循证证据 为可临床转化的基础模型研发与验证提供新范式[3] 随机对照试验设计与结果 - 采用平行单中心双盲随机对照试验设计 纳入668名参与者(平均年龄57.5岁 男性占比79.5%)随机分配至干预组(EyeFM辅助)和对照组(标准诊疗)[11] - 主要终点显示干预组正确诊断率显著提升至92.2%(对照组75.4%) 转诊率提升至92.2%(对照组80.5%)[11] - 次要终点显示临床报告标准化评分中位数提升至37分(对照组33分) 干预组自我管理依从率达70.1%(对照组49.1%) 转诊建议接受度达33.7%(对照组20.2%)[11] 临床辅助系统效能验证 - 邀请全球44位眼科医生参与验证 覆盖基层及专科医疗机构 部署后评估显示良好用户接受度[11] - 系统支持自动生成临床规范影像报告和精准医学问答 减少医生文书工作量 成为诊疗过程中的智能助手[6] - 能显著提升眼科医生诊疗水平和患者预后 实现临床自适应的健康指导与智能交互服务[3][13]
谷歌Nature震撼发文,Gemini教练暴打专家,医学双料冠军,秒出睡眠报告
36氪· 2025-08-28 09:39
产品发布 - 谷歌DeepMind发布基于Gemini微调的个人健康大语言模型PH-LLM 专攻睡眠和健康领域数据分析[1][6][8] - PH-LLM可将可穿戴设备数据转化为可视化健康建议 实现全天候个人健康监测与分析[3][5][6] - 模型通过两阶段训练完成:先针对睡眠健康领域微调 再增加多模态适配器处理传感器数据[12] 性能表现 - 在睡眠医学考试中PH-LLM得分79% 超越人类专家76%和Gemini Ultra 1.0的77%[3][15][17] - 在健身认证考试中获得88%得分 显著超过人类专家71%的表现[3][15] - 在通用医学基准测试MedQA和PubMedQA中保持原有性能 分别为81%和73%[22][23] 技术优势 - 模型能基于30天可穿戴数据识别睡眠规律 例如检测到65-70岁男性平均睡眠时间仅5小时28分钟并提供改善建议[10] - 在所有难度层级的睡眠医学题目中均领先Gemini Ultra 1.0 尤其在难题上优势更明显[24][25] - 通过多层感知机适配器将20项传感器特征映射到潜在空间 在预测睡眠障碍指标时AUROC和AUPRC显著优于提示方法[34] 数据验证 - 研究创建包含857个案例和3,271组问答的专用数据集 由多位领域专家共同审定[26] - 在健康管理案例分析的三个维度(运动处方、恢复方案、训练准备度)表现与人类专家相当[28] - 人类评估显示PH-LLM生成的健康建议与专家水平几乎无差别[5] 行业意义 - 该技术突破证明大语言模型可将被动健康监测转化为主动健康管理 代表预防医学的未来发展方向[35][36][37] - 解决可穿戴设备数据缺乏上下文、分析算力要求高、临床解读难度大等传统痛点[8] - 模型仅需传感器数据即可预测用户睡眠质量 无需临床建议即可提供实用指导方案[5][8]
AI 横扫医学问答,赢麻了?牛津大学团队实锤 AI 临床短板
36氪· 2025-05-13 16:04
大模型在医疗场景的应用表现 - 牛津大学研究显示大模型(GPT-4o/Llama 3/Command R+)单独诊断准确率达94.7%,处理方式推荐正确率64.7%,但用户协作后疾病识别正确率骤降至34.5% [3][5] - 实验采用1298名普通人模拟10个就医场景,AI辅助组表现不及对照组(使用搜索引擎或自身知识) [3][5] - 模型在MedQA考试中超越人类60%通过线,但临床模拟场景表现不稳定 [10] 人机协作瓶颈分析 - 用户输入症状信息不全导致AI误诊,平均仅采纳AI提供的1.33个选项(总建议2.2个)且三分之一选择错误 [7] - 现实场景存在碎片信息/临场慌乱/沟通误会等干扰因素,AI缺乏主动追问和引导能力 [9][11] - 实验环境与真实医疗场景存在差距:健康受试者模拟病例、API接口缺乏连续对话、未考虑病患焦虑情绪 [11] 行业启示 - 当前AI医疗评估体系存在缺陷,实验室高分无法直接转化为现实应用效果 [11] - 医疗AI发展需从模型性能竞赛转向人机交互优化,解决"最后一公里"落地难题 [12] - 大模型在标准问答任务(如MedQA)表现优异,但临床决策支持系统需重构交互逻辑 [10][11]