文章核心观点 - 谷歌发布了新一代开源多模态医疗大模型MedGemma 1.5及配套语音识别模型MedASR,旨在解决AI在真实临床环境中理解多模态医学数据(如影像、文本、语音)的痛点,推动AI医疗进入多模态时代 [1][2][3] 谷歌最新AI医疗产品突破 - MedGemma 1.5模型定位:是首个公开发布的开源多模态大语言模型,能够解读高维医学数据、通用二维图像和文本 [1] - 模型特点:参数量仅为40亿,可在普通消费级显卡或高性能工作站上流畅运行,降低了使用门槛 [1] - 多模态能力融合:模型融合了高维医学影像(CT、MRI、病理切片)、纵向医学影像(胸部X光时间序列)、解剖定位(胸部X光片特征定位)以及医学文档理解(从实验室报告提取结构化数据) [1] - 配套语音模型:同时发布了专为医疗微调的语音识别模型MedASR,可将医患对话转为文本,并与MedGemma无缝集成,形成“看图”与“听音”的完整解决方案 [1] MedGemma 1.5性能提升详情 - 高维医学影像分类: - CT疾病分类准确率从58%提升至61% [7] - MRI疾病分类准确率从51%提升至65%,在脑部、关节等复杂结构识别上进步显著 [8] - 全切片病理描述质量ROUGE-L分数从0.02大幅提高至0.49,达到专用模型PolyPath的水平(0.498),可生成临床可用的描述 [9] - 纵向时序影像分析: - 在MS-CXR-T时序评估基准上,宏观准确率从61%提升至66% [11] - 能有效捕捉病灶动态变化,如判断肺炎浸润是否吸收,支持随访决策 [12] - 通用2D医学图像解读: - 在内部综合单图基准(涵盖X光、皮肤、眼底、病理切片)上,整体分类准确率从59%提升至62%,表明新增高维任务未牺牲基础性能 [12][13] - 结构化医学文档理解: - 从非结构化PDF或文本中提取检验项目、数值、单位的宏平均F1分数从60%提升至78%(提升18个百分点),可自动构建结构化数据库,实现多源信息融合 [14] MedASR语音识别性能 - 错误率大幅降低:与通用模型Whisper large-v3对比,MedASR在胸部X光口述错误率上降低58%,在不同专科口述中错误减少82% [16] 谷歌在AI医疗领域的战略布局 - 投资布局:通过旗下风险投资及私募股权部门投资众多生命科学公司,尤其偏爱AI制药领域;例如,Google Ventures在2021年医疗健康领域的51笔投资中,药物研发投资达28笔,超过半数 [17] - 合作拓展:凭借AI与云计算服务,与拜耳、辉瑞、施维雅、梅奥诊所等药企和医院合作,探索从药物研发到临床诊疗的智能解决方案 [17] - 内部业务矩阵:除Google Health外,还拥有Verily、Calico等专注于不同领域的业务单元 [17] - 前沿科学研究:旗下Google DeepMind推出了AlphaFold(蛋白质结构)、AlphaGenome(DNA调控)、C2S-Scale(单细胞)等重要科学模型,其CEO因AI蛋白质结构预测贡献获2024年诺贝尔化学奖 [17] - 医疗大模型演进:先后研发Flan-PaLM(在美国医学执照考试USMLE取得67.6%成绩,比此前最佳模型提高17%)、Med-PaLM(登载《Nature》,回答准确率与真人相近)、Med-PaLM M(全球首个全科医疗大模型,在14项测试任务中接近或超越现有SOTA) [19] - 近期进展:去年宣布了包括AI制药模型TxGemma、获FDA批准的手表脉搏停止检测功能、多智能体系统“AI联合科学家”、儿科个性化癌症治疗模型等六项进展 [19]
AI医疗,谷歌(GOOGL.US)放大招!开源全球首个“AI全能医生”,告别算力焦虑,医院一键部署!