反超OpenAI，百川开源大模型医疗能力登顶世界第一

核心观点 - 百川智能发布开源医疗增强大模型Baichuan-M2，在医疗能力上反超OpenAI最新开源模型GPT-OSS-120B，成为全球开源模型第一 [2] - Baichuan-M2在权威医疗评测集HealthBench上得分60.1，超越所有前沿开源大模型，包括Qwen3-235B、Deepseek R1、Kimi K2等 [4] - 该模型在医疗复杂问题解决能力上比肩GPT-5，成为全球第二款在HealthBench Hard评测中超过32分的模型 [12][14] - 通过AI患者模拟器和端到端强化学习等创新技术，Baichuan-M2实现了医疗能力的飞跃式提升 [18][19][20] - 模型针对中国临床场景进行了专门优化，更符合中国医疗指南和诊疗实践 [24][25][26] - 在真实病例测试和多学科会诊场景中展现出专家级临床思维和诊断能力 [29][30][32][33] 技术突破 - 采用32B较小尺寸实现医疗能力反超120B大模型，在HealthBench上得分60.1 vs GPT-OSS-120B的57.6 [4] - 量化后模型可在RTX4090单卡部署，成本降至DeepSeek-R1 H20双节点部署的1/60 [7] - 基于Eagle-3架构优化的MTP版本在单用户场景下实现74.9%的token速度跃升 [8] - 医疗数据强化学习不仅未降低通用能力，反而提升数学、指令遵循、写作等核心性能 [10] - 在AIME24、AIME25、CFBench等通用评测中全面超越Qwen3-32B [11] 医疗能力 - 在包含5000个多轮医疗对话的HealthBench评测集上表现优异，该评测由262位医生制定48562条评价标准 [4] - 在特别困难的HealthBench Hard子集上得分34.7，仅次于GPT-5 [14] - 医疗知识更新速度和全面性已超越资深医生，能为人类医生提供强大支持 [17] - 采用SOAP临床思维流程，展现出主任医师级专家思维 [32] - 在真实病例诊断中能精准锁定病因并提供执行性治疗建议 [33] 中国场景优化 - 严格遵循中国卫健委《原发性肝癌诊疗指南》(2024版)，推荐方案与西方指南存在差异 [26] - 针对中国患者特点(如乙肝相关肝癌)和医疗资源优势进行深度优化 [26][28] - 在中国临床诊疗场景的可用性明显优于GPT系列模型 [25] 技术创新 - 首创AI患者模拟器，用真实数据构造上万个不同特征的AI患者，模拟数百万次诊疗过程 [2][20] - 构建大型验证系统，从医疗正确性、完备性、安全性等多维度评估模型输出 [19] - 采用多阶段强化学习策略，将复杂任务分解为分层训练阶段 [19] - 构建天级更新的权威医学数据库，涵盖病例、论文、指南等多类数据 [22] - 采用医学数据、通用数据、数学推理数据2:2:1的比例训练，防止综合能力退化 [22]