蚂蚁集团发布开源医疗大模型AntAngelMed - 蚂蚁集团联合浙江省卫生健康信息中心及浙江省安诊儿医学人工智能科技有限公司,开源了名为“蚂蚁·安诊儿”(AntAngelMed)的医疗大模型 [2] - 该模型一经发布即登顶多项权威医疗基准测试榜单,成为医疗AI赛道的新入局者 [1][3] 模型性能与基准测试表现 - 在OpenAI发布的HealthBench评测中,AntAngelMed以62.5的评分位列开源模型第一,超越了Baichuan-M2和gpt-oss-120B等模型 [4] - 在HealthBench的子集HealthBench-Hard(专为困难场景设计)上,该模型同样稳居榜首,是继Baichuan-M2后第二个打破该子集32分“魔咒”的开源模型 [16] - 在国家人工智能应用中试基地(医疗)·浙江等共建的MedAIBench评测中,AntAngelMed在医疗知识问答、医疗伦理安全等多个核心维度表现突出 [19] - 在面向中文医疗场景的MedBench评测中,该模型位列自测榜单第一,在医学知识问答、语言理解与生成、复杂医学推理、医疗安全与伦理五大核心维度稳定领先 [21] - MedBench拥有约70万条样本,更贴合国内医疗体系与问诊场景 [21] - 根据一份评测榜单,AntAngelMed的综合得分为68.0,领先于微医医疗大模型(66.6分)、云知声模型(65.7分)及Grok-4(58.4分)等 [22] 模型技术规格与架构 - AntAngelMed是迄今为止参数规模最大的开源医疗模型,参数量达到100B(1000亿) [6] - 模型继承了百灵大模型Ling-flash-2.0的高效混合专家(MoE)架构 [43] - 通过1/32激活比例、无辅助损失+Sigmoid路由策略、MTP层以及Partial-RoPE等核心设计优化,在参数量相近的情况下,实现了相比Dense架构7倍的效率提升,并大幅降低了计算成本 [51][52] - 采用FP8量化与EAGLE3优化进行推理加速,在32并发场景下,推理吞吐在HumanEval、GSM8K和Math-500测试集上分别提升了71%、45%和94% [55] 模型训练与能力特点 - 模型训练分为三阶段:持续预训练融入大量临床指南与医学文献;监督微调增强通用推理能力与人性化表达;引入GRPO强化学习算法与双阶段强化学习路径以对齐人类价值并约束安全边界 [43][45][47][48] - 模型专为真实医疗场景设计,旨在进行深度对齐医学语料、诊疗流程和医学推理链的专业诊疗推理,而非基础的通用医学问答 [12][60] - 应用门槛低,足以在中小型医疗机构支撑实时多轮交互和规模化部署 [7] - 在实际演示中,模型回答速度快,且回答结构逻辑严谨,兼具专业度与人性化,例如在分析症状时会先照顾用户情绪,在解读专业病理报告后能给出后续就医指导 [23][24][27][31][38] 蚂蚁集团的医疗AI战略布局 - AntAngelMed的发布进一步完善了蚂蚁在医疗AI领域的布局,反映了公司对该领域的深入洞察 [56][58] - 在技术层面,该模型作为坚实的基座模型,承载AI在专业场景的规模化落地 [59] - 在产品层面,公司建立了“三端一体”产品矩阵,包括面向用户的AI健康管家、面向医生的好大夫在线、以及面向机构的医疗大模型一体机 [64] - 在组织层面,蚂蚁已将原来的数字医疗健康事业部升级为“蚂蚁健康事业群”,标志着医疗健康成为与支付宝、数字支付等并列的核心业务板块 [66][67] - 公司选择深耕医疗AI,是因为通用大模型与专业场景存在鸿沟,而医疗领域智能密度高,能倒逼模型深度优化,并具备广阔的蓝海市场 [69][72][74] - 蚂蚁多年来在支付、医保领域的深耕,为其打通医疗AI提供了坚实的数据基础 [75]
蚂蚁再把医疗AI卷出新高度!蚂蚁·安诊儿医疗大模型开源即SOTA
量子位·2026-01-09 14:05