Workflow
未来医生AI工作室
icon
搜索文档
中国团队首次在Nature子刊发布医疗AI标准,未来医生MedGPT摘得全球桂冠
量子位· 2026-01-21 12:09
行业标准与评估框架 - 中国团队在《npj Digital Medicine》(JCR影响因子15.1,中科院医学大类1区Top期刊)上首次发表了用于评估医疗大模型真实临床能力的系统性框架研究[1] - 该框架名为CSEDB(临床安全性与有效性双轨基准),首次基于临床专家共识,将安全性与有效性分开考量,为评估医疗AI真实临床能力建立了标准化基准[4] - CSEDB的评估逻辑核心并非模型“知道多少”,而是关注模型“如果这样判断,会发生什么”,即以医疗后果为中心[21] - 该框架在指标设计中引入了风险权重机制,根据潜在临床风险赋予1到5级权重,涉及误诊、禁忌用药等高风险的指标对总评分影响显著[16][17] - 为支撑评估,专家团队构建了覆盖26个临床专科、包含2069个开放式问答条目的数据集,场景高度贴近一线实际临床病例推演[20] - 该框架从根本上改变了评估目标,兼具专业性和完整性,方法论可复现、可推广,具备部署导向和监管友好性[22] - 行业竞争正从能力展示阶段进入责任定义阶段,CSEDB的发布被视为一个清晰的市场信号[8] 模型评估结果 - 在CSEDB框架下,专家团队评估了包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7在内的全球主流大模型[26] - 评估结果显示,在总体得分、安全性和有效性三个核心维度上,中国未来医生团队推出的MedGPT均位列第一[27] - MedGPT在安全性指标上与其他模型拉开了显著差距,并且是唯一一个在安全性评分上超过有效性的模型[28] 领先模型技术架构 - MedGPT是一个原生为临床使用场景设计的医疗大模型,其核心架构设计了快慢双系统模式[30][31] - “快系统”针对高度常规、路径清晰、风险可控的临床场景,采用轻量化推理结构,在医学知识约束下快速生成结论,响应时间可压缩到百毫秒量级[32][33] - “慢系统”针对高复杂度、高风险场景,会主动拉长推理链,引入多阶段临床演绎路径,并进行交叉校验[36] - 系统会根据问题的风险等级、信息不确定性及潜在后果,动态决定是否从快系统升级到慢系统[36] - 模型引入了专门的风险调和与控制机制“ACC层”来处理两套系统输出之间的冲突,当结论不一致时会优先触发风险约束,必要时拒绝输出并引导转向人工就医[37][38] - 模型通过结构化方式内化了医学知识体系,使推理更接近医学决策的真实路径[39] - 模型在持续使用中进化,每周来自超过一万名医生的两万条诊疗反馈会纳入训练,形成数据飞轮,每月准确率稳定提升1.2%-1.5%[40] 核心工程与竞争壁垒 - MedGPT的核心壁垒体现在医学逻辑被显式建模、临床风险被量化控制以及临床反馈形成的动态闭环三层机制的叠加[46] - 医学逻辑显式建模:将临床决策过程拆解为从病史分析到结论验证的结构化路径,每一步对应明确的医学知识来源和校验规则,形成可追溯的逻辑链条[42][43] - 临床风险量化控制:通过快慢系统分流和ACC层风险调和,将风险前置到推理过程中,在高风险场景下主动提高验证门槛或触发拒答[44][45] - 临床反馈动态闭环:真实诊疗反馈直接作用于慢系统的推理路径修正和风险策略调整,牵引模型的进化方向[46] - 这些工程化能力让产品划清了责任边界,构成了其难以被简单复刻的核心壁垒[45][46] 产品化与商业路径 - 未来医生以通过CSEDB严格验证的MedGPT为核心引擎,构建了精准匹配不同医疗角色与场景的产品矩阵[49][52] - 产品矩阵包括为患者提供7*24小时严肃诊疗服务的“未来医生”,以及深度嵌入医生诊疗决策流程的“未来医生AI工作室”[57] - 在基层医疗场景下,推出了为资源有限机构提供辅助支持的“未来家医”[52] - 技术通过CSEDB验证获得“准生证”,产品矩阵则将其置于真实场景中反复淬炼,二者相互牵引,驱动系统向更可用、更可控的方向持续演进[53] - 公司目标是通过AI新技术实现优质医疗资源的无限复制,改变医疗资源供给不足的困境,最终使高品质的健康与医疗服务变得人人可及[52] - 医疗AI的竞争正从追求榜单上的智能,转向兑现诊疗中的信任,技术、评估、产品三者的协同成为能否深入临床的决定性因素[56]
GPT-5败下阵,这款中国AI拿下全球第一,众多医生已在用它做诊断
量子位· 2025-11-17 21:23
政策背景与行业痛点 - 基层医生工作负荷高,病种繁杂且节奏快,缺乏时间进行查文献、请会诊等操作[1][2] - 慢病患者增多导致随访任务日益繁重,诊室外工作难以应付[3] - 国家卫健委发布《促进和规范"人工智能+医疗卫生"应用发展的实施意见》,将"人工智能+基层应用"列为八大重点方向之首[4] - 政策目标为到2030年基层诊疗智能辅助应用基本实现全覆盖[5] 未来医生AI工作室核心优势 - 其核心模型MedGPT在由32位顶尖临床专家组织的多模型临床实战测评中,击败OpenAI-o3、DeepSeek-R1等国际前沿模型,夺得临床"安全"与"有效性"评测全球第一[13] - 测评基于2069道从真实病历中整理的开放式问题,MedGPT总分第一,领先第二名15.3%,安全性得分比全部模型平均水平高出近70%[16][17] - 模型底层架构围绕临床推理、安全可控、循证链可追溯打造,目标为每一句话都安全、可验证、能复盘,与通用大模型根据概率生成内容的路线完全不同[19] 临床决策AI助手功能特点 - 专为诊中环节设计,充当医生的"智能参谋",帮助在高强度工作中快速厘清风险点、用药安全及遗漏关键[23][24][25] - 工作方式贴合临床实际:支持口语输入、思考过程可视化、自动梳理症状链与风险点、只引用高等级医学证据并附证据卡[26] - 在典型疑难病例盲评中,于所有临床决策维度上均优于GPT-5和OpenEvidence[30][31] - 多位专家反馈其能帮助医生更快看到风险点,理清复杂病例,让基层医生也能像专家那样看病例[29][34] 患者随访AI助手功能特点 - 专为诊后慢病管理设计,能自动提醒患者复查、记录症状、调整生活方式,并对普通健康咨询即时答复[44][48] - 当出现药物调整、症状加重等医疗问题时会自动上浮医生确认,并能识别"胸闷""头晕"等高危词进行风险预警[48] - 社区医生及大医院专家反馈其能帮助关注已出院但仍需管理的患者,让随访更省心,实现"看得更远"[45][46][47] 产品设计理念与市场认可 - 产品设计坚持"人机协同"哲学,医生是所有诊疗行为的核心,AI仅提供思路提示、证据索引和风险提示,医生掌握最终判断权[62][63] - 通过可回溯、可解释、可预警三层设计,精准击中医生对安全性、可控性的需求,提供三重安全感[59][60][64] - 已被数十位全国学科主委纳入日常使用,被临床主委专家们一致认为是AI赋能基层医疗的"最佳实践"[67][68][74]
中国医生需要怎样的AI?GPT-5、OpenEvidence都输掉实战后,我们有了答案
机器之心· 2025-11-12 21:23
政策导向与行业现状 - 国家卫健委发文将“人工智能+基层应用”定为未来五年核心目标,目标是到2030年实现基层诊疗智能辅助应用基本全覆盖[4][5] - 政策热度与现实存在“倒挂”,尽管GPT浪潮下大城市三甲医院争相部署AI,但占比高达95%的基层医疗机构和医生仍游离在外,至少八成以上基层医生不会使用AI[7] 医疗AI的核心要求 - 临床专家一致认为,能真正帮到基层的AI必须满足两点:安全有效、人机协同[2][13] - 医疗AI的第一性原理不是聪明而是安全,技术的迭代应以临床价值为衡量标准,以患者安全为底线[11][12] MedGPT模型的安全性与有效性 - MedGPT在由26个专科、32位临床专家制定的评估中,使用2069个真实病例场景进行测试,在安全性和有效性上力压5大全球主流模型[12] - 具体得分显示,MedGPT安全性得分高达0.912,比第二名高出近20个百分点,有效性得分为0.861,远高于其他模型,在危重病识别等高风险指标上表现接近满分[16][17] 临床决策AI助手产品价值 - 该产品针对基层医生信息不全、经验不足的痛点,能快速调取高等级医学证据和“专家智能体”给出结构化决策报告[23] - 在临床实战评测中,该产品在8大维度(如多病共存、用药相互作用等)全面优于美国选手GPT-5和OpenEvidence[27][28] - 产品提供“安全卡”与“证据卡”,所有证据均来自高等级文献并标注指南来源,让基层医生决策更自信[25] 患者随访AI助手市场机遇 - 研究显示超过91.2%的医护人员认为诊后管理至关重要,但受限于人力仅44%的机构能开展定期随访,超过半数患者处于“失管”状态,存在系统性短板[33] - 该产品能7x24小时工作,承接院外随访工作,内置“专家智能体”将上级医院经验沉淀为数字化方案,提升基层管理效率和质量[35][38] 公司产品定位与竞争优势 - 公司产品基于独有的MedGPT临床认知决策系统,并与临床专家深度共创,人机协作模式是其灵魂所在[40] - 产品被数十位学科主委信任,被认为是AI赋能基层的“最佳实践”,其底层逻辑是AI作为超级助手而非取代医生[39][41][44]