幻觉率不到3%,王小川把医生版的DeepSeek免费了
机器之心·2026-01-22 19:00

文章核心观点 - 百川智能发布新一代医疗大模型Baichuan-M3 Plus,在医学推理准确性和低幻觉率上实现里程碑式突破,标志着AI在医疗领域跨过了“敢用、好用、用得起”的关键门槛 [1][3] - 公司通过技术创新(如Fact-Aware RL、六源循证、证据锚定)和工程优化,大幅提升模型在严肃医疗场景下的可靠性与成本效益,致力于成为医生的“第二大脑” [6][16][32] - 公司推出“海纳百川计划”,免费向医疗服务机构提供M3 Plus的API,以推动AI辅助医疗应用的普及和行业生态发展 [20][23] 模型性能与技术创新 - 低幻觉率全球领先:M3 Plus在Halluciation Rate评测中的幻觉率仅为2.6,比GPT-5.2低超过30%,也低于行业标杆Open Evidence,刷新世界纪录 [10] - 首创Fact-Aware RL技术:该技术将生成文本拆解为可核查的医学判断并与权威来源比对,使Baichuan-M3在无工具辅助下大幅降低幻觉,达到SOTA水平 [6][7] - 应用六源循证方法:该方法将循证医学范式引入训练与推理,使模型的每条建议都有专业医学证据支持,将幻觉降低到DeepSeek-R1模型的1/3 [8][10] - 首创证据锚定技术:该技术将引用准确性作为核心训练目标,要求每句医学结论精确对应原始证据,结论与证据段落的匹配准确率超过95% [16][18] 工程优化与成本控制 - 推理效率显著提升:通过Gated Eagle-3投机解码框架,在几乎不增加计算开销的前提下,相比原始Eagle-3实现约15%的推理吞吐量提升 [24][25] - API调用成本大幅降低:围绕医学场景进行系统工程重构,使API调用成本较上一代降低70% [24] - 极致量化方案:针对MoE架构设计定制化量化方案,量化后模型在主流基准和医学评测上推理成本下降30%,同时性能几乎无损 [27] - 成本优势明显:M3 Plus的每Token成本比通用的DeepSeek、千问等模型更低,且服务全中国临床医生一年的成本约在1亿元人民币 [23][28] 市场定位与行业趋势 - 聚焦严肃医疗场景:与试图成为个人“健康管家”的路径不同,公司选择直面医院核心科室,致力于成为医生的“第二大脑” [32] - 医疗成为AI落地主战场:2024年初,OpenAI、Anthropic等巨头相继推出医疗健康产品,国内蚂蚁阿福已获得3000万月活用户,印证了该赛道的核心地位 [31] - 推动行业普及:通过免费开放API的“海纳百川计划”,降低AI工具使用门槛,旨在催熟生态,推动临床和医学教育进步 [20][23] - 发展前景预测:公司判断AI辅助的医疗问诊等应用将在三年以内于国内外大规模落地 [34]