百川开源医疗大模型 M3,王小川:今年会发布两款 ToC 产品,正在做硬件
Founder Park·2026-01-14 13:34

百川智能医疗大模型Baichuan-M3的技术突破 - 百川智能于近期开源新一代医疗大模型Baichuan-M3,其在全球权威医疗AI评测HealthBench中以65.1分的综合成绩位列全球第一,并刷新了该评测的最高分[3] - 在专门考验复杂决策能力的HealthBench Hard评测中,Baichuan-M3以44.4分的成绩夺冠,首次在医疗领域实现了对GPT-5.2的全面超越[3] - 该模型在低幻觉领域实现全球领先,医疗幻觉率仅为3.5%,为全球最低水平,超越了GPT-5.2[4][6] - Baichuan-M3首次具备了原生的「端到端」严肃问诊能力,能像医生一样主动追问、逐层逼近,以获取关键病史和风险信号,其问诊能力在评测中显著高于真人医生的平均水平[4] - 公司提出了「严肃问诊范式」与「SCAN原则」,将临床问诊的思维过程系统性地「白盒化」[11] - 公司联合150多位一线医生,借鉴OSCE方法搭建了SCAN-bench评测体系,该体系是比HealthBench更全流程、端到端的动态评测新范式[12] - 公司设计了新的SPAR算法,以解决GRPO无法稳定进行长对话训练的问题,使模型能在有限对话轮次中问全、问准关键临床问题[12] - 实验发现,问诊准确度每增加2%,诊疗结果准确度就会增加1%[12] - 评测结果显示,M3在SCAN的四个维度均显著高于人类医生基线水平,并大幅领先于国内外顶尖模型[12] - 百川的医疗应用「百小应」已同步接入M3模型,面向医生与患者开放相关能力[4] 公司对医疗行业痛点与AI机遇的洞察 - 公司认为医疗行业核心痛点包括:好医生供给不足、医患关系不平等且决策与受益分离、三甲医院消耗过度而基层医疗薄弱、以及对人体的医学机制认知不够深入[15][16][17] - AI的爆发可以创造出高质量的医生供给,预计到2025年,公众对此的感受会越来越明显[15] - AI可以填补医患之间的信息与权力gap,推动医患权力的让渡,即医生将一部分权力逐步让渡给患者,让患者能更明白地看病并参与决策[16] - 拥有AI助手后,居家可能成为一个重要的医疗场景,从而从根本上改变中国三级诊疗的格局[17] - 通过AI for Science和收集更丰富的患者真实数据,有机会建立更精准的人体生命模型,做到「看病即入组」[17] - 公司认为,未来的医疗模式既不会动医生的蛋糕,也不会让患者产生焦虑,而是解决权力让渡的问题[16] 公司对技术路径与主战场的看法 - 公司不认同“多模态是主战场”的观点,认为语言是智能的中轴,智力核心在于符号(自然语言、数学语言、代码语言),评判模型能力的核心标准依然是基于符号的[19] - 在医疗场景中,很多是决策问题,图像等感知模型更像是主干上的叶子,其输出结果最终需要符号化并由语言模型进行后续推理[19] - 公司认为未来巨大的增量市场在院外,而非院内,院内更多是执行场所,想象空间有限[20] - 公司策略是「隔山打牛」,最重要的价值是帮助患者,AI直接产生作用是在院外[20] - 此次技术红利发生在语言智能上,而非图像识别上,能力识别不代表真正的智力[20] - 公司很快也会发布和图像相关的模型,目标是把医疗影像诊断做到SOTA水平[19] 公司的产品战略与商业化路径 - 公司从第一天起就想做ToC产品,帮助患者进行辅助决策,价值非常清晰[23] - 公司计划在今年上半年正式入场,并发布两款ToC产品,免费使用但包含付费模块[23] - 第一款产品是「百小应」,医生和患者都能使用,但针对不同身份提供差异化结果:医生版强调循证与文献引用;患者版则强调信息补充、启发式问诊,并将专业语言翻译成患者能理解的内容[23][24] - 公司产品定位是全球独一无二的,特点是信息可复现、专业内容可懂、患者可决策、建议可行动,并最终服务到患者本人[24][25] - 公司不担心商业模式,认为只要跨过医疗专业门槛并为用户创造价值,无论是直接向用户收费,还是通过整合后续医疗、药械资源来收费,都会很容易[23] - 在培养用户心智方面,公司认为需要市场宣传投入、获得医生认可以及产品本身足够好以形成口碑效应[26] - 公司最初选择儿科作为切入点,是从院外、相对轻症且用户焦虑感强的场景切入,未来将继续在「一老一小」、慢病和肿瘤这三个方向重投入[31][32] - 公司正在开发一款与睡眠相关的硬件产品[33] 公司的竞争壁垒与发展理念 - 公司护城河分为三部分:模型本身的技术领先优势、对严肃高价值非共识场景的切入点选择、以及独特的产品形态[27] - 公司认为用反馈推动模型迭代,用户规模带来的更多是传统互联网式的产品迭代优势,模型进化本质上是技术驱动的[21] - 在诊疗责任问题上,公司明确不会触碰法律红线,诊断结论和治疗方案必须由执业医师给出,公司的角色是做好辅助诊断,帮助患者分析利弊以辅助其自主决策,核心是缩短医患之间的信息gap[28] - 公司认为类似OpenEvidence的产品在中国出现的可能性不大,因为中国医生没有使用习惯、非常忙碌、且使用此类工具对其职称评定帮助不大[30] - 公司认为模型能力已经足够支撑其目标,当前重点是建立产品形象和用户信任[29]