AI健康应用爆发，大模型“看病”是否靠谱？我们进行了实测

行业动态与竞争格局 - 自2024年12月中旬起，主要科技公司与独角兽企业密集发布或升级AI健康应用，包括蚂蚁集团的“蚂蚁阿福”、百度的“文心健康管家”、OpenAI的“ChatGPT Health”、京东健康的“知医”以及百川智能的Baichuan-M3，掀起AI医疗热潮[1] - 市场竞争激烈，蚂蚁阿福、小荷AI医生、讯飞晓医已推出独立App，表现出更明显的垂直性特征；夸克、百度将AI健康模块嵌入搜索引擎App；平安好医生、京东健康则在原有App中增加AI功能[18] - 蚂蚁阿福表现突出，其前身是2025年6月推出的AQ，半年后升级并更名为阿福，定位从“AI工具”转向“AI健康朋友”，旨在提高使用频率和用户留存[19][20] - 行业竞争目标逐渐清晰，核心在于打造“Super App（超级应用）”，其特征是“All in One”的功能设计，通过一个入口实现从信息获取到问题解决的闭环[23] - 垂直赛道大模型有机会成为超级应用，但成功与否取决于其对目标用户的留存程度[24] 产品功能与用户体验 - 测试的7款主流健康大模型（小荷AI医生、夸克健康、平安好医生、讯飞晓医、百度文心健康、京东健康、蚂蚁阿福）均具备拍照识别解读报告、拍药盒、拍患处、AI问诊等基本功能[3] - 在解读一份甲状腺体检报告时，7款应用均识别出TSH（促甲状腺激素）指标偏高，并一致倾向于诊断为“亚临床甲状腺功能减退”或类似状态，诊断措辞普遍谨慎，使用“可能”、“提示”、“倾向于”等词汇[4][5] - 在就医建议上存在分歧：夸克健康、讯飞晓医、蚂蚁阿福明确建议用户前往医院就诊；其他应用则建议定期复查或出现相关症状及时就医[6] - 部分应用在交互上做出差异化：小荷AI医生、百度文心健康在问答结束后会追问用户症状；京东健康提供相关的医生问答；小荷AI医生的语言风格更为口语化[7] - 用户反馈显示，AI健康应用的角色更类似于“助手”或“有医学知识的小助手”，用于缓解焦虑、辅助决策，而非替代医生[13][14][15] - 部分应用已整合线上问诊功能，如蚂蚁阿福、百度健康、平安好医生，用户支付费用后可进行图文、语音或视频问诊[16] 技术表现与现存问题 - 大模型在解读体检报告时存在“幻觉”问题：有个别应用将TSH指标错误解读为HCG（人绒毛膜促性腺激素），甚至建议用户“优先排查是否怀孕”，同一错误在测试中出现了两次[1][8] - 技术人员指出，幻觉是大模型的通病，垂类模型也难以百分百消除，只能尽量减少[9] - 百度文心健康在指标分析上表现更深入，其不仅关注异常指标TSH，还提示另一项正常范围指标T3可能因TSH升高而偏低[5] 商业模式与生态整合 - 垂直类健康大模型已成为“引流”入口，功能不局限于单一属性[21] - 部分应用展现出与母公司生态打通的趋势：蚂蚁阿福的“拍药品”功能可跳转至淘宝闪购，寻医问药时可授权使用支付宝查询医保；小荷AI医生的同类功能可跳转至抖音平台购药[22] - 行业对商业化变现持谨慎态度，蚂蚁阿福公开声称其健康问答内容无广告推荐、无商业排名，不受商业因素干扰[23] 监管环境与行业警示 - 监管层已关注AI医疗热潮并陆续发声，北京市在2025年12月30日发布“AI+医疗健康”新政，为行业划出明确边界；国家网信办于2026年1月7日发布《人工智能拟人化互动服务管理暂行办法（征求意见稿）》，设定发展规则[2] - 监管政策强调需秉持包容审慎原则，遵循伦理规范，保障患者信息安全与生命健康安全，禁止用AI完全替代医务人员的专业判断[10] - 已出现医生处方与AI建议冲突的案例，例如有AI建议谨慎使用医生开具的儿童雾化药物[11] - 有公立医院发布案例警示，因患者过分依赖AI问诊，导致患儿病情延误近一个月，从普通呼吸道感染发展为肺炎[11] - 行业专家与医生观点认为，AI咨询健康问题“有用”，但只能当作了解病情、辅助决策的工具，不能算是看病[13]