OpenAI开源HealthBench,60个国家合力开发5000段真实对话
快讯·2025-05-13 06:44
医疗大模型测试评估集HealthBench - OpenAI开源了专门面向医疗大模型的测试评估集HealthBench [1] - 测试集包含5000段核心测试对话 由60个国家/地区的262名医生打造 [1] - 采用多轮对话测试模式 而非简单答题或选择题 增强了测试难度和真实性 [1] 大模型在医疗领域的性能表现 - GPT-3 5Turbo在医疗保健领域表现仅为16% [1] - GPT-4o性能提升至32% [1] - o3模型性能达到60% 显示显著进步 [1] 小型模型的突破性进展 - GPT-4 1nano性能超越GPT-4o [1] - 成本降低25倍 [1]