OpenAI开源HealthBench，60个国家合力开发5000段真实对话

医疗大模型测试评估集HealthBench - OpenAI开源了专门面向医疗大模型的测试评估集HealthBench [1] - 测试集包含5000段核心测试对话由60个国家/地区的262名医生打造 [1] - 采用多轮对话测试模式而非简单答题或选择题增强了测试难度和真实性 [1] 大模型在医疗领域的性能表现 - GPT-3 5Turbo在医疗保健领域表现仅为16% [1] - GPT-4o性能提升至32% [1] - o3模型性能达到60% 显示显著进步 [1] 小型模型的突破性进展 - GPT-4 1nano性能超越GPT-4o [1] - 成本降低25倍 [1]