钉钉企业专属AI平台

搜索文档
豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%
钛媒体APP· 2025-07-10 15:49
医疗AI模型优化 - 通用大语言模型在医疗临床场景中表现欠佳,可能给出不准确或错误建议[1] - 监督微调(SFT)是解决医疗AI模型专业性的关键方案,但需要高质量数据集和迭代优化过程[1] - 豆蔻妇科大模型通过SFT优化,准确率从77.1%提升至90.2%[3] 数据集构建与质量控制 - 数据清理重点关注推理与结果一致性,剔除逻辑链条不完整或违背医学原理的数据[2] - 数据蒸馏校准确保思维链(COT)数据质量,诊断优先级需有明确医学依据支撑[5] - 数据集需覆盖全生命周期病例和常见病与罕见病比例,避免诊断偏好[6] 模型训练优化过程 - 第一阶段(2025年4月)使用1300条精标中文妇科问诊数据,构建基础模型[3] - 第二阶段(2025年6月)通过合成症状数据、重新蒸馏标注COT等优化策略提升性能[3] - 采用"训练-评测-筛选-再训练"循环,持续监控关键指标如测试集准确率和罕见病例识别率[10] 评估体系 - 构建自动化评测和人工审核双重评估体系,采用10分制标准评分[11] - 自动化评测系统基于高性能语言模型,支持批量处理和标准化评分框架[11] - 医生修正反馈机制对边缘案例进行人工审核,形成闭环迭代优化[13] 训练平台与技术 - 使用钉钉企业专属AI平台进行训练调优,覆盖SFT/RFT两种训练方法[17] - 平台提供分布式训练、多Lora部署等加速优化手段,训练时长从26小时缩短至7小时[17] - 未来将探索SFT+RL协同训练范式,结合结构化医学知识和临床直觉[18] 经验与挑战 - 初期过度依赖人工标注导致效率低下,后期调整为"机器蒸馏→专家审核→训练后评估"体系[14] - 训练数据集过度集中常见病导致罕见病识别不足,采用平衡采样策略改进[15] - 医疗大模型需具备多维思考模式,在低容错率环境下提供专业诊断建议[16]