钉钉企业专属AI平台 - 财报，业绩电话会，研报，新闻 - Reportify

钉钉企业专属AI平台

搜索文档

豆蔻妇科大模型再突破：钉钉行业训练平台+精标数据SFT ，准确率从 77.1%上升至 90.2%

钛媒体APP· 2025-07-10 15:49

医疗AI模型优化 - 通用大语言模型在医疗临床场景中表现欠佳，可能给出不准确或错误建议[1] - 监督微调(SFT)是解决医疗AI模型专业性的关键方案，但需要高质量数据集和迭代优化过程[1] - 豆蔻妇科大模型通过SFT优化，准确率从77.1%提升至90.2%[3] 数据集构建与质量控制 - 数据清理重点关注推理与结果一致性，剔除逻辑链条不完整或违背医学原理的数据[2] - 数据蒸馏校准确保思维链(COT)数据质量，诊断优先级需有明确医学依据支撑[5] - 数据集需覆盖全生命周期病例和常见病与罕见病比例，避免诊断偏好[6] 模型训练优化过程 - 第一阶段(2025年4月)使用1300条精标中文妇科问诊数据，构建基础模型[3] - 第二阶段(2025年6月)通过合成症状数据、重新蒸馏标注COT等优化策略提升性能[3] - 采用"训练-评测-筛选-再训练"循环，持续监控关键指标如测试集准确率和罕见病例识别率[10] 评估体系 - 构建自动化评测和人工审核双重评估体系，采用10分制标准评分[11] - 自动化评测系统基于高性能语言模型，支持批量处理和标准化评分框架[11] - 医生修正反馈机制对边缘案例进行人工审核，形成闭环迭代优化[13] 训练平台与技术 - 使用钉钉企业专属AI平台进行训练调优，覆盖SFT/RFT两种训练方法[17] - 平台提供分布式训练、多Lora部署等加速优化手段，训练时长从26小时缩短至7小时[17] - 未来将探索SFT+RL协同训练范式，结合结构化医学知识和临床直觉[18] 经验与挑战 - 初期过度依赖人工标注导致效率低下，后期调整为"机器蒸馏→专家审核→训练后评估"体系[14] - 训练数据集过度集中常见病导致罕见病识别不足，采用平衡采样策略改进[15] - 医疗大模型需具备多维思考模式，在低容错率环境下提供专业诊断建议[16]

监督微调（SFT）

豆蔻妇科大模型

钉钉企业专属AI平台

监督微调（SFT）

豆蔻妇科大模型

钉钉企业专属AI平台