Workflow
豆蔻妇科大模型
icon
搜索文档
豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%
钛媒体APP· 2025-07-10 15:49
医疗AI模型优化 - 通用大语言模型在医疗临床场景中表现欠佳,可能给出不准确或错误建议[1] - 监督微调(SFT)是解决医疗AI模型专业性的关键方案,但需要高质量数据集和迭代优化过程[1] - 豆蔻妇科大模型通过SFT优化,准确率从77.1%提升至90.2%[3] 数据集构建与质量控制 - 数据清理重点关注推理与结果一致性,剔除逻辑链条不完整或违背医学原理的数据[2] - 数据蒸馏校准确保思维链(COT)数据质量,诊断优先级需有明确医学依据支撑[5] - 数据集需覆盖全生命周期病例和常见病与罕见病比例,避免诊断偏好[6] 模型训练优化过程 - 第一阶段(2025年4月)使用1300条精标中文妇科问诊数据,构建基础模型[3] - 第二阶段(2025年6月)通过合成症状数据、重新蒸馏标注COT等优化策略提升性能[3] - 采用"训练-评测-筛选-再训练"循环,持续监控关键指标如测试集准确率和罕见病例识别率[10] 评估体系 - 构建自动化评测和人工审核双重评估体系,采用10分制标准评分[11] - 自动化评测系统基于高性能语言模型,支持批量处理和标准化评分框架[11] - 医生修正反馈机制对边缘案例进行人工审核,形成闭环迭代优化[13] 训练平台与技术 - 使用钉钉企业专属AI平台进行训练调优,覆盖SFT/RFT两种训练方法[17] - 平台提供分布式训练、多Lora部署等加速优化手段,训练时长从26小时缩短至7小时[17] - 未来将探索SFT+RL协同训练范式,结合结构化医学知识和临床直觉[18] 经验与挑战 - 初期过度依赖人工标注导致效率低下,后期调整为"机器蒸馏→专家审核→训练后评估"体系[14] - 训练数据集过度集中常见病导致罕见病识别不足,采用平衡采样策略改进[15] - 医疗大模型需具备多维思考模式,在低容错率环境下提供专业诊断建议[16]
钉钉上跑出的第一个行业专属大模型落地:准确率超 90% 的妇科专业大模型
AI前线· 2025-07-10 15:41
豆蔻妇科大模型 - 钉钉企业专属AI平台成功训练出首个高准确度专业领域大模型"豆蔻妇科大模型",诊断准确率达90.2% [1] - 该模型由壹生检康研发,基于开源大模型训练,初始版本准确率77.1%,经钉钉平台优化后提升至90.2% [2][3] - 模型功能覆盖主诊断、潜在诊断、检查建议、处置方案等全流程,响应时间从传统问诊30分钟缩短至数秒 [3] 行业应用价值 - 妇科大模型可缓解专业医生资源不足问题,尤其惠及职场女性和偏远地区用户 [2][3] - 模型落地标志着钉钉生态从SaaS/服务商扩展到AI创业者领域 [1][6] - 未来计划扩展至皮肤科等更多垂直医疗领域,提供居家健康指导 [4] 技术实现路径 - 钉钉提供全流程支持:数据标注、算力调度、模型调优等关键环节 [2][5] - 需解决数据安全、行业知识差异、工作流程定制等专业领域挑战 [5] - 采用"基础模型+行业数据"训练模式,实现从通用到专精的转化 [2][5] 钉钉生态战略 - 首个垂类大模型案例展示钉钉全链路行业大模型构建能力 [5] - 重构生态体系:新增AI创业者板块,开放平台支持开发者从零构建行业模型 [6] - 提供AI解决方案咨询、人才培训等配套服务,瞄准中小企业智能化需求 [6] 行业趋势 - 垂直行业大模型被视为AI技术落地下一个趋势,需解决行业特异性问题 [5] - 通用大模型(Qwen/DeepSeek/GPT)逐渐基础设施化,企业转向专属模型开发 [5]
四个理工男“硬刚”妇科诊断推理大模型,更小参数量实现更高准确率
钛媒体APP· 2025-04-29 10:22
AI行业竞争格局 - 大厂聚焦参数升级的"军备竞赛",中小创业者深耕大厂无暇顾及的细分赛道[1] - 医疗行业被视为"数字化攻坚的最难阵地",通用大模型难以满足其高准确性和严谨性需求[1] - 越来越多的AI企业意识到细分赛道重要性,加大垂直领域行业大模型投入[1] 医疗垂直大模型必要性 - AI在医疗场景应用需专业算法和高质量数据才能达到80分以上水平[1] - 通用大模型如医学生具备广泛医学认知但缺乏临床实战经验[1] - 垂直大模型需上万例临床实践和持续学习才能成为专家级诊疗能力[2] 公司实践案例 - 壹生检康专注女性健康3年,积累丰富行业经验和庞大用户群体[4] - 通用大模型存在"幻觉"问题,特定场景无法控制其自由发挥[4] - 公司选择32B参数模型在计算资源和回复效果间取得最佳平衡[5] 模型训练过程 - 第一轮使用1400例蒸馏数据训练准确率仅50%[5] - 第二轮经医生标注后准确率提升至60%[6] - 补充600例数据解决数据失衡问题,最终准确率达77.1%[6] 模型性能对比 - 豆蔻妇科大模型整体准确率77.1%,高出DeepSeek 7%[13] - 在下腹包块诊断中准确率优势达17.1%[14] - 在月经推迟诊断中更全面考虑激素类药物影响[15] 成本优化措施 - 仅使用一张英伟达4090 GPU进行训练[16] - 最终模型参数量仅为DeepSeek R1的1/20[17] - 选择INT8量化版本对准确率影响可忽略不计[17] 应用场景规划 - toC端解决女性健康问题描述困难和病耻感问题[17] - toB端赋能基层诊所和大健康机构弥补专业资源不足[18] - 模型设计带推理过程便于专业人员评估其正确性[18] 未来发展方向 - 强化学习可使模型从垂直领域拓展到全医学领域[19] - 强化学习让模型具备解决通用问题和泛化能力[19] - 目标使模型成为既优秀又全面的医生[19]