浙江大学教授王春晖：高质量数据集是AI大模型训练、推理和验证的关键基础

文章核心观点 - 当前大语言模型存在“幻觉”输出问题，其根源在于训练数据质量低下，高质量数据集是AI可信发展的基石 [1][2] - AI发展正从以模型为中心转向以数据为中心，两种范式相互补充，高质量数据对模型训练、推理和验证有关键作用 [2][3] - 提示词工程是提升AI模型效能的关键，能显著提高专业领域应用效率，并生成新的高质量交互数据反哺模型迭代 [4] - 政策层面强调以应用为导向加强高质量数据集建设，产业数智化需以实体经济需求为牵引实现高质量发展 [5] 大语言模型的数据挑战 - 大语言模型训练数据多源自互联网，质量参差不齐，生成内容依赖“概率性匹配”而非“事实性判断”，导致“幻觉现象” [2] - 研究显示，当训练数据集中仅含0.01%的虚假文本时，模型输出的有害内容会增加11.2% [2] - 高质量数据供给不足，尤其是专业领域数据的缺失，是导致模型产生“幻觉”的核心痛点 [2] 高质量数据集的分类与作用 - 高质量数据集分为通识数据集、行业通识数据集和行业专识数据集，是支撑通用大模型和行业模型落地应用的基础 [2] - 行业通识数据集包含需要专业背景理解的行业通用知识，如医疗健康领域的个人属性、健康状况、医疗应用等数据 [3] - 行业专识数据集包含需要较深专业背景理解的特定业务场景专业知识，如医疗病理数据需临床专家标注以确保准确 [3] 提示词工程的价值 - 提示词工程核心是通过精准设计提示语引导大语言模型生成有用内容，优秀工程师需具备专业知识、行业洞察和创意设计能力 [4] - 在工业、医疗、法律等领域，专业提示词工程师能让AI模型效率提升30%以上，例如通过设计精准提示提高医疗AI辅助诊断准确率 [4] - 提示词工程是人与AI的协同对话，此过程产生的新高质量交互数据可反哺数据集迭代，形成“数据→提示词→新数据→更优模型”的闭环 [4] 政策与产业发展方向 - 政策要求以应用为导向持续加强人工智能高质量数据集建设，支持数据标注、数据合成等技术，培育数据处理和服务产业 [5] - 产业数智化需推动以实体经济需求为牵引的高质量发展，加快形成与新质生产力相适应的数智化生产关系 [5]