浙江大学教授王春晖:高质量数据集是AI大模型训练、推理和验证的关键基础
中国经营报·2025-09-21 22:52
"如果一只坏钟每天只有两次指向正确的时间,人们会不会逐渐忽视它的故障,甚至依赖它所提供的假 象,大语言模型正如这只坏钟,它们依赖互联网海量数据训练,却常常一本正经地'胡说八道'。"9月21 日,首届青海数据要素生态大会上,浙江大学教授、博导,中国科协决策咨询首席专家,全球数字经济 大会中国数据要素50人论坛主席王春晖如是表示。 而"行业专识数据集",包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业 知识,主要用于支撑业务场景模型落地应用。医疗AI离不开高质量的专家标注数据。比如医疗病理数 据标注复杂耗时,必须由临床专家执行以确保准确。 作为最新发展趋势,AI与数据的融合发展,将逐步从以模型为中心到以数据为中心。不过,王春晖指 出,以数据为中心的人工智能并未削弱以模型为中心的人工智能的价值,而是两种范式在构建AI系统 时相互补充交织。 当前,我国数据产业整体进入发展"快车道",数据作为关键生产要素的价值日益凸显。依托于数据产业 支持的人工智能和AI模型的更高阶进化和迭代,对高质量数据的需求尤其迫切。 高质量数据集是基石 基于当前数据产业生态以及AI大模型的训练模式,借助哲学家维特根斯坦的" ...