语料运营公共服务统一门户

搜索文档
互联网数据“耗尽”后,高质量训练数据从哪里获得?专家热议
南方都市报· 2025-07-29 09:53
人工智能数据治理与发展 - 2025世界人工智能大会聚焦大模型时代数据治理与伦理建设 行业共识认为互联网数据将在2026年左右被大模型训练耗尽 需建设新的高质量数据集 [1] - 高质量数据集获取路径包括垂直行业专业数据(如金融 教育 文旅) "众包众创"联合学术机构 以及具身智能等领域的真机采集 [5][6] - 行业呼吁形成数据"联盟"共享语料 但垂直行业数据作为公司护城河 共享机制仍需探索 [5] 数据标注行业转型 - 数据标注行业正从人力密集型转向知识密集型 主力从业者从四五线城市大专生转向高校学者和行业专家 [3] - 大模型需求推动标注内容复杂化 涉及学术难题和专业知识 需构建强推理思维链数据和行业语料库 [3] - 简单标注工作或逐渐被机器取代 高阶发展趋势为专家人工编写后机器二次合成 [4] 合成数据应用与挑战 - 合成数据成为应对训练数据短缺的新思路 但存在缺陷 误差 歧视等质量问题 [5] - 算法偏见可能导致合成数据放大原有偏见 存在"Garbage in garbage out"风险 [5] - 合成数据存在伦理和隐私风险 逆向工程可能泄露原始数据中的个人信息 [5] 语料服务创新实践 - 库帕思科技启用全国首个语料运营公共服务统一门户 其语料工具链平台已开发400多个功能模块 应用于医疗 教育等领域 [6] - 大模型语料治理与传统数据治理差异显著 需处理高密度 高专业性的非结构化数据(如数学推理 化学分子式) [6][7] - 传统数据治理侧重清洗数值型结构化数据 而大模型需结合图像识别 NLP等技术处理多模态内容 [6][7]