AI 新悖论:模型越智能,数据越糟糕
36氪·2026-01-08 07:11

文章核心观点 - 人工智能行业的发展面临一个核心悖论:模型越智能,其底层数据的质量可能变得越糟糕,数据质量问题正成为制约AI可靠性与发展的关键瓶颈 [2][4] 数据质量现状与挑战 - 获取高质量的第一方数据变得日益困难,受隐私法规、设备授权限制及平台新规影响 [2] - 市场为填补数据缺口,充斥着循环利用、伪造或推断的虚假信号,导致数据生态系统重数量轻可信度 [2] - 数据过剩已沦为干扰噪音,部分供应商采用填充数据或虚假信号以维持规模,侵蚀了数据的可靠性与真实性 [3] - 劣质数据一旦进入系统便几乎无法分离,当数据规模扩大时,其负面影响将呈指数级放大 [3] 人工智能与数据的悖论 - 人工智能既是数据质量问题的根源(依赖有缺陷的训练数据),也是潜在的解决方案(通过标记不一致来清理数据) [4] - 若基础数据存在缺陷,AI模型产出的洞见必然失真,会自信地给出错误结论或产生“幻觉” [4] - 单靠一家公司无法解决所有数据问题,数据完整性依赖于从采集者、聚合者到终端用户的整个链条 [4] 行业观念与解决方案的转变 - 行业需要从追求数据“规模”转向追求数据“质量”,重点从全面收集转向精选关键数据,构建可验证的高可信度数据流 [7] - 基于可靠信号构建的精简数据集,其产出的洞察往往比海量可疑信息更清晰、更具说服力 [7] - 真正的优势不在于拥有无穷无尽的数据,而在于懂得舍弃什么,更多数据并非总是更好 [8] 实施变革的障碍 - 改变人们对数据的认知比改变技术本身更难,团队可能抵制新工作流程,合作伙伴担忧“精简”意味着失去可见性或控制权 [8] - 重建数据信任至关重要,通过透明化、验证机制和协作来重建信任,已与算法本身同等重要 [8]