主数据管理(MDM)
搜索文档
人工智能如何重新定义主数据管理
36氪· 2026-02-11 14:20
传统主数据管理面临的挑战 - 传统主数据管理最初设计的环境已不复存在,当前数据量更大、数据源更多样化、变化速度更快,传统方法难以跟上时代步伐[2] - 数据质量与一致性维护困难,在数据源多样化、数据量庞大的生态系统中,大规模维护数据质量愈发困难[4] - 手动工作量大,数据管理、去重、规则调优和异常处理主要依赖人工,拖慢速度并将可扩展性与人力直接挂钩[4] - 可扩展性不足,许多主数据管理平台难以在数据量增长时保持性能并有效执行治理和完整性[4] - 主数据访问权限通常仅限于专家,限制了协作并使业务团队与数据脱节[4] - 利用外部来源丰富主数据通常成本高昂、速度缓慢且难以大规模实施[4] - 传统主数据管理模型难以清晰表示和维护客户、产品、组织等实体之间复杂的深层联系[4] 生成式人工智能增强的核心主数据管理功能 - 生成式人工智能通过引入上下文关联、学习和自动化,改变核心主数据管理功能的执行方式,这些功能目前主要依赖人工操作和僵化逻辑[5] - 智能管理:生成式人工智能通过自动对管理队列进行优先级排序、提出解决方案并解释原因来辅助人工审核,减少人工工作量、缩短解决周期,同时确保最终决策权仍掌握在人手中[7] - 基于上下文的标准化:生成式人工智能利用大型语言模型和检索增强生成技术添加上下文信息,使名称、地址或分类等值能够基于其含义和真实世界上下文进行规范化,而不仅仅是基于预定义的逻辑[7] - 无需固定阈值的智能匹配:生成式人工智能利用语言模型进行语义比较,允许基于语义相似性而非精确匹配或数值阈值来评估记录,提高匹配准确率,尤其适用于缩写、不完整或不一致的数据[7] - 更智能的生存决策:生成式人工智能引入上下文评估,根据数据质量信号、使用上下文和佐证信息来判断哪个值最可靠或最合适,从而生成更一致、更可靠的黄金记录[8] - 上下文感知数据质量管理:生成式人工智能能够结合上下文评估数据,识别出只有在考虑语义时才会显现的问题,例如不合理的属性组合或错误的分类,从而更早地检测到质量问题[8] 生成式人工智能在三大核心功能中的应用案例 - 数据质量和验证:在医疗保健数据示例中,生成式人工智能能通过语义逻辑推断并建议为缺失邮政编码的记录A填写邮政编码62704,智能地将记录A、B和C归为同一实体,并将记录C的电话号码一位数差异识别为可能的拼写错误建议更正,所有更正和推断都附带可审计的解释说明[10][11] - 核心实体识别和黄金记录创建:在医疗机构记录示例中,生成式人工智能通过语义实体解析,正确识别出尽管缩写不同但指向同一家医院的记录D和E并将它们合并,同时将记录F识别为相关的子实体并链接到主医院记录下,确保报告准确性[12][13] - 管理和治理执行:生成式人工智能能根据上下文应用策略,例如识别客户记录中的“内部合作伙伴”语义线索并将其从面向外部的列表中屏蔽,或在满足同意要求前阻止设备数据流的导出,并以通俗易懂的语言向数据管理员解释问题,使补救措施更快、更一致[14][16] 生成式人工智能赋能的具体主数据管理用例 - 智能增强:生成式人工智能可从网络等可信外部来源自动查找信息,为主数据添加缺失或有用的信息,例如自动查找并添加客户记录中缺失的地址[19] - 业务规则/数据验证:生成式人工智能会检查重要数据值在上下文中是否合理,而不仅仅是检查字段是否已填写,例如标记出主要地址明显不是医疗机构的医疗保健专业人员[19] - 上下文感知标准化和增强:生成式人工智能理解不同的词语可以指代相同的事物并据此进行标准化,例如知道“Mike”和“Michael”通常指同一个人[19] - 自动化参考数据管理:生成式人工智能将源系统中混乱或不一致的值映射到公司使用的清晰、标准值,例如将“心脏科”、“心脏病学”和“心脏专科医生”映射到单一的标准专科[19] - 监管合规性监控:生成式人工智能通过将主数据与已知列表或条件进行比对,帮助检测其是否违反监管规则,例如标记因监管限制而不应使用的实体[19] - 关联关系验证与管理:生成式人工智能可以理解实体之间的关联方式,例如识别出诊所属于某个医院网络[20] - 数据异常检测与解决:生成式人工智能能够识别与类似记录相比异常或错误的数据值,不仅可以标记问题,还能提出修复建议[20] - 基于上下文的匹配:生成式人工智能通过比较含义而非精确值来判断两条记录是否代表同一个现实世界的实体,有助于匹配不完整或不一致的数据[20] - 基于上下文的生存策略:当记录合并时,生成式人工智能会根据可靠性和使用情况来决定应该保留哪些值,超越了简单的来源优先级规则[20] - 自动化元数据整理和编目:生成式人工智能可自动描述和标记数据,例如将数据集标记为“客户主数据——仅供内部使用”[21] - 自动化管理队列解析:生成式人工智能可自行解决简单的数据问题,仅将复杂案例发送给人工处理,从而减少管理员需要手动审核的项目数量[21] 生成式人工智能在主数据管理生命周期中的集成 - 数据采集与导入:当数据从源系统到达时,生成式人工智能能够及早发现明显问题、补充缺失的上下文信息并将数值与已知标准进行比对,帮助清理数据,减少后续返工并提高进入母带制作阶段的数据质量[24] - 主数据管理:在核心步骤中,生成式人工智能支持匹配、存续管理和数据管理,有助于更准确地识别重复项,在决定保留哪些值时提供上下文信息,并通过提出带有解释的清晰操作建议来减少人工队列工作[24] - 数据发布与使用:在共享主数据时,生成式人工智能可确保将正确的数据传递给正确的用户,下游系统能够接收到更清晰、更可靠的数据,并可能改变访问方式,例如用户可通过自然语言提问直接从黄金记录中提取答案[24] - 技术实现:生成式人工智能依赖于现有的数据存储、元数据和主数据管理引擎,并在此基础上添加智能层,利用元数据、参考数据和历史决策来提供更优的建议和检查,而传统的主数据管理组件则继续执行核心流程[26] 行业发展趋势与前瞻性应用 - 渐进式改进:许多公司正在现有主数据管理基础架构之上,以专注且务实的方式应用生成式人工智能,例如开展小型试点项目用于数据丰富、验证或管理自动化,以证明价值并建立信任[27] - 功能扩展:主数据管理的功能范围不断扩展,通常与客户关系管理、电子邮件或分析工具等数字渠道相结合[27] - 技术基础现代化:各组织正从点对点集成转向API、模块化服务和微服务,以使主数据管理更易于扩展和重用[27] - 管理与目录智能化:通过自动化减少人工管理,用更动态、可搜索的数据目录取代静态元数据存储库[27] - 探索数据架构:一些组织开始跨域联合主数据,同时保持共享标准和集中治理[27] - 以人工智能为核心重新设计:领先组织重新设计主数据管理,使人工智能系统能够协调匹配、数据丰富、管理和验证等核心活动,并可能将其作为传统解决方案的长期替代方案[28] - 赋能团队:利用人工智能助手和自然语言界面支持数据验证、血缘关系检查和策略执行等任务,使业务用户无需深厚技术知识即可与主数据交互[28] - 合规自动化:系统自动监控内部政策和外部法规的合规情况,减少人工干预、提高合规一致性并降低风险[28] - 构建互联数据生态系统:主数据旨在跨更广泛的生态系统运行,连接不同参与者,带来生态系统层面的洞察和新商机[28] - 采用先进技术:知识图谱用于表示主数据实体之间复杂的关联关系,并采用行业标准以支持互操作性和更丰富的数据交换[29]