新闻资讯

致力于提供IT综合服务的高科技企业
赋能企业发展数字化经济

数据治理之数据质量管理

2023-05-23 17:49:27


在企业,数据服务的方式有报表看板、标签指标和数据接口等,而这些数据服务要想为业务带来价值的,其首要前提就是要保证数据的准确性,输出高质量的数据。

低质量的数据会误导业务做出错误的决定,致使行动方向发生偏离。特别是在数据驱动的组织中,是否有准确的、可用的高质量的数据,将直接影响领导层能否做出正确的决策和战略目标的实现。

因此需要特别重视数据的质量问题,针对数据质量进行专项治理。




数据质量管理




国际数据管理协会的《数据管理知识手册》中规定,数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程。


数据质量管理(Data Quality Management)


数据从计划,获取,存储,共享,维护,应用以及它的整个生命周期的每个阶段里都可能引发的数据质量问题进行一些识别、度量、监控、预警等一系列的活动,并通过改善和提高组织的管理水平使数据质量得到一定的提升。

企业进行数据质量管理的目的是通过提升数据的完整性、准确性和真实性,为企业提供坚实、可靠的数据基础,提升数据的使用价值,对企业的日常经营、精准营销、管理决策、风险管理等领域发挥积极有效作用。





数据质量常用指标



如何判断数据质量的优劣?从哪些方面可以评估数据质量?在实践中,我们认为一般可以通过数据质量评估维度进行评估。数据质量评估维度是数据质量的特征之一,它们为度量和管理数据的质量提供了一种途径和标准。在一个具体的数据质量项目中,要选择最适用于业务需求的数据质量维度进行测量,以评价数据的质量。


在《GB/T36344-信息技术数据质量评价指标》中,国家标准化管理委员会明确了数据质量评价指标框架。


1684983153753022256.png


规范性:数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。

完整性:按照数据规则要求,数据元素被赋予数值的程度。

准确性:数据准确表示其所描述的真实实体(实际对象)真实值的程度。

一致性:数据与其他特定上下文中使用的数据无矛盾的程度。

时效性:数据在时间变化中的正确程度。

可访问性:数据能被访问的程度。



国际数据管理协会(DAMA)在其发布的《DAMA数据管理知识体系指南》提出了其数据质量评估框架:

640-26.png




数据质量问题来源



数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。


640-27.png




技术


由于具体数据处理的各技术环节的异常造成的数据质量问题,直接原因是技术实现上的某种缺陷。问题产生的环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面。


信息


由于对数据本身的描述、理解及其度量标准的偏差而造成的数据质量问题。原因主要有:元数据描述及理解错误、数据度量的各种性质得不到保证、变化频度不恰当等。


流程


由于系统作业流程和人工操作流程设置不当造成的。主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程各环节。


管理


由于人员素质及管理机制方面的原因造成的。如人员缺少长期培训计划、没有建立管理数据质量的专门机构,出现数据质量问题后无专人负责、没有明确的数据质量目标等管理缺失、管理缺陷。







数据质量控制策略








数据质量控制策略应该形成数据质量的事前预防机制、事中过程控制和事后监督控制,进行数据质量闭环管理。


    事前预防管理

  • 建立数据标准化模型(对每个数据元素的业务描述、数据结构、业务规则、采集规则等等进行清晰的定义,有了清晰的定义后就通过元数据进行管理数据可以被理解使用,以提高数据价值)

  • 构建数据分类和编码体系(形成企业级的数据资源目录,在使用的时候就能清晰查找数据)


    事中过程控制

  • 强化源头数据质量:可以通过自动化校验或人工干预审核的方式进行管理,采用流程驱动的方式

  • 控制过程数据质量:唯一性或及时性等等方面控制,入库是否及时,是否满足主外键要求,枚举字段是否正确等

  • 数据预警机制:数据质量边界模糊的数据采用数据质量预警机制,就是对数据相似性和关联性指标的进行控制的一种方法,针对待管理的数据元素配置数据相似性算法或者数据关联性算法在数据新增变更,处理应用环节调用预先配置的数据质量的算法进行相似度和关联性分析,给出数据分析的结果来保障事中的质量控制。


    事后监督控制

  • 质量规则:对数据项配置响应的数据质量指标,进行比如包括:数据唯一性、准确性、完整性、一致性关联性、及时性等方面的数据治理的规则配置。

  • 质量检验:对于配置好的数据规则,定义数据源检查任务,可设置手动执行或定期自动执行的系统任务,通过执行检查任务对数据进行检查,形成数据质量问题清单。

  • 数据质量告警:根据质量检查质量问题清单进行数据告警

  • 分析报告:根据质量检验的问题质量清单生成分析报告

  • 流程优化:根据数据质量分析报告、指定数据质量控制改进方案。

  • 监控过程里面可以进行评估和考核工作,定期对系统开展全面的评估:问题率、解决率、解决时效等方面建立评价指标,进行整改评估。根据整改优化的结果进行适当的绩效考核。最终在数据质量监控的过程中反复优化监控质量的步骤





结语



数据质量管理是企业数据治理一个重要的组成部分,企业数据治理的所有工作都是围绕提升数据质量目标而开展的。要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。


数据质量问题对于很多企业已经是迫在眉睫需要解决的问题了,是时候开展数据治理了。数据质量的提升并不是一蹴而就的,做一次数据整改就能解决所有数据质量问题。对于已有数据,通过数据质量管理工具进行校验和清洗,另外需要通过数据标准和数据质量建立起完善的数据质量管控体系,在各个环节进行监控,定期检查数据质量,确定解决方案,并加以改进,不断地提升数据质量。




推荐阅读

/article/1663444221753065472

新时代如何做好数据治理?

05-30 15:16:22

17位诺奖级大咖、6大板块150场活动……作为面向全球科技创新交流合作的国家级平台,2023中关村论坛于5月25日-30日在京举办。今年的中关村论坛,...

/article/1661304674386739200

企业信息化战略化规划

05-24 17:34:35

数字经济时代,企业数字化转型是大势所趋,企业应抓住信息化战略规划的“牛鼻子”,推动规划先行,才能更好地把握时代脉搏,在激烈的市场竞争中赢得主动。...

010-88604250