数据中台下的数据质量提升之道
当前越来越多的组织认识到了数据的重要性,为了发挥数据的价值,数据仓库、大数据平台、数据中台的建设如雨后春笋。但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着低效的、错误的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题
当前越来越多的组织认识到了数据的重要性,为了发挥数据的价值,数据仓库、大数据平台、数据中台的建设如雨后春笋。但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着低效的、错误的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。如何在数据中台搭建数据质量管理体系,形成常态化的数据质量管理流程是决定数据中台运营应用的重要因素。
目录:
1.数据质量问题的产生来源
2.数据质量问题域及分类
3.数据质量管理体系建设的五个原则
4.数据质量管理框架及关键技术
5.数据质量管理的最佳实践
1、数据质量问题的产生来源
现在的数据集成融合就和古人筑堤坝一样,古人筑堤坝是为约束河水,让自然资源为我所用,发挥自然资源的价值;今人做数据集成融合,建数据中台,是为了挖掘数据价值,发挥数据资源的价值,让数据资源为企业的业务创新发挥价值。
在企业信息化初期,各类业务系统恣意生长,这个阶段就像没有修筑大堤前的黄河,河水虽然漫流,但是河道宽阔,虽然也有数据问题,但不明显。
在企业进行数字化转型的背景下,尤其是搭建了数据中台的组织,需要按照统一的结构和标准把各类数据集成起来,就像筑堤束水之后的黄河,泄流不畅、决口不断等问题纷纷出现,数据不一致、不完整、不准确等各种问题扑面而来。
大数据时代数据集成融合的需求会愈加迫切,不仅要融合企业内部数据,也要融合外部(互联网等)数据。如果没有对数据质量问题建立相应的管理策略和技术工具,那么数据质量问题的危害会更加严重。据IBM统计,数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上。
2、数据质量问题域及分类
数据质量问题从大的方面可以划分为技术、业务和管理问题域。技术问题域包括数据校验不够、默认值使用不当等问题,通常是由于系统建设和数据处理导致的。业务问题域细分为信息问题域和流程问题域,业务上存在多渠道数据创建、不合理的数据变更流程的问题。管理问题域包括数据责任人不明确、没有奖惩制度,缺少培训等。
下图是企业数据创建、加载、汇总、分析到展现的5个步骤,很显然,步骤①~⑤任何一步出错都会导致整个结论分析失真。
业务操作部门在数据录入过程可能输入错误的数据。这决定了数据源的质量。
在数据抽取、加载工程中导致数据记录丢失、数据重复等问题。
在数据加工、转换过程中,由于数据加工、转换的代码鲁棒性和稳定性不够,导致的数据加工结果出现的错误。
数据计算汇总过程中,导致的数据的错误。
分析展现工具将加工好的数据展现给数据分析人员、管理决策人员出现的错误。
在某种意义上讲,分析者所做出的决策的正确性来源于企业信息源的质量、数据仓库本身的质量、数据集市的质量以及数据仓库各过程的质量。我们可以看到,在数据应用过程中5步中有4步是技术或管理造成的,只有1步会是录入环节导致。而恰好是这一步是数据中台无法管理和解决的业务系统的数据。因此从根本上解决数据质量问题,从源头解决是最有效的途径,在辅助数据中台从技术和管理上加强测试、规范和监控,那么数据质量问题的解决就水到渠成了。
3、数据质量管理体系建设的五个原则
总结古人治理黄河水患,主要有两种策略,一种是“疏通”,上策迁移民众和中策分流黄河水患,都是具体体现;另一种是“围堵”,加高增厚堤防,抑制河水烂漫。
治理数据质量的问题可以应用下古人的智慧和考量。采用规划顶层设计,制定统一数据架构、数据标准,设计数据质量的管理机制,建立相应的组织架构和管理制度,采用分类处理的方式持续提升数据质量,这是数据质量管理“疏”的方式。而单纯依赖技术手段,通过增加ETL数据清洗处理逻辑的复杂度,使用数据质量工具来发现ETL数据处理中的问题属于“堵”的方式,只能解决表面的问题,不是根本的解决方法。事实上这种方式也在好多企业中使用,其根本目的在于提高ETL处理的准确度,做法无可厚非,毕竟找别人的问题之前,先要保证自身是没有问题的。
按照多个行业实施数据质量管理项目的经验,数据质量管理应该是采用“疏”和“堵”相结合的方式,通过这种方式解决数据质量问题有5个原则。如下图所示:
1)全程监控原则:全程监控是针对数据生命周期全过程中各环节进行数据质量监控,从数据的定义、录入、获取、计算、使用的全过程进行质量监控。数据定义阶段,对数据模型、字典枚举值进行监控,判断是否遵循了统一的标准。数据录入阶段对输入的合法性进行校验等,数据获取阶段对数据记录数、数据一致性进行检核等。明确各部门在数据全生命周期中的责任,全方位保证数据质量。
2)闭环管理原则:从问题定义、问题发现、问题整改、问题跟踪、效果评估5个方面建立问题处理的闭环机制。从业务、技术两个维度出发做问题定义,由工具自动发现问题,明确问题责任人,通过邮件、短信等方式进行通知,将问题及时通知到责任人,跟踪问题整改进度,建立相应的质量问题评估KPI,保证数据质量问题管理闭环。
3)全员参与原则:数据质量提升涉及到组织多个部门,包括不仅限于数据提供方、数据消费方、数据质量管理员等。尤其在数据质量问题定义和整改阶段需要多方人员的参与才能达到效果。在数据质量问题定义阶段,需要数据责任人、业务专家、数据使用人员对数据问题校验规则达成一致,共同制定数据检核范围、数据问题条件等。问题整改阶段,要由数据责任方、数据质量管理员和技术人员,共同定位问题原因并进行整改。
4)借助工具,自动检核:数据质量工具保证问题发现的效率。在数据使用过程中深入分析已发现的数据质量问题的成因,及时由IT部门将其转化为技术规则落地到系统中,通过技术手段自动检核数据质量问题,提升数据质量检核效率。数据质量工具在采集到的数据模型元数据的基础上,通过配置自动生成检核规则的脚本,并通过设置数据质量检核任务的运行周期,定时检核数据质量问题,并将数据质量问题数据保存到系统中,便于用户进行查看和定位问题。
5)提升意识、主动管理:数据质量管理工作需要提升全员数据质量意识,形成组织数据治理的文化氛围。数据使用方发现数据质量问题后,及时主动的进行问题的上报,避免数据问题对业务造成影响。数据责任人接到问题通知后,应主动配合数据管理部门进行问题整改。数据管理部门应该从事前预防数据问题出发,制定企业数据标准并加强宣贯,减少因为缺少统一的标准、规范导致数据质量问题。
4、数据质量管理框架及关键技术
在“五个原则”的指导下开展数据质量提升工作,从系统层面需要制定数据质量管理的功能框架。数据质量系统应具备数据质量规则管理、检核脚本管理、任务管理、检核结果管理、数据质量报告等功能,以度量规则和检核脚本管理为主线,通过自身任务管理模块或者第三方调度为触发点,帮助企业建立统一的数据质量管理工具。
从系统实现的角度上,要解决三个关键技术。
1、检核脚本的自动生成。数据质量检核实际上是按照脚本执行并筛选出有问题的数据。随着数据质量度量规则的增多,通过人为手工编写脚本的方式就无法应对快速增加的度量规则,通常一个中等规模的金融企业,就具备上千条度量规则。因此通过配置的方式,利用脚本生成引擎自动生成检核脚本,是数据质量工具必须具备的功能。
2、多线程检核架构。检核脚本的执行时间是影响能够及时查看到数据质量问题的另一个关键因素。在脚本执行过程中,需要采用多线程并发来执行保证在较短的时间内检核出有问题的数据。
3、数据质量报告。数据质量报告是对企业数据质量情况的总结分析,需要能够从不同维度系统、部门、检核类别等维度生成固定数据质量报告。还需要支持按照选择的数据质量规则,时间等条件,来生成个性化的数据质量报告。
5、数据质量管理的最佳实践
为实现数据质量的切实落地,推进数据质量问题的有效解决,某银行将数据质量问题考核作为重中之重,将数据质量问题解决效果与部门KPI挂钩,减小了数据质量整改的难度,为数据质量的推进提供驱动力,能够及时对发现的数据质量问题进行处理。该银行的数据质量工作开展,分为了三个阶段:
第一阶段:搭建数据质量系统。借助数据质量管理系统自动对数据仓库进行检核, 摸清数据质量情况,解决技术原因导致数据质量问题。
第二阶段:定位问题责任主体。将数据质量问题检核提前到业务系统中来,将问题数据所在分行业务数据录入人一并获取到数据质量管理平台,从而为数据质量问题的追本溯源奠定了技术基础。
第三阶段:成立数据质量考核评价小组。为保证已发现的业务原因导致的问题能得到有效地解决,设计出了分层级的考核体系,由数据质量考核评价小组对各家分行数据质量问题的解决情况进行打分,计入各家分行的KPI绩效考核中。
在后续数据质量系统的运行,开展对银行内部多个业务部门进行了考核,考核范围包括多个重要的业务系统,并检核出了各家分行的多项数据问题,大大提升了数据质量问题的修改率,整改的数据问题数据涉及到超过数千亿的贷款额度。
参考文献:
[1]DAMA-DMBOK2数据管理知识体系指南.机械工业出版社2020.5
[2]刘庆会.大数据是否值得信赖——浅谈商业银行如何提升数据质量 [EB/OL], 2016-04-14
[3] 贾让.治河三策千古鉴.河北水利,2016(2):36-36
关于作者:刘庆会,普元云计算和大数据产品部架构师,主要负责普元大数据治理产品研发和项目实施,十年大型企业信息数据治理架构设计与建设经验,为多家大型金融机构、企业设计与规划数据管理整体框架和项目实施。数据行业有着深入的研究和洞察,并对企业信息化平台建设,数据治理及大数据平台建设有着丰富经验。