作者:禅与计算机程序设计艺术

1.背景介绍

随着社会经济、科技的飞速发展以及人类活动在空间时间上不断扩张,人们对大数据的需求日益增长,越来越多的人选择将自己的数据留存下来进行研究。而现实情况是,大数据本身具有无限的价值。由于缺乏统一的数据规范化管理方法,数据质量问题也日益凸显。而作为一个数据应用和业务平台的服务提供商来说,如何更好地保障数据质量是当前面临的一项重要任务。为了解决这一难题,本文主要从数据治理角度出发,为读者呈现一种可行的解决方案——基于数据质量评估和治理的大数据架构设计模式。

2.核心概念与联系

1)什么是数据质量?

数据质量(Data Quality)是指数据可用性、正确性、完整性、真实性及时性等各方面的指标,可以简单理解为一幅图景,用来衡量数据集中各个特征属性的质量状况。

2)数据质量要素

数据质量由以下几个方面组成:

准确性(Accuracy):指数据能否满足业务需要,且完全符合其规定要求。

完整性(Completeness):指数据是否完整、精确、可靠。

时效性(Timeliness):指数据能否及时反映业务发生的变化。

一致性(Consistency):指数据变更后能否保持一致性。

纯度(Correctness):指数据内部是否存在错误。

3)数据治理

数据治理是指数据管理的过程及方式,旨在对企业内外数据的收集、存储、处理、应用、分析、报告、传输、共享、检索、使用等环节加强数据质量和安全的管