数据治理框架
数据质量管理目标
在数据治理中提到的数据质量管理目标主要包括以下几点:
确保数据的准确性:
准确性是数据质量的核心要素之一,它要求数据必须真实地反映实际情况,避免误导或产生歧义。在数据治理过程中,通过制定严格的数据采集、存储和处理标准,以及建立数据校验和验证机制,可以确保数据的准确性。
保证数据的完整性:
完整性是指数据在采集、存储和处理过程中,没有发生丢失或遗漏的情况。在数据治理中,需要建立完善的数据管理流程和机制,确保数据的完整性和一致性,避免数据丢失或遗漏对业务决策产生负面影响。
维护数据的一致性:
一致性是指数据在不同来源和不同时间点之间保持一致。在数据治理过程中,通过建立数据标准和规范,以及实施数据质量管理策略,可以确保数据在不同部门和系统之间的一致性,提高数据的可信度和可用性。
确保数据的时效性:
时效性是指数据需要及时更新,以反映最新的业务状态和变化。在数据治理中,需要建立数据更新和维护机制,确保数据的时效性和准确性,为业务决策提供及时、可靠的数据支持。
组织与角色
数据质量组织
数据质量组织通常包括以下几个关键部门或团队:
数据管理部门
1 主要负责企业数据资产的全面管理,包括数据的收集、存储、处理、分析和分发。
2. 制定数据管理策略、流程和标准,以确保数据的质量和安全。
数据质量团队
- 专注于数据质量的监控、评估和改进。
- 实施数据质量检查、校验和验证,以及数据清洗和转换等工作。
- 定期生成数据质量报告,向管理层和业务部门提供数据质量状况和改进建议。
业务部门
作为数据的使用者和提供者,业务部门对数据质量负有重要责任。需要确保提供的数据准确、完整、一致和及时,并积极参与数据质量改进活动。
数据质量角色
在数据质量管理过程中,通常包括以下几个关键角色:
数据管理员
- 从业务和技术角度查看数据,并与最终用户和开发人员交互以定义、描述、组织和分类数据集。
- 建立和维护数据模型,制定命名约定、存储定义和业务规则约束。
- 在没有数据治理团队的企业中,通常会带头制定和实施旨在确保数据安全、质量和正确使用的治理政策、程序和最佳实践。
数据建模者
- 负责构建概念、逻辑和物理数据模型,这些模型成为企业数据存储的基础。
- 与数据管理人员和业务用户合作,收集设计和记录数据模型所需的信息。
- 不断更新和修改模型,以随着企业中数据集和业务需求的变化使模型保持最新。
数据架构师
- 负责开发数据架构,这是企业数据管理框架的蓝图。
- 了解最新的数据管理、存储和处理技术,帮助业务用户和IT人员选择和实施系统。
ETL开发人员/数据集成工程师
- 负责数据的提取、转换和加载(ETL)处理,确保数据从源系统准确、完整地加载到数据仓库中。
- 进行数据清理和验证,以确保数据质量水平满足要求。
- 创建ETL和其他数据集成过程的文档并根据需要进行更新。
数据质量分析师
- 负责识别错误、异常和其他缺陷,这些缺陷会损害数据质量,并最终影响其对企业的商业价值。
- 从数据质量的各个方面评估数据集,例如准确性、完整性、一致性、一致性和重复数据的缺失。
- 一旦发现数据问题,数据质量分析师就会努力解决这些问题,以提高数据可靠性并确保最终用户能够访问可信数据。
数据质量管理流程
数据质量规划
定义高质量数据:
- 结合业务战略和目标,识别关键数据需求。
- 与利益相关方沟通,识别痛点、风险和业务驱动因素。
- 通过盘点数据资产和数据流通环节,评估高质量数据的标准。
识别关键数据和业务规则:
-
从业务使用角度出发,对数据资产进行梳理,筛选出关键数据内容。
-
通过主数据的定义,识别核心业务数据内容。
-
与数据利益相关方共同评审,确定数据质量管理的阶段性范围。
定义数据质量管理过程中的规范:
-
根据数据质量评估结果,确定数据质量改进的目标和优先级。
-
设计数据质量改进方案,包括数据清洗、数据转换、数据校验等策略。
-
制定数据质量管理的规章制度和流程,以确保数据质量的持续改进。
数据质量评估
定义评估目标和范围:
- 确定需要对哪些数据进行评估,定义评估范围。
- 确定要评估的数据,挑选重要的数据字段进行评估。
- 识别数据的用途和使用者,确定数据的关系人,包括业务和系统。
定义数据质量评估指标:
- 指标包括完备性、唯一性、及时性、有效性、准确性和一致性。
- 根据业务和数据实际设计具体的评估指标。
- 定义数据质量规则,在指标的基础上,明确指标下需要有哪些规则来评价数据,包括面向表的规则和面向字段的规则,以及通用规则和面向业务的规则。
数据质量实施
执行数据质量并评价
- 通过平台工具,对数据进行清洗和转换,以消除错误和异常值。
- 实施数据校验策略,如格式校验、业务规则校验、逻辑关系校验等,确保数据的准确性和一致性。
- 对清洗和校验后的数据进行验证和测试,以确保数据质量改进方案的有效性。
- 记录数据质量问题,形成数据质量问题清单。
数据质量监控与维护
建立数据质量监控体系:
- 设置监控指标、阈值和报警机制。
- 定期对数据进行抽样检查和质量评估。
- 对监控结果进行分析和处理,及时发现并解决数据质量问题,防止问题扩大或影响业务决策。
- 防止问题扩大或影响业务决策。
- 持续优化数据质量管理流程,根据业务需求和数据标准的变化,及时调整数据质量管理策略和流程,不断探索和优化数据质量管理方法和技术手段。
数据质量改进
- 对数据质量监控中发现的问题进行记录和跟踪,确保问题得到及时解决。
- 确定改进的投资回报率,包括受影响的数据关键性、数据量、数据龄期、受影响的业务流程数量和类型、受影响的消费者数量以及与问题相关的风险等。
- 设计数据质量控制操作程序,包括检查和监控的频率及方式、质量问题评估方式和整改方式。
- 根据数据质量需求,确定当前数据质量的水平。
- 针对不同质量问题,制定不同的质量整改方案,如源头修改、补录、技术修复和遗留问题管控等。
定期召开数据质量会议,分享数据质量管理经验,讨论数据质量问题及改进措施。