跳到主要内容

数据治理实践

主动元数据治理

随着大量数据的出现,人们越来越需要自动化、优化和生产力计划,以便充分利用这些数据。这是因为简单地收集数据很容易被误解、滥用和衰减。相比之下,持续分析数据可确保消费者能够找到、理解并适当使用正确的数据。然而,分析需要企业查找和收集元数据。这些有关数据的数据很有价值。它告诉用户哪些资产最受欢迎、如何使用它们、如何正确管理、如何有效组合等等。

主动元数据的概念是由Gartner提出。早在2006年,Gartner的一份关于数据服务的前瞻市场分析报告中就出现了主动元数据管理概念。2017年,Gartner在其《元数据管理解决方案魔力象限》中提出元数据市场已出现二分为“主动”与“被动”两条技术路径。2019年Gartner在《数据管理技术成熟度曲线报告》中将主动元数据管理与数据编织这一新引进的技术点紧密关联,并于2021年的成熟度曲线报告中正式引入了主动元数据技术点,主动元数据管理开始进入Gartner的炒作周期图。

Gartner 市场指南图 1:元数据管理技术成熟度

但无论在无论在《主动元数据管理市场指南》还是在《数据管理技术成熟度曲线报告》中,Gartner定义的都是主动元数据管理 (Active Metadata Management)而非“主动元数据”。即元数据还是那个元数据,但针对元数据的管理方法和理念有了更新。

什么是主动元数据管理?

主动元数据管理支持对整个组织的用户、系统和数据治理工具数据堆栈中的元数据进行持续访问和分析,用于根据实现的业务成果提出建议。换句话说,主动元数据管理缩小了设计数据和实际使用数据之间的差距。

当企业持续监控数据的使用方式时,它就可以改善和加速数据驱动的业务成果。这对企业来说显然非常重要,许多企业都在投资主动元数据管理。在市场指南中,Gartner 预测,采用积极的元数据分析工具和技术将“将新数据资产交付给用户的时间缩短多达 70%”。

主动元数据治理有如下两个主要特征:

  1. 自动化和智能化

元数据的智能化和自动化,就是通过自动化技术和智能化算法如AI等,完成数据侧写、自动分类、自动口径提取、内容智能解析、使用状况分析,以及面向业务语义的智能发现和推荐、异常探测等功能,当然还包括利用脚本编写、组件嵌入实现的自动化和协同化功能,这些一起达成更“主动”的元数据管理,最终指向智能的数据的供需满足,以及系统、业务之间的互通。同事,还需要监视更改并相应地更新元数据。

此类元数据可以按以下四种方式分类:

技术 - 名称、描述、列等

血缘——从哪里来,到哪里去,等等

关系——创建表示数据如何连接的图表和模型

使用情况——谁在消费信息、在哪里使用信息以及如何使用信息

所有这些都可以自动提取或计算,无需人工干预。

  1. 组织与流程嵌入

在数据生成的第一时间主动治理,比如如果有人创建了一个表,需要有人手动输入谁创建了它、为什么创建它等等。基本上,我们还需要捕捉数据周围的上下文业务环境,这需要人工输入,这使得使用数据的任何人都能更好地理解一些事情:

为什么业务和需求创建这个数据;

它如何帮助企业发挥数据的价值;

适用和不适用的业务用例;

如果没有人工治理的元数据,自动化的价值就会降低,反之亦然。这就是为什么两者都通过相同的工作流程和生态系统完成,将人性化和技术结合在一起以创造最大的价值。

主动与传统元数据管理

主动元数据是相对过去的被动元数据而言,针对二者的区别,Atlan公司进行了区分,即:被动元数据是提供基本数据定义的技术元数据,例如模式、数据类型、模型、所有者名称等;而主动元数据是一种描述性元数据,通过提供数据发生的所有事情的详细信息来为数据添加上下文,除了技术元数据之外,它还包括运行、业务和社交元数据。

具体来看,主动元数据管理强调人工主动干预和有意识的信息添加,以促进数据的更好理解和管理。而被动元数据管理更依赖于自动化,通过系统和工具生成,提供有关数据处理历史和存储信息的洞察。主动元数据管理与被动元数据管理的区别主要体现在三个方面:

1、 被动元数据是在数据被处理、存储或传输时由系统或工具自动生成收集,而主动元数据管理强调对元数据做持续的分析和理解,不仅需要理解库表列schema等常规信息,更要理解这份数据背后的语义和它的加工口径、业务主体、汇总粒度以及如何正确使用等。

2、主动元数据能够更加面向行动、面向治理来解决实际的业务问题,主动元数据不再是等用户碰到数据使用问题时去到一个数据目录上去找它,而是给出一个设计建议或者一个可被系统执行的指令。

3、主动元数据管理更强调工具无缝集成,在数据生产、消费和协作的各个环节为用户提供完整的元数据上下文以及智能建议,以实施更主动的数据管理策略。

如何开展主动元数据治理

主动元数据管理是一种具有前置性和主动性的数据管理方法,核心思想是数据活动发生的第一时间和第一现场,采集第一手多元的元数据信息,智能化和自动化等都是技术和工具的手段,来达成面向操作、面向治理来解决实际的业务问题的目的。

因此,主动元数据管理无疑需要一套主动元数据管理的管理方法和一套智能化元数据的工具来完成。

  1. 主动元数据管理制度

主动元数据的管理制度与传统元数据管理制度,区别主要在于前置性在IT和业务操作过程中,进行数据管理的设计,评审和质量管理。近年来,国内已经实践了几种主动元数据管理的制度和管理实践。

  1. 数据模型管控实践

此实践方法主要是Datablau的TP&AP一体化模型管控,该方法通过数据模型开发过程中,管理概念,逻辑和物理数据模型的设计,管理数据标准落标,业务元数据和管理元数据评审,架构对齐,模型质量计分卡等。

《TP&AP一体化数据模型管控流程》

  1. 数据开发治理一体化

通过一体化基础的数据开发治理平台,融合数据集成、数据开发、任务运维的全链路DataOps数据开发能力,以及数据地图、数据质量、数据安全等一系列数据治理和运营能力,帮助企业在数据构建和应用的过程中实现降本增效,数据价值最大化。和通过连接数据所有数据源,为每条数据创建元数据,并定期更新管理元数据和业务元数据到这个统一的副本。

  1. 智能化工具平台

通过连接数据所有数据源,为每条数据创建元数据,并定期更新管理元数据和业务元数据到这个统一的副本。

通过智能的算法,自动对数据进行补全,自动进行数据的分类,这支持规则算法,也有智能的AI算法,并且这些算法的运行时间和范围,以及是否认可结果,都在您的掌控范围。

通过智能算法,将元数据信息与业务术语进行关联,并将数据与业务场景与规则进行连接,可以衡量数据的质量情况。

通过数据资产目录,我们收集数据的查询,申请,使用等信息,收集数据的业务Owner和管理Owner信息,以及用户的洞察见解和数据的问题反馈。

通过数据血缘,我们可以预警数据质量的影响与根源,数据变更的风险和对业务的影响,数据信息和安全信息的级联和传递,让治理伴随数据的流动而治理。

通过自动修复、流程变更、主数据管理技术或手动修复来提高数据质量,通过影响分析、定义工作流程和执行编排任务的工具, 提高的数据开发工程的效率。

。。。。。。

这些智能化和自动化的能力,在Datablau DAM&DDM的产品体系中,已经久经客户实践的打磨,我们正在开发结合自动化和AIGC的智能引擎,进一步达成智能数据治理的愿景。

事前元数据治理

事前元数据治理,从本质上讲,是一种主动元数据治理方案,其通过管理数据设计,开发,测试,生产的全生命周期过程,实现元数据的信息的采集。传统元数据是典型的事后被动的治理方案。

图示 描述已自动生成

通过数据模型管控,对元数据的事前,事中,事后进行关键过程管控,建立数据模型管理组织,实现事前的元数据信息采集。该方案在金融业和制造业有很多成功案例,感兴趣请关注DDM产品和方案。