产品快速入门
在数据治理活动的实践过程中,元数据管理是核心环节之一,它涉及到数据的采集、识别、组织、丰富、监控和维护。以下是Datablau 元数据产品快速入门的指南,旨在帮助用户快速上手如何进行元数据采集、数据血缘解析、元数据丰富以及元数据查询分析、元数据应用等管理功能。
产品概述
Datablau元数据管理是数据治理基础管理工具,通过对企业信息系统的数据源采集获取数据表、字段等元数据信息,结合数据处理、加工的处理过程去表达数据在企业中的流动形式,有效利用主动元数据治理能力帮助企业更好地理解、利用元数据,加强数据质量、数据安全的管控,提升数据资产的价值。
元数据管理(Datablau Metadata)是独立的子产品,独立安装和部署,提供完成的元数据管理服务。同时,作为Datablau DAM数据治理平台的一部分,与数据标准,数据质量,数据资产,数据安全等子产品无缝集成,共同完成全生命周期的数据治理目标。
Datablau Metadata的产品主要功能入下:
元数据采集
支持企业复杂异构数据源的全自动采集,覆盖50种关系型、非关系型数据源类型。
血缘全链路管理
全链路血缘自动提取,进行数据影响分析。
元数据管理与优化
有效的元数据管理与优化能够提高元数据的质量,增强数据的可用性和价值
元数据应用与分析
元数据的应用是数据治理的最终目标,通过元数据的应用,提高数据的可用性和业务价值。
通过上图,我们可以更好地理解元数据与数据标准、数据质量、数据安全、数据资产之间的关系,通过本章节的快速入门,用户将能够迅速掌握系统的基本操作流程,从而高效地开展元数据管理工作,服务好数据质量检核、数据分类分级、数据资产管控,元数据具体操作可参考第5章节产品详细说明。
系统环境准备
在开始使用Datablau元数据管理产品之前,需要确保系统环境已经准备妥当。这包括但不限于数据库插件的上传、数据库驱动的添加以及数据源连接的新建。以下是详细的步骤:
上传数据库插件
- 登录系统:使用管理员账号登录 Datablau 元数据管理系统,确保登录信息准确无误。
- 插件管理:在系统管理模块中,找到并点击 “插件管理”,进入插件管理页面。
- 上传插件:选择需要上传的数据库插件(如 HBase 的 jar 包和 JSON 配置文件),点击 “上传” 按钮完成上传。上传过程中需注意插件的版本兼容性以及文件完整性,确保插件能够正常工作。
添加数据库驱动
- 驱动管理:在系统管理模块中,找到并点击 “驱动管理”,进入驱动管理界面。
- 选择数据库类型:从列表中选择需要添加的数据库类型,确保选择准确,以匹配实际使用的数据库。
- 上传驱动:点击 “添加驱动” 按钮,从本地上传对应的数据库驱动文件,并保存设置。在上传驱动文件时,要注意文件的正确性和适用性,避免因驱动问题导致数据源连接失败。
新建数据源连接
- 数据源连接:在系统管理模块中,找到并点击 “数据源连接”,进入数据源连接管理页面。
- 新建连接:点击 “新建” 按钮,输入数据源的基本信息(如数据源名称、数据库类型、连接 URL 等),确保信息填写准确无误,尤其是连接 URL 的配置,直接影响到数据源的连接成功与否。
- 测试连接:点击 “测试” 按钮,系统将尝试连接数据源,确保数据源连接成功。若测试失败,需仔细检查填写的信息是否正确,并根据错误提示进行调整。测试通过后,保存设置,以便后续进行元数据采集等操作。
元数据采集
元数据采集是Datablau产品的核心功能之一,它涉及到数据的采集、识别、组织、丰富、监控和维护。以下是采集流程的详细说明:
配置采集任务
-
采集管理:在元数据管理模块中,找到并点击 “采集管理”,进入采集任务管理页面,元数据采集的类型包括有数据库源、报表、文件等。
-
新建采集任务:点击 “新建任务” 按钮,输入采集任务的基本信息(如任务名称、数据源、采集范围等),任务名称应具有明确的标识性,便于管理和识别。
-
配置采集信息:在采集信息配置页面,设置采集参数(如是否采样、元数据名称补全、黑名单配置等)。采样参数可根据数据量和需求进行合理选择;元数据名称补全有助于提高元数据的完整性和可读性;黑名单配置可排除不需要采集的内容,提高采集效率和准确性。
-
保存任务:配置完成后,点击 “确定” 按钮保存采集任务,确保任务设置得以保存,为后续执行采集任务做好准备。
执行采集任务
- 任务列表:在采集管理页面,查看已创建的采集任务列表,可清晰了解任务的基本信息和状态。
- 执行任务:选择需要执行的采集任务,点击 “执行” 按钮开始采集元数据。在执行过程中,系统将按照预设的采集参数进行数据采集操作。
- 监控进度:在任务执行过程中,可以实时监控采集进度和状态,通过进度条和状态提示,及时掌握采集任务的进展情况,以便在出现问题时能够及时采取措施进行处理。
查看采集结果
- 数据集:在元数据管理模块中,找到并点击 “数据集”,进入数据集管理页面,这里集中展示了采集到的元数据(表、视图、字段)。
- 查看元数据:在数据集页面,查看已采集到的元数据列表。点击列表中的元数据项,进入元数据详情页面,可查看详细的元数据信息。
- 详情页面:在元数据详情页面,可以查看表的字段信息、采样数据、血缘关系等详细信息。字段信息展示了数据的结构和属性;采样数据可帮助用户快速了解数据的内容特征;血缘关系则有助于追踪数据的来源和流向,对于数据的理解和管理具有重要意义。
血缘解析与管理
血缘管理是理解数据流向和关系的重要工具,对于数据的追溯、影响分析以及数据质量的管控至关重要。Datablau 支持对传统的ETL工具厂商(如Informatica PowerCenter、IBM DataStage、DataX、Kettle)开发的抽取、转换、加载任务进行采集、解析,同时也支持各种不同数据库的存储过程、SQL脚本解析。此功能主要由Datablau 元数据管理的血缘目录模块实现完成。
血缘采集
数据血缘的采集主要包括有ETL工具、SQL脚本文件等。系统提供有手工导入、批量自动血缘文件的采集。
- 手工导入:在血缘管理模块中进入血缘目录,在血缘文件Tab页进入到血缘文件导入,支持对各种ETL工具开发文件、SQL脚本文件手工导入。
- 批量采集:在血缘目录的配置批量任务Tab页可自动采集服务器自定义目录下的血缘文件,并以任务调度方式执行采集管理。
血缘解析
- 自动解析:对于支持自动解析的血缘文件类型(如 Kettle、SSIS、Excel 血缘模板等),系统将自动识别和解析文件中的血缘关系,将其转化为可视化的血缘图谱或结构化的数据,方便用户查看和理解数据之间的流向和依赖关系。
- 手动收集:对于无法自动解析的血缘关系,用户可以通过预处理脚本方式对血缘文件中的变量、自定义函数、不规范程序进行预处理,使血缘文件能正确解析、提升血缘文件解析准确率。
元数据绑定
在血缘解析完成后,需要将解析得到的血缘关系与相应的元数据进行绑定,使血缘关系与元数据紧密关联。这样,在查看元数据时,用户可以直接获取其相关的血缘信息,实现数据与血缘关系的一体化管理,提高数据管理的效率和准确性。
血缘目录中的数据源即为元数据绑定对象,可将数据库中的表、字段与血缘进行绑定,使用户在查看血缘时更好识别元数据管理应用场景,查看详细业务元数据。
元数据管理与优化
有效的元数据管理与优化能够提高元数据的质量,增强数据的可用性和价值。以下是一些元数据管理与优化的操作步骤:
更新元数据
- 导出元数据:在数据集页面,选择需要更新的元数据,点击 “导出元数据” 按钮,将元数据导出为 Excel 文件。导出的 Excel 文件可作为离线编辑的基础,方便用户进行批量修改。
- 修改元数据:在 Excel 文件中修改需要更新的元数据信息(如表级别信息、字段级别信息等)。在修改过程中,需遵循企业的数据标准和业务规则,确保修改后的元数据准确无误且符合规范。
- 批量更新:修改完成后,将 Excel 文件上传至系统,并选择 “批量更新元数据” 功能,将修改后的元数据导入系统。系统将根据导入的文件更新相应的元数据,实现元数据的批量更新操作,提高更新效率。
定义扩展属性
- 扩展属性:在元数据详情页面,点击 “扩展属性” 按钮,进入扩展属性管理界面。
- 定义属性:基于业务场景和需求,定义新的扩展属性(如数据业务责任部门、数据技术责任部门等)。扩展属性的定义应紧密围绕企业的业务流程和管理需求,以便更好地描述元数据的相关特征和责任归属。
- 填写属性值:在扩展属性页面,填写对应的属性值,并保存设置。属性值的填写应准确反映实际情况,为元数据提供更丰富的描述信息,有助于提高数据管理的精细化程度。
数据组织部门定责
-
数据管家与权属:在元数据详情页面,查看并设置数据管家和数据权属属性,明确数据的管理责任人和所属部门。这有助于建立数据管理的责任制,确保数据得到有效的管理和维护。
-
扩展定义:如果默认属性不能满足需求,可以通过扩展属性进行更多的定义,进一步细化数据组织部门的责任和权限,以适应复杂的业务环境和管理要求。
业务标签管理
- 标签管理:在元数据管理模块中,找到并点击 “标签管理”,进入标签管理页面。
- 新增标签:在标签管理页面,点击 “新增标签” 按钮,输入标签信息并保存。新增标签应具有明确的业务含义,便于对元数据进行分类和标记,提高数据的检索和管理效率。
- 应用标签:在元数据详情页面,选择需要应用的标签,并保存设置。通过为元数据应用标签,可以实现对元数据的快速分类和筛选,方便用户根据标签进行数据查询和统计分析,更好地支持业务决策。
元数据应用与分析
元数据的应用是数据治理的最终目标,通过元数据的应用,提高数据的可用性和业务价值。
数据地图构建
利用元数据、数据血缘自动构建企业级数据地图,提供应用系统、Schema、数据表等多层级、多视角元数据视图,全方位展示数据流向和关系,帮助用户理解数据的上下文。
数据血缘分析
进行数据血缘分析,追踪数据的来源和影响,为数据的追溯和影响分析提供支持。
数据共享与交换
通过元数据管理,促进数据在不同系统和组织间的共享与交换。