产品操作指南
元数据
元数据模块主要完成元数据的统计,展示与管理。用户可以从系统,采集,schema,表,字段等多个角度达到预期目标。除传统库表模式外,还支持用户上传采集报表和文件,并完成后续的管理工作。
元数据概览
元数据概览主要完成元数据从系统,采集,标准,规则,报表等多个方向对元数据资产的统计,用户可以通过编辑自定义组建,并替换默认的展示。
默认概览
元数据概览在默认的情况下提供以下指标展示,指标的计算逻辑如下:
应用系统: 系统现在拥有的应用系统,在 系统管理-应用系统 菜单栏可以查看;
接入率:已有数据源的应用系统数量/所有应用系统数量
血缘文件:血缘解析数据量
采集管理:元数据中所有采集管理数量,包括未采集元数据的
表:系统中所有表数量和视图的数量
字段:系统中所有字段数量
数据报表:系统中所有报表数量
命名字典:系统中命名字段数量
指标体系:系统中指标体系数量
数据标准:数据标准数量
标准代码:标准代码数量
引用:引用数据标准的元数据数量
质量规则: 业务规则数量+技术规则数量
业务规则: 所有业务规则数量
技术规则: 所有技术规则数量
以上指标的根据首页dashboard计算任务产生数据
以下部分列表数据以每个应用系统维度做聚合,后台默认五分钟刷新一次统计信息。具体指标和展示如下:
数据源: 该应用系统下存在的数据源,只统计采集完元数据的数据源,创建数据源未进行采集元数据不计入。
表: 该应用系统下表的数量总计
字段: 该应用系统下字段的总量
中文名充足率: (字段中文名+表中文名+视图中文名+存储过程中文名+函数中文名+程序包中文名) / (表总数+视图总数+字段总数+存储过程总数+函数总数+程序包总数)
标准覆盖率: (带有数据标准的字段) / (所有字段)
标准核标率: (完全映射) / (带有数据标准的字段)
编辑模式
用户可以在编辑模式下选择展示的组建,自定义h5组件,修改页面布局的参数。可以根据自己的管理结果保存。
数据地图
数据地图主要用来展示系统与系统之间的调用和数据流向,用户可以查看每层元素的基本信息及其他衍生信息,用户通过双击元素的方式进行下钻,顺序为系统-数据源。用户也可以点击数据源下表信息来查看血缘。
数据集
数据集主要用来集中展示通过数据库采集的元数据
查看元数据
- 点击【元数据】中的【数据集】菜单,即可进入元数据功能模块。
- 点击元数据列表中的项可以进入元数据详情页,包含表的字段信息、采样数据、血缘关系等信息。
- 点击各处的
按钮,可以编辑对应的元数据信息。
- 字段类型:元数据,用户可以绑定数据标准和标准代码,用户添加标准后系统会询问用户是否引用当前标准的标准代码。
- 表,视图类型:支持用户抽取采样数据,hive库支持采集200条,分两次执行sql,第一次select 表的所有字段where 1=0获取表结构,并展示在前端,第二次执行sql取固定行数的采样数据。如果第一次执行sql就有问题,则不执行第二次sql,在前端提示采样失败并打印数据库的报错信息。而不显示暂无数据。若第二次执行sql返回数据为空才显示暂无数据。
- 针对视图,存储过程,函数的sql语句增加了权限控制,用户可以通过角色的权限设置选择用户是否有权限访问语句
- 变更历史内用户可以选择两个版本进行比较,显示表的所有版本差异,包括表本身的属性、字段信息、索引信息的对比
- 在元数据的【知识图谱】中,可以查看与该标准关联的其他信息,包括标签、字段、应用系统等,支持知识图谱新建关系,支持多种数据类型。新增通用资源选择器组件。
搜索元数据
输入框是具体的元数据信息搜索框,可以对具体的元数据信息进行搜索,例如表、字段、视图、函数、存储过程的名称,以及是否有血缘关系等等。
也可以在右侧的快捷复选框中勾选某项,对元数据类型进行过滤。
导出元数据
- 点击【数据集】功能菜单,进入【数据源】管理页面,点击数据源右侧的【...】按钮,选择【导出元数据】。可以直接在元数据列表页直接选择导出,对于超出excel条数限制,系统会拆分成多个excel以压缩包的方式导出。
- 点击页面右下角的【下载全部】按钮,可下载该数据源的全部元数据信息到本地磁盘。
- 如不需要全部的元数据信息,也可勾选指定的表名,然后点击右下角的【下载选中的元数据】,即可下载指定的元数据信息。
元数据与数据标准映射
- 进入【元数据】功能模块,定位到某张表的具体字段。
- 点击【字段名】可以跳转到字段的详情页面。
- 在字段详情的【技术属性】中点击数据标准和标准代码的编辑按钮,进入数据标准搜索页面。
- 确定好对应的数据标准/指标标准后,点击页面右下角的【选定】按钮,即可将元数据和数据标准建立映射关系。
- 返回数据表的页面,可以查看映射关系。
更新元数据
- 为了提高建立元数据维护的效率,平台中也提供另外一种更新方式
- 进入【数据集】的【数据源】功能模块,点击数据源右侧的【...】按钮,选择【导出元数据】
- 用户可以修改表级别信息和字段级别信息
- 填写完毕后,返回数据源管理页面,点击右侧的【...】按钮,选择【更新元数据】按钮,定位到本地磁盘中的Excel数据字典文件,然后点击【打开】按钮,即可批量更新元数据信息。
模型比对与同步
-
点击元数据目录中数据库右侧的【...】按钮,进入这个数据源的模型比对与同步任务配置页面,可以选择想要同步或比对的的模型及具体版本
-
选择需要执行属性同步、数据比对还是两者都执行(只执行数据比对不需要配置同步属性)
-
点击【+添加新方案】可以为当前数据源添加更多的模型比对同步
-
配置好的任务由系统的元数据比较任务统一调度,点击右上角的【查看任务】可以查看对应任务的调度设置
说明:
模型比较:默认关闭,用来比较数据源选中schema与模型的表,字段,索引,视图的差异。
模型同步:默认关闭,用户可以选择同步内容(数据标准,标准代码,中文名称,描述信息,自定义属性)同步策略有三种:
- 同步DAM为空: 只同步选择的属性中当前DAM为空的属性
- 同步DDM不为空: 同步DDM中当前不为空的所有选择的属性
- 同步DDM所有属性: 同步DDM中所有选择的属性
模型关系:默认关闭,执行关联模型关系后,建模人执行关联员可以在模型中查看实体、属性与元数据的血缘关系
报表
报表模块主要负责管理报表类型的元数据。这里通常指报表工具产生的结果,通过用户前台导入和新建,后台通过采集管理获取,最终形成前台的统一管理。
导入与新建
- 用户可以通过手动导入和新建的方式增加平台报表。
- 新建时用户用户通过输入各项属性完成报表的基础创建,同时完成归属目录信息的维护,同时通过手动输入信息项和库表信息完成内容关联
- 用户在导入时可以按照导入的提示获取模版并设置导入策略,完成内容的更新或者覆盖
查看,编辑与删除
用户可以通过查看和编辑看到报表的具体信息,在编辑模式下完成对报表信息的修改,列表勾选后可以批量删除。
导出
用户可以在报表的目录进行内容导出,导出范围为当前目录下所有的报表。
文件
文件类型元数据只能通过服务器采集,系统提供查看下载等基础功能。
查看
用户可以通过列表搜索并查看文件内容,点击查看后可以看到文件的基础属性,并对属性进行维护。
导出
用户可以在列表页,勾选目标文件进行文件下载。
采集管理
采集管理模块用来定义元数据模块的采集范围,新建采集类型包括数据源,报表,文件,共享文件等多个方式。
数据源采集
关系型/非关系型数据库采集
- 在采集管理页面,点击新建采集,选择“数据源”,进入填写链接页面
- 该页面的填写信息有三个步骤的内容需要填写,填写链接信息,配置采集信息,创建采集任务
- 在链接信息页面,来源有两个类型:“已有数据源”,“新建数据源”,“已有数据源”是指:在系统管理-插件管理中,已经存在数据源连接,可以直接使用,但如果插件里没有,那么就选择“新建数据源”,“新建数据源”需要填写关于数据源的连接信息
- 选择数据源类型:“关系型数据库”【“非关系型数据库”是用户的数据库是非关系型数据库,关系型数据库和非关系型数据库的采集基本一致,只是数据库类型不一样】
- 选择“数据库”列表中的数据库名称,填写数据库连接的信息
- 点击测试通过,即可进入下一步
- 在采集信息中,采集信息的配置,比如: 数据是否采样,元数据名称的补全,是否采集索引等
- 黑名单的设置【说明:白名单只针对表/视图,里面的匹配的内容被采集。黑名单里的内容不采集,可以过滤不想采集的表/视图/函数/存储过程等内容】,点击确定,进入采集任务的创建
- 采集任务中,会展示对应创建的采集任务,点击“更新任务”,可以修改任务的配置调度,中文名同步策略
离线数据采集
- 在采集管理页面,点击新建采集,选择“数据源”,进入填写链接页面
- 该页面的填写信息有三个步骤的内容需要填写,填写链接信息,配置采集信息,创建采集任务
- 在链接信息页面,来源有两个类型:“已有数据源”,“新建数据源”,“已有数据源”是指:在系统管理-插件管理中,已经存在数据源连接,可以直接使用,但如果插件里没有,那么就选择“新建数据源”,“新建数据源”需要填写关于数据源的连接信息
- 选择数据源类型:“关系型数据库”【“非关系型数据库”是用户的数据库是非关系型数据库,关系型数据库和非关系型数据库的采集基本一致,只是数据库类型不一样】
- 选择“数据库”列表中的数据库:Offline Dump,选择存储库的类型,并填写对应的驱动信息,点击测试通过,即可进入下一步
- 在采集信息中,采集信息的配置,比如: 数据是否采样,元数据名称的补全,是否采集索引等【数据连接性要选择“备用数据源可连接”】
- 黑名单的设置【说明:白名单只针对表/视图,里面的匹配的内容被采集。黑名单里的内容不采集,可以过滤不想采集的表/视图/函数/存储过程等内容】,点击确定,进入采集任务的创建
- 采集任务中,会展示对应创建的采集任务,点击“更新任务”,可以修改任务的配置调度,中文名同步策略
数据字典采集
- 在采集管理页面,点击新建采集,选择“文件”,进入采集信息填写页面
- 填写采集名称,选择归属的业务系统,选择“Data Dictionary(Physical)”,采集类型选择手动上传,需要用户按照DAM平台的模版文件进行填写上传,如果是“自动上传”,需要填写NAS的文件地址路径
- 点击确定,创建数据字典采集完成
报表采集
报表采集是指针对报表工具产生的结果进行采集整理,用户需要针对不用的类型的报表工具完成信息填写,测试连通后针对报表进行采集。采集后内容在【元数据】-【报表】模块进行管理和进一步查询使用。
文件采集
文件采集是针对我们自己的数据集进行统一更新,实际生产中并不是所有的用户允许采集数据库,只能通过线下采集模版完成元数据更新。
共享文件采集
共享文件采集是针对文件类型数据源进行采集,用户可以通过设置文件获取的路径等信息,完成数据的采集,最终采集结果显示在【元数据】-【文件】。
血缘管理
数据血缘(Data Lineage)通常是指管理数据生命周期中的数据流向和历史记录,包括数据源头信息,后期移动到那个目标数据库等。
DAM平台支持自动解析和手动收集两种血缘文件导入方式,目前支持自动解析的血缘文件类型主要包括以下类型:
- Kettle (Pentaho Data Integration)
- SSIS (Microsoft SQL Server Integration Services)
- Excel血缘模板 (Datablau格式)
- DataStage (IBM DataStage)
- PowerCenter XML (Informatica PowerCenter ETL File)
- SQL模板文件 (Apache Sqoop Mapping)
- Tableau (Tableau Report File)
- TSQL Script (Microsoft SQL Server SQL)
- PL/SQL Script (Oracle SQL)
- Hive SQL Script (Apache Hive SQL)
血缘文件
血缘文件增加以目录的方式查看,用户可以点击左侧目录树中的全部数据查看所有血缘文件,可以点击具体节点查看当前节点下绑定的血缘文件。用户既可以查看当前目录下整体解析的结果,解析标准如下:
- 血缘文件增加状态,有解析成功,解析失败两个状态。
- 针对预处理文件可以下载,下载按钮改为原文件,新增预处理文件,用来下载预处理结果。
- 存储过程的预处理文件不可下载。
- 元数据的存储过程所有内容不能通过血缘下载。
- 对目录开放导入血缘文件下载血缘文件模版的功能,血缘模版包括EXCEL和SQL两种格式,用户可以按照自己的需要去选择上传。
- 对于单个血缘文件用户除查看外,还可以进行编辑,查看原始文件,查看预处理结果,下载和更新,同时用户可以通过搜索表的方式,以表为入口查看当前表所在目录下的血缘关系。
- 用户点击导入血缘文件时跳转到导入界面,用户可以通过下拉选择血缘文件类型,根据提示选择相应的文件(文件本身类型不限,要求内容符合类型)或者文件的压缩包进行指定目录上传解析。
- 用户点击下载血缘模版可以选择下载Excel模版,模版内容标记血缘结构。具体表头如下:
(9)用户也可以选择SQL模版,在Excel中以SQL描述的方式添加血缘结构,具体表头如下:
(10)用户可以查看当前血缘文件的解析结果,显示加工过程显示中间临时表,显示字段则到字段级血缘,可以依据schema或者业务系统分组,右下小地图方便用户定位当前分析位置。
(11)用户可以在查看超大血缘文件时,选择特定实体仅查看相关血缘。
(12)针对单个文件,用户除查看外,用户还可以选择编辑模式,用手动的方式修正血缘处理。避免出现解析错误的情况,编辑过程中用户可以通过撤销和恢复,纠正误操作。对编辑之后的结果可以进行保存。
(13)同时用户可以选择目标血缘文件下载到本地进行查看,重新编辑后通过更新重新选择文件后对原有血缘文件进行覆盖,以更新的方式上传时用户不可修改文件类型。
血缘目录
对血缘目录的管理,目录的属性分为基础信息内容,数据源,预处理脚本,血缘文件和配置批量任务,其中基础信息用于用户标识和管理目录的属性,用户可以通过编辑的方式进入当前目录的信息编辑,可以编辑的属性包括,名称,所在路径,负责维护的IT部门,主要使用的业务部门,辅助标识的标签信息,目录具体的负责人,以及针对目录的补充描述内容。
用户还可以绑定当前目录下血缘文件的解析范围,默认下级节点的数据源范围继承上级,一旦编辑下级节点后,将解除继承关系。用户可以通过列表的方式添加系统的数据源。
目录下用户还可以绑定预处理脚本,实现对血缘文件的参数替换加工,脚本作用范围为一类数据库可以通过启用和禁用,完成脚本的调用。用户添加脚本时也是选择在平台中已经添加的脚本。
血缘目录下可以绑定血缘文件采集任务,用户通过定义任务名称,计划任务管理以及任务参数完成对指定路径的文件采集,包括本地采集和远程采集。编辑完成后用户可以进行采集测试,并对任务进行保存。
脚本管理
该模块是用户用来管理平台预处理脚本,用户可以通过上传,新建等两种方式完成脚本添加,模块提供模版下载,模版包括脚本名称,脚本描述,脚本的类型,语言类型脚本具体的内容以及启用状态。脚本目前支持JavaScript和正则表达式两种语言类型,完成添加后用户可以在血缘目录中引用脚本,完成针对性的内容替换
系统管理
用户与角色
机构管理
维护管理全平台的组织机构,支持维护组织机构的目录结构和部门节点。平台也支持通过集成开发对接企业已有组织机构管理系统,通过API同步更新,在本手册中介绍的是手动维护的操作场景。
新建、编辑、删除机构
- 选择需要创建机构目录的路径,点击新建下级,在右侧输入新机构的信息并保存后完成新建机构。
- 选择已有的机构点击编辑,修改信息后保存完成机构编辑。
- 选择已有的机构点击删除,二次确认后完成删除机构。
*注:有下级机构的机构不可删除,机构下有用户的机构不可删除。机构编码作为机构的唯一标识不可修改
机构人员管理
选择已有机构后在右侧的人员列表中查看当前机构下已有的用户,点击添加用户可以为当前机构新增用户。
*注:因用户必须维护机构信息,故机构下用户无法删除,需要修改用户的所属机构时,可以在用户管理中修改用户所属的机构或直接在机构管理中目标机构下新增该用户。
用户管理
维护管理全平台的用户,支持新建用户、编辑用户信息等。平台也支持通过集成开发对接企业已有用户管理系统,通过API同步更新,在本手册中介绍的是手动维护的操作场景。
新建、编辑用户
- 点击新建在新页面中输入新用户的信息,确认并完成新建用户。
- 对已有用户点击编辑,修改用户信息并确认后完成编辑用户。
*注:创建用户时需要为用户选择角色、所属系统、所属组织机构,在新建用户前请确保系统中已经维护好了用户角色、应用系统、组织机构。
禁用、启用用户
对已有用户点击状态切换按钮,切换用户的禁用和启用状态,处于禁用状态的用户将无法登录系统。
角色管理
管理所有Datablau产品通用的系统角色,通过系统角色为用户赋予产品功能权限。
新建、编辑、删除角色
- 点击新建在新页面中输入角色信息并勾选该角色需要赋予的功能权限,确认并完成新建。
- 对已有角色点击编辑,修改信息并确认后完成编辑角色。
- 对已有角色点击编辑,二次确认后完成编辑角色。
*注:系统初始化自带默认角色,可根据业务需要进行编辑。
角色成员列表
在成员列表页中可以查看角色赋予的用户,添加新用户或移除已被赋予的用户。
用户组管理
维护管理全平台的用户组,用户组用于虚拟组织管理、批量赋权、多人审批设置等场景。
新建、编辑、删除用户组
- 点击新建输入用户组信息,保存后完成用户组新建,在成员列表中点击添加,选择需要加入该用户组的用户并保存完成为用户组添加用户,点击用户后的移除可以从用户组中移除该用户。
- 选择已有的用户组点击编辑,修改信息后保存完成编辑。
- 选择已有的用户组点击删除,二次确认后完成删除。
元数据权限
元数据的采样数据是受功能权限管控,如果该功能权限开启,那么采样数据均可看见,功能权限和角色绑定,可以参考“角色管理”中的管理配置
驱动管理
维护供数据源使用的数据库驱动,上传数据库对应版本的驱动可以减少数据源连接中遇到的问题
添加、删除驱动
- 选择对应数据库类型,点击添加驱动,从本地上传驱动文件并保存,完成添加驱动。
- 点击删除驱动,二次确认后完成删除驱动,正在被数据源使用的驱动无法删除。
*注:初始化时需要用户根据实际情况上传驱动
设置默认驱动
选择对应数据库类型,在默认驱动设置框中,选择一个已经添加的驱动作为该数据源类型的默认驱动,在创建该数据库类型数据源时,驱动会初始化为默认驱动。
插件管理
数据源中支持的数据库类型由数据源插件决定,需要上传对应数据库的数据源插件后才能在数据源中新建该类型数据库的数据源。
上传插件
点击上传选择本地插件文件,确认后完成上传。
*注:已上传的插件无法删除,需要更新数据源插件时重新上传即可覆盖。对于一个数据源,数据源插件包含连接、采集等多种功能对应的jar文件。数据源插件与逆向插件存在差异,需要分别上传管理,建议仅由开发人员管理。
数据源
管理维护可供Datablau所有产品中使用的数据源连接,用于元数据采集、数据质量检核、数据库模型逆向,数据开发执行等数据相关工作。
新建、编辑、删除数据源
- 点击新建,在新页面中输入新建一个数据源的必要信息,点击测试检查数据源的连通性,测试通过后确定完成新建数据源的操作,若测试失败则根据返回的信息调整数据源连接信息。
- 对于已有的数据源,点击编辑,在详情页中编辑数据源的属性信息,若修改认证信息需要重新完成连通性测试,点击确定后保存编辑结果。
对于已有的数据源,点击删除,二次确认删除操作后即可删除数据源。
*注:
- 其他Datablau产品通过数据源中维护的信息连接数据源,请结合后续功能流程中对数据源的权限需求,维护认证信息。
- 删除数据源会导致其他Datablau产品执行数据源相关功能、任务失败。
查看数据源
点击查看,用户可以看到当前数据源的基本信息和调用信息,基本信息为数据库链接信息,调用信息为引用当前数据源的模块信息。
订阅数据源
点击订阅,订阅所选数据源,在数据源下采集到的元数据发生变更、元数据与数据模型比较存在差异等场景下,订阅数据源的用户会收到系统邮件、消息通知。
标签管理
标签体系中维护了供datablau所有产品中使用的标签,标签可以被引用在各类对象上用于属性标识、搜索过滤等。
新建、编辑、删除标签
- 点击标签目录上方的加号,输入分组名称新建标签分组,标签分组是维护标签的一级主题。点击标签分组中新建目录,在标签分组下创建标签目录作为标签的二级主题。点击标签目录中新建标签,输入标签信息并确认后完成新建标签。
- 选择已有的标签并点击编辑,修改标签原有的信息并保存后完成编辑标签。
- 选择已有的标签并点击删除,二次确认后完成删除标签。
*注:被对象引用的标签无法删除。
标签引用信息
选择标签后在右侧显示标签的详细信息以及标签当前的被引用情况,点击取消引用可以将当前标签的所有引用关系断开。