数据地图:Data Map所有数仓都应该具备,主要用于元数据管理,可视化呈现
那数据地图包括哪些核心功能呢
1.表及字段的元数据及任务相关的信息
2.表和字段之间的血缘关系
3.所有的上下游,包括应用接口,报表,分析平台等
4.数据探查:数据量,主键,空值,0值,中位数,平均数,最大值,最小值等等
实现这些功能需要从哪些方面来呢
1.采集Hive本身的元数据,表及字段信息(内外表,注释,建表语句等)
2.ETL作业的log信息,获取任务相关的信息
3.表及字段级别的血缘关系(以前调研过atlas,是通过DAG实现的,但页面不太友好)
4.手动维护的数据:为资产分类,划分主题和等缘
应用场景有哪些:
1.帮助新用户快速了解数仓相关的资产
2.根据血缘关系评估影响
3.数据治理,制定对关键模型表的,治理方案
4.合规:可以看哪些部门哪些人拥有权限