数据的profile 能力包括:
数据集的条数、空值等。
针对枚举字段枚举值的统计,针对数据类型字段数值分布范围的统计。
用户自定义策略的统计。提供用户自定义界面,可以组合各种规则统计数据集中满足条件的数据条数。
针对各类指标的时序可视化展示。数据profile 有了时序的概念,才能做一些数据趋
势的分析,以及监控和报警。数据平台应该可灵活配置数据集profile 的计算频率。对于不同的数据集,数据量差距很大。针对一个小表,数据集的profile 可能秒出,大库大表的数据集的profile只能定时运行了。