欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 美景 > 要实现主动元数据,关键技术在算子级血缘解析

要实现主动元数据,关键技术在算子级血缘解析

2024/10/24 11:24:04 来源:https://blog.csdn.net/Aloudata/article/details/141724636  浏览:    关键词:要实现主动元数据,关键技术在算子级血缘解析

主动元数据管理最早被 Gartner 在 2016 年提出,在 2022 年 Gartner 公布的顶级战略技术趋势中,主动元数据被认为是实现 Data Fabric(数据编织)和主动数据治理的基石,也是实现 Data Fabric 的关键能力 。在这份技术趋势研究报告中,Data Fabric 作为一种面向未来的数据管理架构思想,入选为工程信任主题的关键技术趋势。

Gartner 认为,主动元数据是对所有可用的用户、数据管理、系统/基础设施和数据治理实践报告的持续分析,以确定数据设计与实际情况是否对齐或出现异常情况。

在 Aloudata 看来,主动元数据强调更深度更持续的数据理解,不只理解数据的 Schema、产出时间等基础信息,更多是要理解数据的加工口径、业务主体、汇总粒度及如何正确使用等;强调更主动的元数据服务,不再被动等待用户去数据目录检索信息,而是主动提供设计建议,抑或是可被系统执行的指令;强调与数据工具的主动集成,能够贯穿数据生产、消费、协同等环节,提供智能化建议,实施更主动的数据治理策略。

要实现主动元数据,关键技术在于算子级血缘解析。

数据血缘我们都不陌生,它描绘了数据的起源、流经路径及其转换过程的详尽记录,可以精确追溯数据的初始来源,明晰其历经的各类处理流程,以及最终的应用方式,从而帮助企业分析并监控数据在业务链条中的上下游依赖关系,为企业提升数据管理效率和质量提供“洞察能力”。

而数据血缘解析已经历了两代的发展变革。第一代是表级血缘,即关注表与表之间的依赖关系。然而,即便实现了 100% 准确的“表级血缘”追踪,但在实际业务场景中的应用受限。因为表与表之间的关系具有高度泛化性,在下探或上溯多层后扩散出百倍、千倍的上下游,使用难度大。

第二代是列级血缘。诸多厂商,包括开源界的 Atlas 项目等,都尝试通过关系推断和正则匹配方式构建上下游字段之间的依赖关系。但由于技术解析的复杂性和局限性,绝大多数厂商对列级血缘的解析准确率持谨慎态度。根据人工抽检统计,多数厂商的列级血缘准确率普遍低于 80%,这一使得众多企业在实际应用中对此技术持保留态度,担忧其稳定性和可靠性。

在此背景下,由 Aloudata 全球首创的第三代血缘解析技术——算子级血缘解析就登场了。

具体来说,算子级血缘解析技术能够深入作业脚本核心,实现白盒化解析,精确捕捉如 A 字段和 B 字段之间的复杂运算逻辑,包括是否经过临时表加工处理、是否存在 Join 操作以及具体的过滤条件等细节。通过算子级血缘解析,结合对脚本内部代码的抽取、改写、合并,能够帮助企业清晰勾勒出当前任务输出表中字段与输入表字段之间的完整加工关系,确保数据流转的透明化和可追溯性,洞悉作业脚本的每一个细微环节。

而实现算子级血缘解析,是基于 Aloudata 自主研发的多平台 SQL 语言解析器。它具备强大的语言兼容能力,能够精准解析各类 SQL 语言,深入剖析复杂的计算逻辑,还可以准确、精细刻画出字段之间错综复杂的加工关系,并提供代码改写能力,实现字段加工口径的提取和转换,最终构建出一张完整的血缘图谱,清晰地展示出数据上下游的列级交互关系,以及行级的影响关系。

总的来说,算子级血缘解析技术主要有“三大突破”。

1. 具备对整个数据链路中的各类 SQL 语言的全面理解和分析能力,能够深入解析 SQL 操作语句中的核心组件,包括 Select、Where、Having、Order by、Group by 等各类操作符,能够进行抽取、合并,详细追踪并可视化数据的流转和转换路径,提供更加精确和深入的数据血缘信息。

2. 在时效性上,能够做到在数小时内高效完成数十万张表及 DML 代码任务的深度解析和构建,快速生成全局数据血缘图谱。这张图谱不仅是数据关系的视觉化映射,更能够支持企业进行影响面分析、溯源追踪、口径盘点等工作。

3. 支持不同场景的元数据查询方案,支持超 10 亿以上的点边关系的元数据图谱实时查询,并提供自定义行级裁剪功能,确保根据业务需求精准过滤数据,秒级返回经过精细剪裁、高度相关的查询结果,提升数据查询效率和准确性。

有了算子级血缘解析技术,就能够帮助企业做到数据治理“看得清、管得住、治得动”,将传统元数据的被动等待变为实时在线、主动触发,推动数据探查、开发、测试、部署、运维和监控等数据治理工作高效运转,最终实现真正的主动元数据。

 

基于算子级血缘解析技术,Aloudata 自主研发推出了全球首个算子级血缘主动元数据平台——Aloudata BIG,能够帮助企业构建元数据知识图谱,通过这个图谱进行打标扩散、基线定义等。同时,Aloudata BIG 作为企业数据治理运营助手,支持反向元数据输出,比如进行血缘页面集成,或者服务 API 调用,通过 Kafka 的方式进行消息实时推送等。

Aloudata BIG 还提供增强元数据智能服务,为企业 DataOps 数据研发平台、数据资产平台、数据质量管控平台建设提供支持,助力实现“敏捷数据协同”和“主动智能的数据治理”。欢迎访问 Aloudata 官网,点击了解。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com