《DAMA 数据治理知识指南》第八章 数据集成和互操作读书笔记
一、引言
在数字化转型不断深入的当下,企业数据量呈爆发式增长,数据管理成为企业发展的关键环节。《DAMA 数据治理知识指南》为我们系统地揭示了数据管理的各个层面,而其中的数据集成和互操作部分,更是数据治理的核心领域之一,对企业充分挖掘数据价值、提升业务效率起着至关重要的作用。
数据集成和互操作的重要地位
数据集成和互操作(DII)致力于数据在不同存储、应用程序及组织间的移动与整合,其成果为组织提供了不可或缺的数据管理职能 。在企业日常运营中,不同部门使用的系统各自为政,产生的数据分散且格式各异。比如销售部门的 CRM 系统记录客户信息和销售数据,财务部门的财务软件处理账目数据,这些数据若无法有效集成和互操作,就如同一个个孤岛,难以发挥其整体价值。通过数据集成,将分散的数据整合为一致格式,无论是物理整合还是虚拟整合,都为企业提供了统一的数据视图。而数据互操作则确保多个系统间能够顺畅通信,实现数据的共享与交换,这对于企业实现跨部门协作、支持决策制定以及提升运营智能化水平意义重大。
数据集成和互操作与数据管理的其他领域紧密相连。数据治理为其提供转换规则和消息结构的治理框架,确保数据在集成和互操作过程中有章可循;数据架构为解决方案设计提供基础架构支持,保障数据集成的合理性和可扩展性;数据安全在数据流动的各个环节,包括持久化、虚拟化或在应用程序和组织间传输时,都肩负着保护数据安全的重任,防止数据泄露和被非法篡改;元数据则帮助我们了解数据的技术清单、业务含义、转换规则以及数据血缘,让数据集成和互操作过程更加透明、可控;数据存储和操作负责管理解决方案的物理实例化,确保数据的存储和访问高效稳定;数据建模和设计为数据结构的设计提供指导,包括数据库中的物理持久化结构、虚拟数据结构以及数据传输中的消息结构,使得数据在不同系统间的交互更加顺畅。
数据集成和互操作对数据仓库和商务智能、参考数据和主数据管理而言,是实现数据从源系统到数据中心再到目标系统交付给数据消费者的关键过程。在大数据管理领域,它更是核心所在,助力整合结构化、非结构化等各种类型的数据,为数据挖掘、预测模型开发以及运营智能活动提供数据基础。
业务驱动因素与目标原则
1.1 业务驱动因素
企业进行数据集成和互操作主要源于多方面的业务需求。随着企业规模的扩大和业务的多元化,内部数据库和存储库数量众多,数据在这些系统间的流动管理成为信息技术组织的重要职责。若管理不善,不仅会消耗大量 IT 资源,还会削弱对传统应用程序和数据管理领域的支持能力。例如,一些企业从软件供应商处购买应用程序,这些应用程序各自拥有数据存储,与企业现有数据存储集成时,若缺乏有效的数据集成和互操作机制,就会导致数据管理混乱,增加运营成本。
数据仓库和主数据解决方案虽能整合数据、提供一致视图,但要实现高效运作,离不开数据集成和互操作技术的支持。像中心辐射型集成和规范化消息模型等技术,能有效简化数据管理的复杂性。此外,维护管理成本也是重要考量因素。使用多种数据移动技术会增加开发和维护成本,而采用标准工具可降低成本,提高故障排除效率。同时,数据集成和互操作还能助力企业遵守数据处理标准和规则,通过重用代码实现规则兼容性,简化验证工作。
1.2 目标和原则
数据集成和互操作的实施目标明确,旨在及时以数据消费者所需格式提供数据,无论是人还是系统,都能获取到符合自身需求的数据;将数据物理或虚拟地合并到数据中心,便于数据的集中管理和使用;通过开发共享模型和接口,降低管理解决方案的成本和复杂度,减少重复开发和维护工作;识别有意义的事件,如市场机会或潜在风险,自动触发警报并采取相应行动,提升企业的响应速度和决策能力;支持商务智能、数据分析、主数据管理以及运营效率的提升,为企业的业务发展提供全方位支持。
在实施过程中,组织应遵循一系列原则。采用企业视角进行设计,确保未来的可扩展性,通过迭代和增量交付逐步完善,避免一次性大规模开发带来的风险;平衡本地数据需求与企业数据需求,包括数据的支撑与维护,既要满足各部门的个性化需求,又要保证企业整体数据的一致性和协同性;确保设计和活动的可靠性,让业务专家参与数据转换规则的设计和修改,无论是持久性数据还是虚拟数据,都能符合业务实际需求。
1.3 基本概念解析
- 抽取、转换、加载(ETL)及相关概念
ETL 是数据集成和互操作的核心过程,涵盖抽取、转换和加载三个关键步骤。抽取过程从源数据中选择并提取所需数据,存储在磁盘或内存的物理数据存储库中。在操作型系统上执行时,需考虑资源占用,避免影响业务操作,可选择在非高峰时间进行批处理,或采用复杂的处理方式识别待抽取的更改数据。转换过程使选定数据与目标数据库结构兼容,包括格式变化、结构变化、语义转换、消除重复和重新排序等多种情况,可批量或实时执行,转换结果可存储在物理缓存区域或虚拟内存中。加载过程将转换结果在目标系统中物理存储或呈现,根据转换结果和目标系统用途,数据可能需进一步处理或直接呈现给消费者。
当目标系统转换能力强于源系统或