本文根据《Data+AI融合趋势下的智能数仓平台建设》线下meetup演讲实录整理而成
王龙强-畅捷通数据架构师
今天非常荣幸能够与大家分享用友畅捷通基于阿里云 MaxCompute(以下简称 MC)构建智能数据仓库的落地实践经验。本次分享将从以下几个方面展开:一是业务背景,介绍我们在2017年启动数仓搭建时的技术选型背景;二是选择 MC 作为核心技术平台的原因及具体应用案例;三是对未来工作的展望。
业务背景
畅捷通信息技术股份有限公司成立于2010年3月,是用友集团旗下的核心成员企业,专注于为企业提供数字化转型解决方案。公司的发展历程可以概括为以下几个关键阶段:
-
2005年至2012年:深耕传统软件服务领域,相继推出了T1、T3、T6和T+等经典产品。
-
2013年:正式启动SaaS服务转型战略。
-
2014年至2016年:数智财税板块取得突破性进展,成功推出“好会计”与“易代账”两款拳头产品。
-
2018年至2019年:数智商业板块再攀高峰,“好生意”与“T+C”应运而生。
-
2019年至今:全面构建云服务平台,不断完善云原生架构,并重磅推出“好业财”产品。
随着业务规模的迅速扩张,畅捷通在数据管理方面遇到了诸多挑战。经过深入分析,我们总结出以下六大痛点:
-
数据孤岛现象严重:内部系统繁多,数据分散于各类数据库与文件系统中,亟需统一整合。
-
数据规模大且复杂:自2017年起,随着SaaS服务转型,数据量呈指数级增长,传统关系型数据库难以承载如此海量的数据。
-
要求较高的数据处理能力:面对庞大的数据量,我们需要一个具备极高处理能力的数据仓库。
-
Serverless 云原生能力:畅捷通的五个核心SaaS产品都是生在云上,长在云上,因此需要一个具有 Serverless 云原生能力,且生态友好的数据仓库。
-
数据安全与可靠性:数据是企业的核心资产,数据的安全性和可靠性至关重要。企业需要确保数据在存储、处理和传输过程中的安全性和可靠性,防止数据泄露、丢失或被篡改。
-
实时性要求不高:批计算因其严谨性和准确性,在我们的业务中占据重要地位。
基于以上考虑,我们最终选择了阿里云MC作为数据仓库的核心技术平台。
以下是畅捷通当前数据仓库的技术架构图,尽管该架构已经具备一定的成熟度,但我们仍在持续优化和改进。从整体架构来看,数据流从左侧的数据源端到右侧的数据应用端贯穿始终,并通过实时链路和离线链路两条链路实现数据处理。今天,我将重点聚焦于离线链路的设计与实现。在离线链路中,我们通过DTS、DataHub、DataWorks、DataX 等数据集成工具将数据收集到MC,再通过MC数仓分层对数据进行加工和抽象,最终为外部数据应提供了支持。
案例分享
指标计算
简单分析两个案例,首先是指标计算。我们的业务系统会生成业务数据,这些数据会通过 PolarDB 的 DTS 数据同步,同步到 DataHub,随后再通过 MC 的Connector 连接到 MC 中。尽管从技术实现的角度来看,完全可以省略中间的 DataHub 环节,直接将 PolarDB 的数据通过 DTS 同步至 MC,但我们在架构设计中引入了 DataHub 以满足部分系统对实时数据的需求,通过创建 Topic 方式创建 SubID,就可以获取数据用于实时业务研发。当数据进入 MC 后,我们会对其进行每日的日志合并操作,从而生成贴源层数据,在此基础上,进一步通过明细数据加工、汇总数据加工以及应用数据加工等操作,逐步形成 ADS 层数据,为后续的实时数仓(如 StarRocks 或 Hologres)提供数据支持。最终,服务于多样化的数据应用场景。
财务参谋就是一个最典型的指标计算案例。在大数据背景下,为了满足企业内外部数据分析的需要,我们推出了数字参谋产品,财务参谋是其中的一部分,重点突出经营成果、效果、风险,既普适仅购买财务系统的管理者,又适合买业务系统的管理者。我们提供的指标主要包括两方面,一是企业内的指标分析,另外就是对标行业的指标分析,将企业的财务相关经营指标与行业优秀指标对照,就可以识别企业的经营健康度与成长性。企业内指标分析主要是从以下五个维度:
-
盈利分析:从盈利视角看待企业的经营,通过分析企业赚取利润的路径、达成盈利的能力来指引企业经营方向,帮助企业寻求科学有效的改进方向。
-
费用分析:通过分析企业的费用构成、费用占比,挖掘降低费用的潜力,提高企业经济效益。
-
资金分析:资金是企业经营的流动血液,资金的良性使用和循环,对企业正常运行起到保障作用,通过分析企业当前和未来资金状况,揭露企业经营中资金风险。
-
资产分析:资产的规模直接、间接地反映企业的规模,通过分析企业的资产质量,看企业资产分布的合理性,揭露企业资产风险。
-
税负分析:分析企业的税负情况,纳税风险与企业的综合税负率。
数据分析
第二个案例是数据分析。数据分析在数仓中的重要性不言而喻。从决策支持角度,数据分析帮助企业管理者进行战略决策制定,在面临重大业务转型或资源分配调整时,数据分析可以提供量化的依据,帮助企业进行业务决策优化。站在业务流程改进角度,数据分析为客户关系管理优化提供了强有力的支持。通过埋点方式,采集用户行为数据,并结合用户画像与行为路径分析,企业能够深入理解用户的偏好、需求及痛点。这些洞察不仅有助于优化产品设计和服务流程,还能指导精准营销策略的制定。例如,通过分析用户流失的关键节点,企业可以及时采取干预措施从而降低用户流失率。数据分析也是营销活动效果评估与优化的重要工具。例如进行广告投放时,通过投放结果数据分析,就可以评估活动效果,判断数据投放是否合理,从而更加科学地调整广告内容及投放策略。
数据分析整体流程就是通过 DataWorks 数据集成、DataX、SLS日志、Datahub 等工具,将来自各个数据源的数据统一收集到 MC,经历一系列的 数据清洗和数据计算后,形成一定的宽表和指标。随后,这些加工后的数据会根据具体需求保留在 MC 中、回写至业务库、或者加载至实时数仓支持数据应用。
下图罗列了畅捷通涉及数据分析的系统:
-
北极星系统是公司的运营系统,存储了所有的渠道、运营、产品等部门相关的报表和数据,为管理者提供公司统一的运营数据。
-
达尔文系统是伙伴客户管理系统,是所有伙伴的客户,运营,回访,代客下单,跟踪成单系统。
-
SCRM是公司客户管理系统,运营和电商人员基于此系统对所有公司的客户进行定期回访跟进,然后直营部门成单,同时也支持电商人员查看统计报表。
-
交付系统是客户成功部对已成单客户进行产品交付,包含交付客户的基础数据以及产品使用等数据。
-
开放平台,对接生态平台数据,如第三方钉钉、企微等数据。
-
标签系统是用户画像系统,为用户进行打标签计算,为更上层的应用服务,为用户提供更加个性化的服务与体验。
未来展望
数据湖探索实践
随着数据规模的持续增长以及业务复杂度的不断提升,传统的数据存储架构已难以满足日益增长的需求。因此,我们将在数据湖领域进行更深层次的探索,尤其是围绕湖仓一体展开技术实践。无论是采用“湖上挂仓”、“仓上建湖”,还是“大湖小仓”的架构模式,我们的目标是构建一个灵活、高效且可扩展的数据存储与计算体系。在数据湖之上,我们将部署离线计算和实时计算两套引擎。离线计算引擎首选 MC,同时积极探索 MC 最新的物化视图功能,尝试用其替代原有的 MC 部分计算算子。实时计算引擎则以 StarRocks 为核心,所有数据都会统一写到 StarRocks,由 StarRocks对外提供支持。
指标平台
人工智能与大模型技术正在快速发展,我们也会紧跟这一技术趋势,深度融合AI原生技术。我们计划采购一款三方指标平台,利用语义模型、归因分析、血缘分析、影响分析等能力,实现业务与流程的智能化和自动化。