欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 美食 > 用友畅捷通基于阿里云 MaxCompute 搭建智能数仓的落地实践

用友畅捷通基于阿里云 MaxCompute 搭建智能数仓的落地实践

2025/4/19 2:40:46 来源:https://blog.csdn.net/weixin_48534929/article/details/147085283  浏览:    关键词:用友畅捷通基于阿里云 MaxCompute 搭建智能数仓的落地实践

本文根据《Data+AI融合趋势下的智能数仓平台建设》线下meetup演讲实录整理而成

王龙强-畅捷通数据架构师

今天非常荣幸能够与大家分享用友畅捷通基于阿里云 MaxCompute(以下简称 MC)构建智能数据仓库的落地实践经验。本次分享将从以下几个方面展开:一是业务背景,介绍我们在2017年启动数仓搭建时的技术选型背景;二是选择 MC 作为核心技术平台的原因及具体应用案例;三是对未来工作的展望。

业务背景

畅捷通信息技术股份有限公司成立于2010年3月,是用友集团旗下的核心成员企业,专注于为企业提供数字化转型解决方案。公司的发展历程可以概括为以下几个关键阶段:

  • 2005年至2012年:深耕传统软件服务领域,相继推出了T1、T3、T6和T+等经典产品。

  • 2013年:正式启动SaaS服务转型战略。

  • 2014年至2016年:数智财税板块取得突破性进展,成功推出“好会计”与“易代账”两款拳头产品。

  • 2018年至2019年:数智商业板块再攀高峰,“好生意”与“T+C”应运而生。

  • 2019年至今:全面构建云服务平台,不断完善云原生架构,并重磅推出“好业财”产品。

随着业务规模的迅速扩张,畅捷通在数据管理方面遇到了诸多挑战。经过深入分析,我们总结出以下六大痛点:

  • 数据孤岛现象严重:内部系统繁多,数据分散于各类数据库与文件系统中,亟需统一整合。

  • 数据规模大且复杂:自2017年起,随着SaaS服务转型,数据量呈指数级增长,传统关系型数据库难以承载如此海量的数据。

  • 要求较高的数据处理能力:面对庞大的数据量,我们需要一个具备极高处理能力的数据仓库。

  • Serverless 云原生能力:畅捷通的五个核心SaaS产品都是生在云上,长在云上,因此需要一个具有 Serverless 云原生能力,且生态友好的数据仓库。

  • 数据安全与可靠性:数据是企业的核心资产,数据的安全性和可靠性至关重要。企业需要确保数据在存储、处理和传输过程中的安全性和可靠性,防止数据泄露、丢失或被篡改。

  • 实时性要求不高:批计算因其严谨性和准确性,在我们的业务中占据重要地位。

基于以上考虑,我们最终选择了阿里云MC作为数据仓库的核心技术平台。

以下是畅捷通当前数据仓库的技术架构图,尽管该架构已经具备一定的成熟度,但我们仍在持续优化和改进。从整体架构来看,数据流从左侧的数据源端到右侧的数据应用端贯穿始终,并通过实时链路和离线链路两条链路实现数据处理。今天,我将重点聚焦于离线链路的设计与实现。在离线链路中,我们通过DTS、DataHub、DataWorks、DataX 等数据集成工具将数据收集到MC,再通过MC数仓分层对数据进行加工和抽象,最终为外部数据应提供了支持。

案例分享

指标计算

简单分析两个案例,首先是指标计算。我们的业务系统会生成业务数据,这些数据会通过 PolarDB 的 DTS 数据同步,同步到 DataHub,随后再通过 MC 的Connector 连接到 MC 中。尽管从技术实现的角度来看,完全可以省略中间的 DataHub 环节,直接将 PolarDB 的数据通过 DTS 同步至 MC,但我们在架构设计中引入了 DataHub 以满足部分系统对实时数据的需求,通过创建 Topic 方式创建 SubID,就可以获取数据用于实时业务研发。当数据进入 MC 后,我们会对其进行每日的日志合并操作,从而生成贴源层数据,在此基础上,进一步通过明细数据加工、汇总数据加工以及应用数据加工等操作,逐步形成 ADS 层数据,为后续的实时数仓(如 StarRocks 或 Hologres)提供数据支持。最终,服务于多样化的数据应用场景。

财务参谋就是一个最典型的指标计算案例。在大数据背景下,为了满足企业内外部数据分析的需要,我们推出了数字参谋产品,财务参谋是其中的一部分,重点突出经营成果、效果、风险,既普适仅购买财务系统的管理者,又适合买业务系统的管理者。我们提供的指标主要包括两方面,一是企业内的指标分析,另外就是对标行业的指标分析,将企业的财务相关经营指标与行业优秀指标对照,就可以识别企业的经营健康度与成长性。企业内指标分析主要是从以下五个维度:

  • 盈利分析:从盈利视角看待企业的经营,通过分析企业赚取利润的路径、达成盈利的能力来指引企业经营方向,帮助企业寻求科学有效的改进方向。

  • 费用分析:通过分析企业的费用构成、费用占比,挖掘降低费用的潜力,提高企业经济效益。

  • 资金分析:资金是企业经营的流动血液,资金的良性使用和循环,对企业正常运行起到保障作用,通过分析企业当前和未来资金状况,揭露企业经营中资金风险。

  • 资产分析:资产的规模直接、间接地反映企业的规模,通过分析企业的资产质量,看企业资产分布的合理性,揭露企业资产风险。

  • 税负分析:分析企业的税负情况,纳税风险与企业的综合税负率。

数据分析

第二个案例是数据分析。数据分析在数仓中的重要性不言而喻。从决策支持角度,数据分析帮助企业管理者进行战略决策制定,在面临重大业务转型或资源分配调整时,数据分析可以提供量化的依据,帮助企业进行业务决策优化。站在业务流程改进角度,数据分析为客户关系管理优化提供了强有力的支持。通过埋点方式,采集用户行为数据,并结合用户画像与行为路径分析,企业能够深入理解用户的偏好、需求及痛点。这些洞察不仅有助于优化产品设计和服务流程,还能指导精准营销策略的制定。例如,通过分析用户流失的关键节点,企业可以及时采取干预措施从而降低用户流失率。数据分析也是营销活动效果评估与优化的重要工具。例如进行广告投放时,通过投放结果数据分析,就可以评估活动效果,判断数据投放是否合理,从而更加科学地调整广告内容及投放策略。

数据分析整体流程就是通过 DataWorks 数据集成、DataX、SLS日志、Datahub 等工具,将来自各个数据源的数据统一收集到 MC,经历一系列的 数据清洗和数据计算后,形成一定的宽表和指标。随后,这些加工后的数据会根据具体需求保留在 MC 中、回写至业务库、或者加载至实时数仓支持数据应用。

下图罗列了畅捷通涉及数据分析的系统:

  • 北极星系统是公司的运营系统,存储了所有的渠道、运营、产品等部门相关的报表和数据,为管理者提供公司统一的运营数据。

  • 达尔文系统是伙伴客户管理系统,是所有伙伴的客户,运营,回访,代客下单,跟踪成单系统。

  • SCRM是公司客户管理系统,运营和电商人员基于此系统对所有公司的客户进行定期回访跟进,然后直营部门成单,同时也支持电商人员查看统计报表。

  • 交付系统是客户成功部对已成单客户进行产品交付,包含交付客户的基础数据以及产品使用等数据。

  • 开放平台,对接生态平台数据,如第三方钉钉、企微等数据。

  • 标签系统是用户画像系统,为用户进行打标签计算,为更上层的应用服务,为用户提供更加个性化的服务与体验。

未来展望

数据湖探索实践

随着数据规模的持续增长以及业务复杂度的不断提升,传统的数据存储架构已难以满足日益增长的需求。因此,我们将在数据湖领域进行更深层次的探索,尤其是围绕湖仓一体展开技术实践。无论是采用“湖上挂仓”、“仓上建湖”,还是“大湖小仓”的架构模式,我们的目标是构建一个灵活、高效且可扩展的数据存储与计算体系。在数据湖之上,我们将部署离线计算和实时计算两套引擎。离线计算引擎首选 MC,同时积极探索 MC 最新的物化视图功能,尝试用其替代原有的 MC 部分计算算子。实时计算引擎则以 StarRocks 为核心,所有数据都会统一写到 StarRocks,由 StarRocks对外提供支持。

指标平台

人工智能与大模型技术正在快速发展,我们也会紧跟这一技术趋势,深度融合AI原生技术。我们计划采购一款三方指标平台,利用语义模型、归因分析、血缘分析、影响分析等能力,实现业务与流程的智能化和自动化。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词