【平台优化】大数据集群一个客户端参数引起的任务性能差的问题

大数据集群一个客户端参数引起的任务性能差的问题

背景介绍
排查过程
- 任务慢的具体原因
- - Executor中数据内存往磁盘溢写
  - 结果数据写入分区路径
- 分析
- 解决方案
结语&思考

背景介绍

随着业务量不断扩大，平台逐步发展成HDFS多联邦的架构，这个过程中，作为平台维护人员也会对参数进行不定期的优化以应对逐渐繁重的存算压力。

最近一个重点保障业务的计算任务无法满足客户的数据时延要求，客户很生气，然后也是各种投诉，然后项目上的同事就拉着一起查了下问题，最终定位到是一个客户端参数在大体量集群下造成的，记录一下

排查过程

在对日志进行分析的时候，主要发现了2个导致执行时间延长的点，分开进行说明：

任务慢的具体原因

在定位的时候，主要有2个地方会导致任务执行时间延长；

Executor中数据内存往磁盘溢写

任务执行过程中，可能会看到下面的这种日志，这样的日志一般是业务问题导致的，内存不够用，临时溢写磁盘，但是对于一个执行时间达到几个小时的任务来说，这个并不是主要的原因
在这里插入图片描述

结果数据写入分区路径

先看一个日志的关键截图，首先是9:31分：
在这里插入图片描述
然后是12:25分的日志

上图中可以看到在创建分区路径到数据完全写入完成度过了接近3个小时。

分析

因为可以基本定位到结果数据写入分区路径是主要影响任务时长的原因，所以对任务日志进行进一步排查，找找可能得原因；对比慢日志和快日志，有一个明显区别：

// 执行速度比较快的任务日志
2025-03-19 11:35:16,253 INFO org.apache.hadoop.hive.common.FileUtils: Creating directory if it doesn't exist: viewfs://nsX/ns3/path/.hive-staging_hive_2025-03-19_11-35-16_251_7169943507895305206-1
// 执行速度比较慢的任务日志
2025-03-19 07:35:37,022 INFO org.apache.hadoop.hive.common.FileUtils: Creating directory if it doesn't exist: viewfs://ns0/spark-tmp/stagedir/.hive-staging_hive_2025-03-19_07-35-37_020_688260183047175897-1

这个是在执行计算任务的时候指定的数据临时写入的目录路径，如果任务提交节点的客户端配置文件/etc/spark/conf/hive-site.xml中没有指定hive.exec.stagingdir参数，最终hive-staging就会写入到表对应的目录下（这是默认行为）如果客户端配置了这个参数，就会写入到参数指定的目录。

通过日志分析的结果，我们发现任务提交节点的客户端配置配置了该参数的话，任务执行时间久的数量远大于那些没配置该参数的提交节点，对此我们进行了对比：
在这里插入图片描述
进一步分析下来，确定了问题逻辑，因为集群是联邦环境，业务表可能存在于任意一个联邦，如果配置了hive.exec.stagingdir参数，任务执行时临时数据就会写入到一个指定的联邦下，这个时候，如果结果表的路径在其他联邦，那么业务逻辑完成后，就会存在跨联邦复制数据的动作；