欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 时评 > 【Yarn】Yarn监控调研分析与实现设计

【Yarn】Yarn监控调研分析与实现设计

2025/2/22 16:52:59 来源:https://blog.csdn.net/weixin_43820556/article/details/144473900  浏览:    关键词:【Yarn】Yarn监控调研分析与实现设计

文章目录

  • Yarn监控调研分析与实现设计
    • 需求
      • 管理侧
      • 普通用户侧
    • 采集指标
    • 指标链路
      • doris表设计
        • yarn_jmx_queue_metric
        • yarn_jmx_queue_metric_latest
        • yarn_jmx_resource_manager_metric
    • 指标展示
  • 附录1 官网指标说明
  • jvm 相关
    • JvmMetrics
  • rpc 相关
    • rpc
  • yarn 相关指标
    • ClusterMetrics
    • QueueMetrics
    • NodeManagerMetrics
    • ContainerMetrics
  • 附录2 阿里云参考
    • YARN-主指标
    • 队列指标
    • YARN-Resourcemanagers
    • YARN-JobHistory

Yarn监控调研分析与实现设计

需求

管理侧

队列指标情况(按时间序列)

  • 已提交的应用数量
  • 正在运行的应用数量
  • 阻塞(正在等待)的应用数量
  • 失败的应用数量
  • kill的应用数量
  • 最大可运行的应用数量
  • 队列分配的资源使用情况(已使用的内存数,已使用的内核数,最大分配的可用的内存数,最大分配的可用的内核数,内存pending数,CPI内核pending数)

ResourceManager(Acticve状态)的JVM情况 (按时间序列)

  • 某一段时间跨度里,1min粒度内发生GC的次数与GC的耗时
  • 是否可以区分不同的GC,回收堆:youngGC 年轻代,OldGC 老年代,MixedGC 收集整个年轻代和部分老年代,FullGC 整个堆GC。 需要借助zabbix,使用java原生命令jstat
  • 堆内存使用率与空闲率
  • 非堆内存使用率与空闲率
  • 线程情况

ResourceManager(Acticve状态)端口RPC情况(按时间序列)

  • 当前连接数
  • 请求处理数
  • 请求处理耗时
  • 请求堆积长度
  • 请求堆积等待耗时

核心端口使用情况(操作数量,操作耗时,队列长度,连接数等)

  • yarn.resourcemanager.address的值,代表ResourceManager的地址端口

    1. 与客户端交互:处理来自客户端的请求,如提交应用程序、查询资源状态等。
    2. 管理ApplicationMaster:启动、管理、重启ApplicationMaster(AM)。AM是用户程序的入口,负责与RM协商资源,并与NodeManager协同运行Container,监控资源消耗。
    3. 管理NodeManager:接收NodeManager的资源汇报信息,并向NodeManager下达管理指令,如杀死Container。
    4. 资源管理与调度:接收ApplicationMaster的资源申请请求,并为之分配资源
  • yarn.resourcemanager.resource-tracker.address的值,代表ResourceManager 的资源跟踪器地址端口

    1. NodeManager通过该地址向RM汇报心跳,领取任务等,主要作用是确保 YARN 集群中的节点能够正确地与 ResourceManager 的 ResourceTracker 组件通信,从而节点能够向 ResourceManager 注册并报告自己的资源状态。如果这个地址配置错误,可能会导致节点无法向 ResourceManager 注册或者资源状态无法正确更新,进而影响到作业和应用的调度和执行。
  • yarn.resourcemanager.scheduler.address 的值,代表ResourceManager 对ApplicationMaster暴露的访问地址。ResourceManager 的调度器的端口,负责分配和管理集群资源。

    1. ApplicationMaster通过该地址向RM申请资源、释放资源等。

普通用户侧

队列指标情况(按时间序列)

  • 已提交的应用数量
  • 正在运行的应用数量
  • 阻塞(正在等待)的应用数量
  • 失败的应用数量
  • kill的应用数量
  • 最大可运行的应用数量
  • 队列分配的资源使用情况(已使用的内存数,已使用的内核数,最大分配的可用的内存数,最大分配的可用的内核数,内存pending数,CPI内核pending数)

采集指标

使用yarn.resourcemanager.webapp.address地址请求JMX

队列相关指标:http://XXXXX:XXXX/jmx?qry=Hadoop:service=ResourceManager,name=QueueMetrics,*

集群相关指标:

http://XXXXX:XXXX/jmx?qry=Hadoop:service=ResourceManager,name=RpcActivityForPort*

http://XXXXX:XXXX/jmx?qry=Hadoop:service=ResourceManager,name=RpcDetailedActivityForPort*

http://XXXXX:XXXX/jmx?qry=Hadoop:service=ResourceManager,name=JvmMetrics

http://XXXXX:XXXX:8088/jmx?Hadoop:service=ResourceManager,name=FSOpDurations

分类指标Key
NodeUpdateCallNodeUpdateCallNumOps2-NodeUpdateCallNumOps1
NodeUpdateCallNodeUpdateCallAvgTime
UpdateThreadRunUpdateThreadRunNumOps2-UpdateThreadRunNumOps
UpdateThreadRunUpdateThreadRunAvgTime
8031端口操作与耗时RpcQueueTimeNumOps2-RpcQueueTimeNumOps1
8031端口操作与耗时RpcQueueTimeAvgTime
8031端口操作与耗时RpcProcessingTimeNumOps2-RpcProcessingTimeNumOps1
8031端口操作与耗时RpcProcessingTimeAvgTime
8031端口操作与耗时NodeHeartbeatNumOps2-NodeHeartbeatNumOps1
8031端口操作与耗时NodeHeartbeatAvgTime
8031端口连接数与队列NumOpenConnections
8031端口连接数与队列CallQueueLength
23130端口操作与耗时RpcQueueTimeNumOps2-RpcQueueTimeNumOps1
23130端口操作与耗时RpcQueueTimeAvgTime
23130端口操作与耗时RpcProcessingTimeNumOps2-RpcProcessingTimeNumOps1
23130端口操作与耗时RpcProcessingTimeAvgTime
23130端口操作与耗时AllocateNumOps2-AllocateNumOps1
23130端口操作与耗时AllocateAvgTime
23130端口连接数与队列NumOpenConnections
23130端口连接数与队列CallQueueLength
23140端口操作与耗时RpcQueueTimeNumOps2-RpcQueueTimeNumOps1
23140端口操作与耗时RpcQueueTimeAvgTime
23140端口操作与耗时RpcProcessingTimeNumOps2-RpcProcessingTimeNumOps1
23140端口操作与耗时RpcProcessingTimeAvgTime
23140端口连接数与队列NumOpenConnections
23140端口连接数与队列CallQueueLength
JVM 内存MemHeapUsedM
JVM 内存MemHeapMaxM
JVM GCGcCount2-GcCount1
JVM GC(GcTimeMillis2-GcTimeMillis1)/(GcCount2-GcCount1)
CPU 情况AllocatedVCores
CPU 情况MaxShareVCores
CPU 情况MinShareVCores
内存情况AllocatedMB
内存情况MaxShareMB
内存情况MinShareMB
资源等待情况PendingMB
资源等待情况PendingVCores
APP 情况MaxApps
APP 情况AppsSubmitted2-AppsSubmitted1
APP 情况AppsRunning
APP 情况AppsPending
APP 情况AppsCompleted2-AppsCompleted1
APP 情况AppsKilled2-AppsKilled1
APP 情况AppsFailed2-AppsFailed1
Container 情况AllocatedContainers
Container 情况PendingContainers

指标链路

消费侧
jmx采集侧
展示侧

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词