欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 旅游 > 【银河麒麟高级服务器操作系统】服务器卡死后恢复系统日志丢失-分析及处理全过程

【银河麒麟高级服务器操作系统】服务器卡死后恢复系统日志丢失-分析及处理全过程

2025/4/21 22:40:06 来源:https://blog.csdn.net/2301_77223451/article/details/145610631  浏览:    关键词:【银河麒麟高级服务器操作系统】服务器卡死后恢复系统日志丢失-分析及处理全过程

了解更多银河麒麟操作系统全新产品,请点击访问

麒麟软件产品专区:https://product.kylinos.cn

开发者专区:https://developer.kylinos.cn

文档中心:https://document.kylinos.cn


服务器环境以及配置

【机型】

处理器:

海光

内存:

512G

【内核版本】

 4.19.90-25.40.v2101.ky10.x86_64

【OS镜像版本】

银河麒麟高级服务器操作系统 Kylin-Server-10-SP2-Release-Build09-20210524-x86_64

【第三方软件】

K8S

现象描述

服务器卡死后恢复,系统有日志丢失。

现象分析

① 日志分析

  messages日志在1点48分-2点04分发生日志断层,在2点02分以后,打印hungtask进程调用栈,其中systemd-journal进程也出现hungtask,因此未记录日志(图 1)。

图 1

     梳理sar日志,11.3号凌晨内存使用率一直都较低(图 2),CPU波动不大,但是负载在1点40分时猛增,2点04分以后逐渐恢复(图 3),磁盘使用率有一定波动,结合前场反馈,问题复现时都是在启动业务之后,推断1点40分时客户启动业务导致CPU负载增加,但是问题机器上有128个CPU,因此负载在可承受范围之内。

图 2

图 3

② 内核调用栈分析

在问题复现后,在dmesg中可发现有很多hungtask被超过120秒,但是由于没有配置panic因此没有宕机而是在系统自愈后打印hungtask日志。且大部分调用栈中都有cgroup的处理流程。在2点04分打印oom的调用栈(图 4),但是结合sar日志此时系统内存使用率应该不高,不过通过调用栈可发现也有cgroup的处理流程。

图 4

分析结果

综上所述,日志断层是由于进程出现hungtask导致,出现hungtask以及oom的原因可能是与cgroup相关,需要进一步确认具体原因。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词