欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 建筑 > 【银河麒麟高级服务器操作系统】数据中心系统异常卡死分析处理建议

【银河麒麟高级服务器操作系统】数据中心系统异常卡死分析处理建议

2024/11/30 8:42:50 来源:https://blog.csdn.net/2301_77223451/article/details/140329372  浏览:    关键词:【银河麒麟高级服务器操作系统】数据中心系统异常卡死分析处理建议

了解银河麒麟操作系统更多全新产品,请点击访问:https://product.kylinos.cn

1.服务器环境以及配置

【机型】浪潮NF5280M5

处理器:

Intel

内存:

1T

【内核版本】

4.19.90-24.4.v2101.ky10.x86_64

【OS镜像版本】

银河麒麟高级服务器操作系统 Kylin-Server-10-SP2-Release-0524-x86_64

2.问题现象描述

宕机时间凌晨2点09分左右,系统异常卡死,后手动重启系统,恢复的故障环境。需系统层面,分析排查。

3.问题分析

分析系统日志,可知,系统重启时间为02:54左右。查看重启时间之前的messages日志信息,未看到有效报错日志,只有内核层面正常记录的audit审计模块相关日志信息输出,如图1、图2和图3:

图1

图2

图3

进一步分析,查看系统sar和kdump内核崩溃相关日志信息。发现此系统,未安装系统性能监控工具sysstat、禁用了kdump内核崩溃收集服务。如图4和图5:

图4 kdump服务disable禁用

图5 未安装sysstat

   

查看bmc日志,搜索error关键字,未排查到此次系统卡死,跟系统相关的信息,如图6:

图6

4.问题分析结果

综上,日志分析情况,未能通过系统和bmc日志,排查到有效报错信息。因未启用kdump服务,未收集到内核崩溃相关日志,无法判断系统卡死,是否跟系统内核有关。未安装系统性能监控工具sysstat, 没有收集到,系统性能日志,同样无法分析判断,系统卡死,是否跟CPU、内存、磁盘IO等资源异常使用有关。

5.后续计划与建议

建议,系统层,开启kdump服务,安装系统性能监控工具sysstat。等下次问题复现,收集到这些日志信息,可进一步分析,明确问题方向。

  1. 开启kdump服务,命令如下:

启动服务

#systemctl start kdump

#systemctl enable kdump

查看服务状态

# kdumpctl status

# systemctl status kdump.service

  1. 安装性能监控工具sysstat,命令如下:

软件包下载链接:

https://update.cs2c.com.cn/NS/V10/V10SP2/os/adv/lic/updates/x86_64/Packages/sysstat-12.2.1-6.ky10.x86_64.rpm

#rpm -ivh sysstat-12.2.1-6.ky10.x86_64.rpm

# systemctl start sysstat

# systemctl enable sysstat

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com