分公司: 深圳 杭州 >>
IBM服务器常见故障
1.免费检测;
2.不收取任何定金;
3.没有达到客户的要求,
不收取任何费用;
4.7*24小时快速响应;
5.对客户数据绝对保密;
6.未经客户授权的情况下绝对
不会对设备做任何扩大故障
的操作
当前位置: 主页 > IBM服务器常见故障 >

IBM小型机日常维护和故障排除

 一、机房内环境要求

温度与湿度:

佳工作温度:20-25摄氏度

极限工作温度:10-40摄氏度 

湿度: 8-80%(在23摄氏度条件下)

如果不是工作在佳温度,请注意改善机房环境

同时机房要保证清洁.

机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。

二、电源要求

电    压:  要求电压稳定, 尖峰电压会损坏设备

电压范围:  220V +/- 10%, 即200-240V, 50-60Hz

电源功率:  视机器类型和系统配置而定

电源线  :  标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V.

电源接驳:  用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.

三、硬件检查

检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。

服务器状态检查:

当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。

当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的Service Guide查到相应告警原因,情况严重的,则要立即通知IBM技术专家进行问题排查。

7133状态检查:

磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)。

1. 当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。

2. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或SSA环路出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁

 2.1系统启动

系统启动正常顺序如下:

首先对外设(磁盘阵列、磁带库等)加电。

待所有外设加电自检完成后, 主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.

启动主机HACMP,启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况,在HACMP未完全启动前不要进行下一步。

检查服务器的网络地址,路由表

(可用netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。
检查各项应用是否工作正常。

2.2系统关闭
停止HACMP  ( smitty clstop)。
查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要进行下一步。
关闭主机 (shutdown –F)。重启系统可以使用:shutdown -Fr
如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。


2.3查看系统的错误记录
在系统运行时,一些系统错误会记录在errlog 中,其中有些错误还会在终端上显示。检查错误日志可用以下命令:

#errpt|more 查看系统所有的记录

IDENTIFIER  TIMESTAM P  T  C  RESOURCE_NAME  DESCRIPTION
E85C5C4C    0426104399   P   S   CFGLFT       SOFTWARE PROGRAM ERROR
2BFA76F6    0426104099   T   S   SYSPROC      SYSTEM SHUTDOWN BY USER
9D4CF6E7    0426104399   T   O   errdemon       ERROR LOGGING TURNED ON
1E2AC07E    0426103999   T   O   errdemon       ERROR LOGGING TURNED OFF
1E5EER4T    0423132999   T   O   clstrmgr        OPERATOR NOTIFICATION     

其中

IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。

TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年

T 为Type , 它记录的是错误类型
P :为永久错误,需引起注意
 T :为临时错误。

C 为Class,  它记录的是错误种类,如
H : Hardware
S : Software
O : Errloger command messages
U : undetermined

RESOURCE_NAME  为错误来源

DESCRIPTION  为错误描述

#errpt -aj <IDENTIFIER> 查看系统详细记录内容

其中I

DENTIFIER为错误编号,如 #errpt -aj 0426104399

#errpt -dH     查看系统所有的硬件出错记录
 
2.4日常检查服务器状态的项目及其相关命令
1 运行lsdev 命令配以各种参数,所列各种设备状态都应为Available。
#lsdev –C –H –S a       列出系统中可用设备。
#lsdev –Cc processor   列出系统中的所有CPU。
#lsdev –Cc memory   列出系统中的所有内存。
#lsdev –Cc disk    列出系统中的所有硬盘。
#lsdev -Cc adapter | grep ent  列出系统中的所有网卡
#lsdev -Cc adapter | grep scsi  列出系统中的所有SCSI卡。
#lsdev -Cc adapter | grep ssa  列出系统中的所有SSA卡。

2 lspv命令
#lspv   显示系统中可用的PV。
#lspv hdiskn  显示hdiskn的具体信息。
#lsdev –Cc pdisk  显示磁盘阵列的硬盘的具体信息。
对SSA硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘,并且状态应为Available.。

lsattr命令
#lsattr –El sys0
# lsattr –E –l mem0 列出系统中内存mem0的大小,本项目中内存有4GB。

4  lsvg命令
#lsvg   列出系统中所有的vg。
#lsvg rootvg  列出rootvg的详细信息。
#lsvg –o         列出激活的vg

5  oslevel命令
#oslevel  显示操作系统版本信息。

6  netstat命令
#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好
了没有。

7  通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为 “No trouble found ”显示各部分工作正常。
 
8  使用#diag命令(选择:Task Selection-> SSA Service Aids)对SSA硬盘链路连接的校验,可以通过SSA 工具里的Link Verification 来检测。如有必要,可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试 ,由1% 至100%,检测结果显示主

机内置硬盘的所有扇区均读写正常。

9  lsps –a 查看PAGING SPACE的使用情况,如果使用率超过70%,就需要采取措施。
 

磁盘交换区大小的设定参考说明如下:
1. 系统实际内存小于64MB, paging space= 2×RAM
2. 系统实际内存在64MB~256MB之间, Page Space = RAM size + 16MB
3. 系统实际内存大于256MB,Page Space = 512+(RAM – 256)×1.25
对于AIX 4.3.3(或5L)当内存达到4GB~8GB,因为AIX 4.3.3(或5L)使用延迟的(deferred)paging space。Paging Space主要根据应用的要求来定。一般可初始3GB,然后观察paging space的使用情况,如果使用率超过70%,则需要增加paging space

10  lsvg –o | lsvg –il | grep –i stale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施。


11  检查双机状态:lssrc –g cluster 检查ha三个工作进程是否激活,/usr/sbin/cluster/clstat –a检查双机状态是否up,并检查/tmp/hacmp.out日志,看是否有异常信息。

12  用vmstat, topas,sar 命令检查系统性能,检查cpu\memoyr\IO ,是否存在性能瓶颈。

13  用instfix –ik | grep ML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上,5.1操作系统补丁要打到5以上

14  使用df –kP查看磁盘空间占用率,请确保以下文件系统的占用率高于80%立即上报:
/  /var  /usr  /home  /tmp  /,其余文件系统的占用率高于95%立即上报
也可以到各文件系统下使用组合命令:find . –size +2048 –o ctime 1 –exec ls –l {} \; 查出大于1M或一天之内修改过的文件。

 

 

 

相关文章
中心简介联系我们CopyRight © 2006-2010 津ICP备11007301号-7 版权所有:天津信胜科技发展有限公司
无标题文档
会员客服
欢迎咨询
欢迎咨询
欢迎咨询
欢迎咨询
咨询热线:
400-651-5788
工作时间:
09:00—18:00

扫一下关注新动态
无标题文档