服务器常见软故障解决思路

服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,服务器常见故障有BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。

服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。

网络技术飞速发展,计算机网络被广泛应用于学校、科研部门、政府机关及商业等各个领域。网络管理的好坏将直接影响网络的有效使用,其中对于服务器的安全维护十分重要。服务器的管理维护包括软件和硬件两个方面,哪一方面出问题都会让服务器运行出现故障甚至瘫痪。下面就给大家说一说本人在实际中遇到的一次HP服务器故障排除。

有一台HP LH6000R服务器,配置为双PIII XEON
700带2M高速缓存的CPU、512M内存。开机后,系统日志报电压调节模块异常VRM)的错误,报错的信息是:“Voltage
Regulator Module (VRM) over/under-voltage
2.88V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板CPU
Management
Control)的固件FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。

有一台HP LH6000R服务器,配置为双PIII XEON
700带2M高速缓存的CPU、512M内存。开机后,系统日志报电压调节模块异常VRM)的错误,报错的信息是:“Voltage
Regulator Module (VRM) over/under-voltage
2.88V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板CPU
Management
Control)的固件FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。

HP服务器故障排除一、出现故障

FIRMWARE升级方法是,在服务器的NAVIGATOR导航光盘)中提取CPU管理板CMC)FIRMWARE的刷新程序,程序为FLASH.EXE,然后将从网上下载的LH6KC.BINCPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH
/CMC
A:LH6KC.BIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。

FIRMWARE升级方法是,在服务器的NAVIGATOR导航光盘)中提取CPU管理板CMC)FIRMWARE的刷新程序,程序为FLASH.EXE,然后将从网上下载的LH6KC.BINCPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH
/CMC
A:LH6KC.BIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。

笔者单位使用的是HP NetServer
LH3000服务器组成的局域网,自从建网以来服务器硬件一直良好。但有一次启动服务器后发现有问题,刚开始自检运行都正常,等到进入Windows2000主画面时,发现服务器主机内的噪音变大,开始认为是系统软件加载错误导致的,多次重新启动服务器,有时重启后正常维持时间稍长,有时稍短。等到系统启动完毕后,注册进入系统,打开管理工具,查看系统日志,没有发现故障提示。

任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。

任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。

HP服务器故障排除二、故障的排除

目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。

目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。

于是我们怀疑是感染了病毒,把服务器设置成从软盘驱动器启动,用KV3000杀毒王引导盘启动服务器,之后扫描硬盘,查完后未发现病毒,排除了病毒感染的可能性。又怀疑与BIOS有关?检查BIOS设置,查出版本号,到惠普网站查询,找到了对应的新BIOS版本,于是决定升级BIOS试一试。先到惠普网站下载了最新的BIOS升级程序,拷贝到软盘,为了保险,先将服务器现在的BIOS备份后再升级。从软盘引导系统,运行升级程序,大约25分钟之后,升级终于顺利完成。再启动进入BIOS设置,改为硬盘启动。重启服务器,进入系统后,过了一会儿,故障依旧。至此,我们才转向服务器的硬件检查,打开了机箱,检查电源风扇,运转正常,粗略检查其它风扇也未见异常。最后请HP专业维护人员来,并将系统I/O控制板和电源控制板予以更换,更换重启服务器后,问题仍未解决。于是开始全面检查服务器,在服务器面板主菜单中查看,意外发现“Event
Log”中的“System Event”下有一提示,显示“Fan
Slow”。于是我们重新打开机箱,认真检查每组风扇,由于服务器内部有多组风扇,各自负责不同控制板的散热。分别检查,终于在机器隔板下的隐蔽处找到两组风扇,其中有一组风扇停转。原因找到后,换上新风扇再启动服务器,声音小了。运行一切正常。至此服务器故障得以排除。

当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以WINDOWS
NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的特别是磁盘I/O方面)。

当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以WINDOWS
NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的特别是磁盘I/O方面)。

HP服务器故障排除三、故障排除分析

服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。

服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。

从以上故障排除过程得知,HP NetServer
LH3000服务器的面板日志记录中记载着系统每次启动和关闭时的硬件检测信息,如果系统出现故障,我们可以直接查看系统事件,以便快速诊断故障部位,这将起到事半功倍的作用。现将HPNetServer
LH3000服务器面板的主要内容简单介绍一下: