现代数据中心服务器维护检查清单

二、升级并不提供令人满意的工作负载性能的服务器。

一旦服务器脱机,可以直观地检查其外部和内部的气流路径。清除可能会阻碍冷却空气流通的任何积聚的灰尘和其他碎屑杂物。

虚拟化技术的进步不单体现在处理器一个方面。内存在服务器虚拟环境中起到重要作用,因为虚拟机本质上是驻留在服务器内存中的磁盘映像。更多内存意味着更高级别
的整合,内存的稳定性将影响服务器上所有虚拟机整体的稳定性。因此,内存功能可能包含对错误纠正代码内存的改进,能将单个内存设备上的多位错误跨整个内存设备池扩展,当某个内存设备不可恢复时,添加的空闲内存能及时分配给额外的内存设备,并包括跨设备映射复制内存内容的容错内存,类似于RAID
1。

大多数企业并不维修或修理自己的服务器硬件,而是依靠本企业与服务器厂商(或甚至第三方厂商)签订的每年维护协议。多年过后,零部件变得很稀缺,服务器厂商的服务部门常常致力于更新的产品零部件,因而对维修旧系统收取的费用要高得多。最终,维护协议的成本变得让人望而生畏,更容易证明有必要升级到更新的系统,因为服务协议和故障排除/维护成本比较低。

为打补丁和更新腾出时间

对于加快服务器硬件更新周期,企业可能会犹豫不决,因为他们不愿意频繁地投入资金。此外,企业也不想在频繁更新硬件的基础上频繁处理替换下来的硬件设备。传统租赁服务器形式可以减轻企业资金负担,并解决旧硬件处置的问题。

服务器生命周期免不了要走到尽头,但是那些升级的时机和紧迫性可能大不一样,具体取决于贵企业数据中心的大小和要求。不过,IT专业人员应该认识到一些常见的情况需要服务器升级周期:通常是危及服务器的功能、兼容性、可靠性和控制的任何情况。

转向
DevOps,借助更小的和更频繁的更新会加剧潜在的问题。在部署之前,仍然需要在实验室中测试任何补丁或更新。并且始终确保可以撤销更改,并在必要时恢复原始软件配置。

寻找服务器新特性与功能

服务器的损耗并不仅仅体现在传统意义上的外在损耗,随着应用程序更新和补丁的要求更高,再加上用户群越来越庞大,处理工作负载的性能通常会慢慢降低。比如说,目前的用户群/客户群需要庞大的存储流量,这可能让服务器的网络带宽根本招架不住;或者目前的软件版本可能依靠目前系统并没有的芯片组功能——这两种情况都会导致糟糕的响应时间和性能问题。要是某台主机服务器再也无法满足应用程序和用户越来越高的计算要求,企业就可能需要购买款式更新颖、功能更强大的系统。

还要验证系统安全状态,如防火墙设置、反恶意软件版本或扫描频率和入侵检测/预防(IDS
/
IPS)的设置。安全检查可以帮助确保对系统软件的更改不会无意中暴露任何可能在先前配置中已关闭的攻击面。

在未来服务器功能可能包括支持新的芯片组,可以处理更多的内存类型、更快的I/O、更高的总线速度等等。

每一款新服务器都支持最新的功能特性,比如新的内存类型、拥有新扩展技术的处理器、更有效的节电功能,或者是先进的散热管理(如液冷)。TechTarget的《2012年数据中心决策》调查声称,36%的IT专业人员更换比较旧的服务器,以提高数据中心的能源效率。另举一个例子,在配备的处理器不包括英特尔VT或AMD
V扩展技术的系统上几乎不可能获得很高的虚拟化程度。每当企业启动新的数据中心项目(比如整合项目),就常常需要购置新服务器。

阅读事件日志的附属细则

考虑系统分布和冷却的改善

企业可能把一定数量的最低工作负载分配给每一台物理服务器,以确保令人满意的整合比。在其他情况下,IT部门可能建立最小的计算资源池,并加以维护,以便均衡工作负载。也许有可能优化分配给任何性能低下的工作负载的计算资源,或者甚至执行工作负载均衡机制,把一些工作负载转移到其他的可用服务器上(以便腾出资源用于剩余的应用程序)。但是降到这些最低功能以下的旧服务器是最适合升级的对象。

坚持常规性例程

服务器虚拟化驱动着处理器的设计和计算能力的发展。当投资允许更高级别的整合时,整合项目与桌面虚拟化都能从服务器更新周期获益。例如,英特尔E7-2803服务器拥有6核心和12线程的至强处理器,但新一代英特尔E7-8870服务器拥有10核心和20线程的处理器。当获得有二或四个处理器插口的新一代服务器时,计算能力将进一步提高。

许多公司依靠服务器为关键应用程序提供计算能力,让用户和客户可以顺畅交互,处理工作负载以及创造宝贵的收入。与大多数企业资产一样,服务器的使用寿命也很有限,需要定期更新。最终,每一台服务器都会租赁到期或报废;新的特性和功能在不断出现,促使企业购置新服务器。不过,虚拟化等技术延长了现代服务器的使用寿命。因而,到底何时有必要购买新服务器变得有点模糊不清。下面介绍考虑升级服务器的五个主要理由。

此时,通常可以关闭服务器,并将其从机架或其他机箱中删除卸下。

因为新服务器在更小空间提供更多容量,所以解决数据中心空间拥堵或散热问题将加快服务器技术更新。例如:您当前4U机架服务器包含的计算能力也许在1U机架服务器可以提供相同的效果。

如今企业拥有较庞大的数据中心,常常使用统一的基于硬件的管理子系统,比如戴尔远程访问卡(DRAC)或集成无人值守(iLO),或者可能是选择能密切关注和控制硬件基础设施的系统管理工具。虽然这很适合同构环境,但是如果企业使用混合的异构系统,就会在管理方面面临重大缺口,尤其是未适当支持或未全面支持的旧服务器。经常要更换旧系统,才能全面地了解数据中心的运行状态,并确保最细粒度的管理控制。

服务器管理员们经常忽视计划性维护窗口。不要等到实际发生故障运行失败时才来进行维护;请务必预留出足够的时间用于日常的服务器预防性维护。

在数据中心的运作费用中,电力成本占主要部分,所以有效的减少电力成本将对企业的财务状况产生有益影响。考虑到务器整合的效果,通过更新性能强大的服务器来替换较旧服务器系统,企业执行相同的计算量只用到一小部分系统。更少的物理服务器需要更少的总功率——一企业每月都能看得见的成本节省。移动到下一代服务器能够节省足够的成本支付技术更新。

四、升级计算资源用完的服务器。

磁介质是不完美的;常见的问题包括坏扇区和碎片。在保持数据完整性方面,RAID有了很大的进步,但是较小的1U机架式服务器不能提供足够的物理空间来部署磁盘阵列。使用诸如CHKDSK(检查磁盘)等实用程序等工具来验证磁盘的完整性,并尝试恢复其上的任何坏扇区。
Windows Server
2012的更新版本的CHKDSK可以快速分析和修复文件系统结构中的磁盘问题。

许多企业都拥有自己的服务器,还有很多租赁形式可供组织选择,同样让组织获得更新更强大的硬件设施,同时可将集资费用转换成运营费用。另外,服务器厂商对于有资格的业务提供两选一的付款模式,如分期付款。

一、升级没有提供重要功能的服务器。

确保服务器可以“呼吸”

寻找电力投资回报率

积极主动的跟踪日志数据。当通过对日志的检查发现长期或经常性的问题时,积极的调查可以在问题升级之前解决问题。例如,如果服务器的日志报告内存模块中存在可恢复的错误,其将不会触发关键警报。但是,重复的实例会显示模块出现问题,IT人员可以执行更详细的诊断来识别即将发生的故障。

寻找服务器额外计算能力