www.hj8828.com 2

掌握数据中心技巧 就能少干些蠢事

书接上文,之前我们BKJIA带给大家一篇《看这些数据中心错误有多蠢!》的外电,本期我们针对以上错误找到了相应的预防措施。一攻一守,同样是一篇外电,我们看看这些错误该如何化解。

数据中心的中断问题持续困扰着IT人员。执行数据中心调试或审计,拥有坚实的电源设计,以保护您的组织免受宕机影响。

随着大量数据应用和业务量的激增,对大多数企业来说数据中心安全运行至关重要。然而,大多数企业低估了维护数据中心安全运行的重要性。据统计,数据中心的停机一分钟平均损失将超过8800美元。

数据中心停机通常是由设备故障,或突发事件的连锁反应引起的,但引起数据中心停机的主要原因是人为失误,据Uptime协会发起的一项研究显示,数据中心大约70%的问题都是人为错误引起的,可见人对于数据中心来说是多么的可怕。

在其他众多知名公司之上的美联航、达美航空和西南航空公司—最近遭受了主数据中心的中断。而他们的过于公开的关机处理又给IT管理人员的问题清单上增加了另一项烦恼。

那么,数据中心停机的原因是什么?又该如何避免这么此类事件发生呢?

那该如何缓解这个问题呢?电力技术支持主管Ahmad
Moshiri说:“毫无疑问,导致数据中心停机的人为错误可以通过一些简单的步骤来回避”。下面就是其总结出来的避免数据中心人为错误导致故障的最佳实践。

据报道,许多这些数据中心的事故是由于电力故障引起的,这并没有很出乎意料。根据Uptime
Institute的研究,发动机发电机系统是数据中心主要的电力来源,应采用公用事业电力作为经济的选择。然而,公用事业电力中断“并不被认为是一种故障,而是一种预期的运行状况,相关站点必须做好准备。”

以下是数据中心停机的一些最主要的原因:

1、屏蔽紧急关闭按钮

www.hj8828.com 1

www.hj8828.com 2

紧急关机Emergency Power
Off,EPO)按钮一般都位于数据中心门口附近,通常,这些按钮没有盖子或做上标记,在紧急情况下很容易错误地关闭整个数据中心的电力供应,给EPO按钮帖上标签或加装一个盖子,可以避免按钮被意外按下。

换句话说,大多数企业数据中心都可能会发生这样的电源中断。对于在其职业生涯之中担心这种事情的CIO来说,这可能是资助部分所需改进的机会。但是,请注意:简单地增加冗余设备并非解决之道。

  • UPS系统故障。如果企业投资建设数据中心,就必然要构建可靠的UPS供电系统,虽然其名为“不间断”,但并不能保证百分之百的可靠性,无论采用什么类型的UPS,仍然有可能发生短时间(10秒以内)或长时间(超过10秒)故障。这些故障可能是由一些潜在的问题引起的,例如UPS本身具有固有的缺陷,其质量或可靠性会随着时间的推移逐渐下降,另外蓄电池组失效,以及使用和维护不当也是引起UPS系统故障的原因,当然,雷电等自然灾害也是引起其故障的一个原因。
  • 网络犯罪。根据波洛蒙研究所的一项研究,网络犯罪是导致数据中心停机或业务中断的一个日益增长的原因,2010年网络犯罪引起数据中心停机只占所有事件的2%,如今已上升至22%。如果一个网络犯罪分子找到一种远程访问企业数据中心的方式,那么他就可能很容易挟持数据中心的数据和操作,或者完全拒绝数据中心的正常访问和操作。
  • IT设备自身故障。企业的服务器本身故障也是停机时间的主要原因。如果维护不当,或者电源连接不可靠,那么数据中心就有可能因此发生故障。

2、根据文档指定的方法操作

关键任务数据中心电源设计的挑战

显然,这些停机原因并不是不受企业的控制。正如业界专家所说,预防性维护和主动维护可以避免大部分的停机。主动维护应注重以下三个方面:

按照厂商给定的文档一步一步操作,可以减少或消除执行维护任务时的误操作,除此之外,还应该在备份计划中包括突发事件时的应对办法。

企业数据中心最大的漏洞是隐藏的缺陷和安装错误。简单地复制设备和真正的关键任务的设计之间的差异是巨大的。然而,为潜在的故障点检查数据中心电源设计是一个艰巨的过程。考虑聘请高素质的独立专家为您的组织执行此任务。

(1)减少人为错误。首先,企业需要减少因人为错误引起的设备风险。如果企业的IT人员没有对如何维护设备进行适当的培训,或者不知道如何识别潜在问题或对其及时的做出反应,那么当他们面对故障时将无法采取必要措施。此外,大多数网络犯罪或因没有采用强大的密码,或是因为钓鱼网络而被侵入,最终都归因于某种人为错误。如果企业希望尽可能长时间地保持数据中心的全面运行,对其员工进行更好的培训是必要的措施。

www.hj8828.com,3、正确的组件标签

您可以通过设计和安装来不断审视全新或更新的设施,但另一个问题是在现有设施在使用过程中进行漏洞补救。当您纠正漏洞时,您对操作的公开可能导致事故。但是,即使您不进行风险更正,需了解潜在的故障可能在哪里,以尽量减少数据中心中断的风险。

(2)定期检查维护。服务器是复杂的机器,需要得到良好维护,如果企业希望最大限度地延长其生命周期,则需要定期监控其性能,检查内部风扇和电源连接等,并定期更换零件。持续的维护虽然会产生额外的费用,但是与因停机造成的损失相比要低得多。