老外籍教师您让服务器常规运行时刻最大化(1)

保持服务器的正常运行和唤醒状态,或者至少准备好一旦有需要就立刻投入运行,这个目标可能是所有数据中心经理们最渴望实现的目标之一(BKJIA推荐阅读:以魔兽世界为例
网游服务器搭建方案图解)。

让工具发布警示

赛门铁克公司(Nasdaq: SYMC)今天宣布,推出改进的Veritas Server
Foundation产品。Veritas Server
Foundation产品系列提高了应用程序可用性,自动化通用服务器管理任务,控制配置变化,并优化服务器使用率。最新发布的Server
Foundation致力于应对当今数据中心的挑战,进一步推动了赛门铁克建立完整的数据中心自动化的愿景。产品所含的新特性包括工作流自动化和配置控制、最小化宕机时间、自动及标准化执行关键服务器管理流程,同时增强整个数据中心的可视性。
随着服务器数量、多层应用部署的增加以及虚拟环境的衍生,数据中心的复杂性日益凸显。尽管系统和信息管理要求不断增长,有限的资源却限制了IT预算和从业人员的数量,导致对于关键IT流程自动化的需求——该流程必需有效执行,以确保整个数据中心拥有最佳服务等级和可用性。

然而很少有数据中心经理们能够诚实地说,他们所做的一切绝对都是为了让系统的正常运行时间最大化。专家们说,事实上很多经理都把大量的时间和金钱浪费在了很少或者不能对正常运行时间产生积极作用的技术和实践上去了。

Beddoe使用了Uptime软件公司的正常运行时间软件,他认为这种工具很重要,因为它们可以在服务器的状况超出某个阀值时,例如内存超载或者CPU的使用率过高时可以发出警示。

Server
Foundation套件包含4款产品,有效检测数据中心所有服务器上所运行的详细作业信息,主动管理上述服务器,并确保运行于服务器之上的任务关键应用随时可用。Veritas
Cluster Server是市场领先的跨平台高可用和灾难恢复集群解决方案;Veritas
Configuration
Manager全面检测应用程序,搭构精确的依附关系框架,并提供实时变化追踪;Veritas
Provisioning
Manager实现包括跨平台补丁管理在内的服务器和应用程序的部署和配置自动化;Veritas
Application Director则提供应用和虚拟设备的运行控制。

图片 1

虽然大多数工具都内置了警示功能,但Beddoe强调说,还是应该寻找一种可配置警示触发条件的产品,例如一旦超过预设的阀值便可发送电子邮件或手机短信的产品。“你需要有意义的警示信息,以便可以采取必要的措施纠正这种情况。”

赛门铁克Server Foundation产品集团副总裁Mark
Lohmeyer说道:“当今的数据中心经理们广泛接受了自动化概念,以实现灵敏度及IT运营控制的最大化。最新推出的Server
Foundation提供复杂的工作流和扩展的配置控制能力,能够应对数据中心不断增加的复杂性挑战,更代表赛门铁克向建造全面的数据中心自动化愿景又向前迈进了一步。”
 

美国金融数据服务商Six Telekurs负责IT运营与后勤保障的副总裁Walter
Beddoe认为,实现正常运行时间的最大化既是科学也是一门管理艺术。“需要将诸多不同的东西组合在一起,包括可胜任此项工作的人员,利用容错硬件,采纳动态安全、良好的维护与变更管理实践等。最重要的是,你必须承诺尽最大可能将一切做好。”

图片 2

普林斯顿一家诊断医学成像公司Princeton Radiology的IT部门主任Alan
Howard敦促其属下不要把时间和资源浪费在不能直接对提高正常运行时间有贡献的行为和工具上面。比方说进行集群的努力就是“相当浪费的”,还不如冗余配置再辅以工具更能实现全自动化。

Walter Beddoe,Six
Telekurs负责IT和后勤的副总裁,他说,“17年来,我们从未出现过影响到客户利益的重大宕机事件。”

不能自动化的集群——其中的同步需要手工完成——可能会引起更多的问题,Howard说。“某个主节点一旦失灵就可能是灾难性的;与其让主节点失灵再去恢复它,还不如让备用节点失灵更好些。”

汽车服务公司Carfax的运营经理Jerry
Gregg说,重要的是要了解,不少性能测量工具计算出的正常运行时间只是一个近似值。“这样的数值,充其量只能用来参考。”

他举例说,他的团队做了一个Windows
Server的集群,用作失效备援,结果却导致了应用程序的崩溃,因为该应用配置文件的一个变动未能及时拷到备用服务器上去。“修复应用崩溃故障所花费的努力往往要比修复一个集群节点失灵故障的努力大多了。”

Gregg观察到,一些初步的正常运行时间测量工具得出的数值实际上可能引起误解,因为这些工具不能正确地区分如下两种情况:周日清晨睡眠时间发生的一小时长的服务器宕机和周四下午正运行关键业务进程时的10分钟的系统失灵。这也是为什么应该购买那些可提供全时、基于事件分析能力的测量工具的原因。

之后,他的团队就不再配置传统意义的集群服务器了。相反,他们配置了一个“单独的备用服务器集群”——并将该集群全部映射到一个双控制器的Compellent存储中心SAN上,“这样我们就能够基本上无缝地按需迁移虚拟机了。”

为了让正常运行时间分析更有意义,Gregg决定选用可以显示服务器崩溃对关键业务服务产生何种影响的测量工具。Gregg采用了BMC的ProactiveNet性能管理软件,该软件可直接将服务器宕机时间与销售交易和其他类型的面向业务数据进行关联。“可以让我们用美元而不只是用时间来量化服务器的宕机事件。”