图片 1

容错与关键业务无关

高可靠性总是与关键业务联系在一起。据统计,金融系统宕机所造成的损失为平均为1000万美元。因此,关键业务应用总是要求系统7×24小时不中断运行。对可靠性的要求高达99.999%,也就是5个9的水平,这意味每年宕机时间累计不超过5分钟。久而久之,具有5个9高可靠性的容错服务器总是和关键业务应用联系在一起。

VMware Fault Tolerance – 为您的应用程序提供全天候可用性

——专访美国容错公司中国区总经理佘秀琍

关键业务应用需要高可靠性,但是容错服务器并不是金融、电信计费的专利。在很多需要高可靠性的应用场合,容错服务器都有用武之地。以首都机场小火车为例,国际港旅客进出都要乘坐小火车。如此小火车的调度和控制非常关键,系统的计算量不大,但是需要高可靠性,就需要承担调度和控制任务的服务器具有高可靠性。在电力控制、钢铁企业都需要系统具有高可靠性。

通过为虚拟机启用 VMware Fault
Tolerance,最大限度地延长数据中心的正常运行时间,减少停机管理成本。基于
vLockstep 技术的 VMware Fault Tolerance
可使应用程序实现零停机、零数据丢失,同时消除了传统硬件或软件集群解决方案的成本和复杂性。

51CTO传媒副总编常疆

随着芯片技术的进步,以及生产工艺水平的提高,服务器产品标准化日趋成熟,如今系统的可靠性大大提升。可以说,服务器宕机是小概率事件。“小概率事件一经产生就是一个大事件。”某行业企业CIO说。

1.消除因硬件故障造成的停机
VMware Fault Tolerance
是一项前沿技术,它通过创建实际上与主实例保持同步的虚拟机实时卷影实例,使应用程序在服务器出现故障的情况下也能够持续可用。VMware
Fault Tolerance
实现了在出现硬件故障的情况下在两个实例间进行即时故障切换,因而不会出现任何数据丢失或中断情况。

随着中国经济对信息化倚赖程度不断提高,如何为经济发展提供一个高度稳定可靠的信息化基础支撑平台已经变得非常迫切。对此,有很多选择,大型机、小型机和X86都是备选技术,特别对于云计算,业内也给予了厚望。但是在此,特别值得注意的是已经有近40年历史的容错技术,恰逢美国容错公司中国区总经理佘秀琍从香港来京,笔者有幸对她进行了专访。

为了应对服务器宕机,用户多采用双机系统冗余。当其中一个系统宕机时,由另外一个系统接替服务器工作。但是需要注意的是,双机系统很难实现无缝过渡,备用服务器接替工作需要时间。如果是首都机场小火车,就会出现停运的事件。春节期间,香港昂平360缆车故障,都在提醒我们,可靠性问题没有小事情。

2.不论操作系统或底层硬件如何,均可为应用程序提供保护*
VMware Fault Tolerance
可以保护任何虚拟机,实现了用一项简单的技术保护所有应用程序。其中包括自主开发的应用程序(或称自定义应用程序),此类应用程序无法使用传统的高可用性产品加以保护。

图片 1 51CTO专访美国容错公司中国区总经理佘秀琍

如今,虚拟机倍受追捧。系统可靠性并不依赖于单台服务器的质量,而是构建在虚拟资源池的基础上,系统应用与物理服务器无关。在虚拟化时代,高可靠性的问题是否迎刃而解呢?

3.安装简单,只需轻松单击即可完成启用和禁用
可以十分轻松地为各个虚拟机启用或禁用 VMware Fault
Tolerance。由于它利用现有的 VMware HA 集群(节点数上限为 16
台服务器),因此可以使用 VMware Fault Tolerance
保护此集群中的任意数量的虚拟机。要求在某些关键时段(例如季末处理)获得持续保护的应用程序可以利用
VMware Fault Tolerance 更加有效地保证在这些时段保持可用。

市场有利容错技术发挥

Vmotion,也就是虚拟机在线迁移被寄予厚望。当虚拟机产生故障时,在线迁移到另外一台虚拟机。实际上,这是一种典型的误解。Vmotion可以解决计划内的停机,如系统维护、升级时,可以暂时将虚拟机迁移到其他服务器,维护升级完成之后,在迁移回来。此外,利用Vmotion的功能,可以在一定阶段,如晚间业务的波谷期,将虚拟机迁移到少数服务器,关闭多余的服务器,达到绿色节能,降低运维成本的目的。但Vmotion不能够解决计划外的意外宕机。但承载虚拟机的物理服务器意外宕机时,虚拟机是没有办法进行热迁移的。

4.容错
1)完成无缝的状态故障切换。在受保护的虚拟机响应失败时自动触发无缝的状态故障切换,从而实现零停机、零数据丢失的持续可用性
2)自动创建辅助虚拟机。
在故障切换后自动触发新辅助虚拟机的创建工作,以确保应用程序受到持续保护
3)与所有类型的共享存储兼容。VMware Fault Tolerance
可处理所有类型的共享存储,如光纤通道、NAS 或 iSCSI
4)与所有操作系统兼容。VMware Fault Tolerance 可处理 VMware ESX
支持的所有操作系统*
5)与现有的 VMware DRS 和 VMware HA 集群兼容。VMware Fault Tolerance
可处理现有的 VMware DRS 和 VMware HA
集群**,只需一个额外的专用千兆以太网网络即可
6)只需轻松点击即可进行管理。只需在 vSphere Client
中轻松执行点击操作,即可启用或禁用 VMware Fault
Tolerance,使管理员能够根据需要使用其功能。

中国用户对信息化依赖逐步加深,也带来了对高可靠性的需求,容错技术逐步得到重视,其高可靠性特点有望得到发挥。

从VMware的解决方案就可以看出结论,虚拟机环境下提升系统的可靠性,不是通过Vmotion,而是通过HA模块来提供的。所谓HA就是虚拟机环境中的双机冗余。同样的,HA的切换也需要时间。针对高可靠性的需求,VMware不是依靠HA,而是提供了Fault
Tolerance模块,也就是类似容错机的解决方案。从VMware的选择,就可以知道容错较之双机具有更高的可靠性。

*只具有一个虚拟处理器的虚拟机支持 VMware Fault Tolerance。
*VMware Fault Tolerance 要求使用 Intel
31xx、33xx、52xx、54xx、55xx、74xx 或 AMD 13xx、23xx、83xx 系列处理器

记者问:Stratus有30多年的发展历史,1990年Stratus就已经进入中国市场,作为容错领域的代表厂商,您怎么看目前的市场现状?

采用虚拟机Fault
Tolerance方案,还需要容错服务器吗?从原理上看,容错服务器的处理器、内存以及I/O全部是冗余设计,通过锁步技术,对软件每一个进程的计算结果进行比对,结果一致才确信处理的正确性,可以有效解决可能的硬件故障。虚拟机Fault
Tolerance是否具有同等水平的高可靠性,还需要实践的检验。实际上,在虚拟化环境下,承担管理和调度任务的服务器,就需要采用容错服务器。

佘秀琍:从全球市场来看,对于容错技术需求仍然强劲,在美国,Stratus在金融、航空等很多领域,30多年来沉淀了一批忠实的客户,他们对系统可靠性要求非常高,我们给他们提供的机器,可靠性高达99.9999%,也就是6个9的水平,基本做到了全年365天高可靠运行。

如果你需要高可靠性,实际上,你就需要容错服务器。
 

Stratus公司长期专注在容错服务器这个领域,经历了这个领域的时代变迁。这样的一个产品,20年前很贵,因为它是构建在专属平台上的,虽然可以提供很高的可靠性,但价格不菲。大约13年前,Stratus开始对产品进行转型,从专属平台过渡到开放的平台,选择X86处理器和Windows系统进行支撑,如此就大大降低了成本,降低了容错服务器的门槛,在保障高可靠特性的同时,拉近了与用户的距离。

从中国市场来看,对容错服务器的需求与日俱增。以往,用户主要集中在银行、证券等少数领域,因为这些用户的业务应用对系统可靠性要求非常高,只有容错技术可以满足需求。此外,这些用户的业务对于信息化系统高度依赖,信息化程度非常高,容不得系统有任何闪失。系统可靠性是这些用户首要考虑的,然后才会是成本。

如今,中国用户对信息化依赖逐步加深,也带来了对高可靠性的需求,容错技术逐步得到重视,其高可靠性特点有望得到发挥。

高可靠性和成本