图片 8

容错与重伟大事业务无关

高可靠性总是与关键业务联系在一起。据统计,金融系统宕机所造成的损失为平均为1000万美元。因此,关键业务应用总是要求系统7×24小时不中断运行。对可靠性的要求高达99.999%,也就是5个9的水平,这意味每年宕机时间累计不超过5分钟。久而久之,具有5个9高可靠性的容错服务器总是和关键业务应用联系在一起。

IT已经告别百花齐放、万马奔腾的时代。曾几何时,王安、DEC、Compaq、SUN、SGI等这些响当当的企业已经淡出了视野。但是很奇怪,Stratus,这个容错机的代表,仍然好好的活着。从1980年Stratus诞生至今,几十年过去了,没有大红大紫,但容错服务器始终活跃。

VMware vSphere 5.1
高可用性

关键业务应用需要高可靠性,但是容错服务器并不是金融、电信计费的专利。在很多需要高可靠性的应用场合,容错服务器都有用武之地。以首都机场小火车为例,国际港旅客进出都要乘坐小火车。如此小火车的调度和控制非常关键,系统的计算量不大,但是需要高可靠性,就需要承担调度和控制任务的服务器具有高可靠性。在电力控制、钢铁企业都需要系统具有高可靠性。

Stratus没有大红大紫,与这家公司的风格有关。Stratus是一个典型的技术公司,并不擅长市场推广。在国外,Stratus拥有忠实的客户基础,用户的技术水平比较高,不需要太多的市场培育和引导。只要用户需要高可靠性,就会采用Stratus或者其他品牌的容错服务器。国外用户不会在技术问题上纠结。与之相比,国内市场虽然发展很快,但市场需要培育和引导。这恰恰不是Stratus的强项。

 

随着芯片技术的进步,以及生产工艺水平的提高,服务器产品标准化日趋成熟,如今系统的可靠性大大提升。可以说,服务器宕机是小概率事件。“小概率事件一经产生就是一个大事件。”某行业企业CIO说。

从商业利益考虑,软件厂商往往不会主动推荐容错技术。如果采用容错服务器,无论是操作系统、数据库,还是应用软件License的销售数量,较之双机冗余要减少一倍。因此,有人戏言,双机冗余方案是厂商的选择,容错方案是用户的选择。如果用户坚持采用容错,软件厂商就会表示支持,但是软件厂商不会主动推广容错服务器。微软如此,Oracle都是如此。

   
在本节中主要讲的是集群的一些功能和配置,相比5.0的设置,没有太大的变化。VMware
vSphere为虚拟机提供虚拟化的基础架构,将现有的物理资源转化成虚拟资源,将物理资源分成若干资源,为每个虚拟机提供包括CPU、内存等虚拟资源。要想很好地分配这些资源,就必须要使用资源池。资源池是灵活管理资源的逻辑抽象。资源池可以分组为层次结构,用于对可用的
CPU
和内存资源按层次结构进行分区。群集中的资源池比单个ESXi主机上的还要重要,因为在群集中创建资源之后,整个资源池管理的就是所有的ESXi主机资源了。所管理的资源是所有ESXi主机上的CPU和内存的资源总和。

为了应对服务器宕机,用户多采用双机系统冗余。当其中一个系统宕机时,由另外一个系统接替服务器工作。但是需要注意的是,双机系统很难实现无缝过渡,备用服务器接替工作需要时间。如果是首都机场小火车,就会出现停运的事件。春节期间,香港昂平360缆车故障,都在提醒我们,可靠性问题没有小事情。

在技术上,借助“锁步技术”,容错服务器可以最大程度校正硬件故障。在容错服务器设计上,CPU、内存、I/O等,全部采用冗余设计,并通过锁步技术,对每个计算过程进行比对,准确无误才会进入下一个步骤。因此其系统的可靠性可以达到5个9的
水平。

 

如今,虚拟机倍受追捧。系统可靠性并不依赖于单台服务器的质量,而是构建在虚拟资源池的基础上,系统应用与物理服务器无关。在虚拟化时代,高可靠性的问题是否迎刃而解呢?

但是随着云计算时代的到来,系统可靠性全部依赖于云。云计算通过计算资源池化,使得计算资源并不依赖于单一系统的高可靠性,通过集群技术,保证系统整体的高可靠性。那么,云计算时代会成为容错服务器的终结者吗?

        高可用性和双机热备是VMware vSphere
5.1最重要的一部分,高可用并不是vSphere独有的,企业使用高可用就是为了服务的连续性和数据的安全性,HA是以一群ESXi服务器为主的群集功能,主要是目的是当虚拟机运行的主机发生故障时能及时转移主机,避免长时间的停机。而FT双机热备则是保证虚拟机最长时间不停机,将虚拟机以双机热备的方式同时在两台主机运行,大大增强了业务的可连续性。

Vmotion,也就是虚拟机在线迁移被寄予厚望。当虚拟机产生故障时,在线迁移到另外一台虚拟机。实际上,这是一种典型的误解。Vmotion可以解决计划内的停机,如系统维护、升级时,可以暂时将虚拟机迁移到其他服务器,维护升级完成之后,在迁移回来。此外,利用Vmotion的功能,可以在一定阶段,如晚间业务的波谷期,将虚拟机迁移到少数服务器,关闭多余的服务器,达到绿色节能,降低运维成本的目的。但Vmotion不能够解决计划外的意外宕机。但承载虚拟机的物理服务器意外宕机时,虚拟机是没有办法进行热迁移的。

答案是否定的。对于很多.COM企业而言,特别是网站应用多采用分散式部署结构,不会因为单一服务器故障,影响这个系统的访问。实际上,在访问网站的过程中,每一个查询和访问,哪怕是同一个网站,提供后台服务器也很有可能不是同一个,所以,只有访问被分配到故障服务器,用户才会感觉得到。但并不是所有的应用都具备这样的特征。

        本节中主要讲的是讲的一下内容:

从VMware的解决方案就可以看出结论,虚拟机环境下提升系统的可靠性,不是通过Vmotion,而是通过HA模块来提供的。所谓HA就是虚拟机环境中的双机冗余。同样的,HA的切换也需要时间。针对高可靠性的需求,VMware不是依靠HA,而是提供了Fault
Tolerance模块,也就是类似容错机的解决方案。从VMware的选择,就可以知道容错较之双机具有更高的可靠性。

对于需要高可靠性的应用,仍然需要高可靠性的服务器。虚拟化并不能够解决高可靠性的难题。以VMware为例,高可靠性需求就需要采购Fault
Tolerance模块,对于低一些要求的应用,需要采购HA模块。其中,Fault
Tolerance类似容错,HA类比于双机冗余方案。

 

采用虚拟机Fault
Tolerance方案,还需要容错服务器吗?从原理上看,容错服务器的处理器、内存以及I/O全部是冗余设计,通过锁步技术,对软件每一个进程的计算结果进行比对,结果一致才确信处理的正确性,可以有效解决可能的硬件故障。虚拟机Fault
Tolerance是否具有同等水平的高可靠性,还需要实践的检验。实际上,在虚拟化环境下,承担管理和调度任务的服务器,就需要采用容错服务器。

Fault
Tolerance是否具有容错服务器的高可靠性?现在谈论,为时尚早。对于云计算而言,云计算同样需要容错服务器作为IaaS平台。
 

一、 建立群集

如果你需要高可靠性,实际上,你就需要容错服务器。
 

二、 设置HA高可用性

三、 测试HA高可用性

四、 设置DRS

五、 建立FT双机热备

 

       
无论是计划停机时间还是非计划停机时间,都会带来相当大的成本。但是,用于确保更高级别可用性的传统解决方案都需要较大开销,并且难以实施和管理。VMware
软件可为重要应用程序提供更高级别的可用性,并且操作更简单,成本更低。使用
vSphere,组织可以轻松提高为所有应用程序提供的基准级别,并且以更低成本和更简单的操作来实现更高级别的可用性。使用vSphere,可以独立于硬件、操作系统和应用程序提供更高可用性,减少常见维护操作的计划停机时间,在出现故障时提供自动恢复。vSphere
可以减少计划的停机时间,防止出现非计划停机,并迅速从断电中恢复。

   

  1. 建立群集

 

       
多台电脑组成的集合就称为集群,集群的目的就是将计算机的负担分配到多台主机上,或是当运行某一个服务的物理服务器弹出问题时,让另一台服务器接手这些服务。在VMware
vSphere中,将多台ESX物理服务器组成一个集群,在这个集群中某台服务器出现故障时,这台服务器上运行的虚拟机可用自动迁移到其他可用的ESX服务器上,从而保障业务的不间断运行。

       
集群就是把所有的ESX/ESXi组织起来,形成一个大的资源池,所有的虚拟机可在池中的任意主机上自由移动,并且Cluster可做到快速扩容和HA故障冗余;所以Cluster是服务器虚拟化通往数据中心的必备功能。

        vSphere集群包括DRS集群、HA集群和DPM集群。

1、DRS:分布式资源调度,用于动态调整Cluster中ESX主机负载,自动把负载较重的主机上的虚拟机通过VMotion迁移到负载较轻的主机上,最终达到整个Cluster中的主机资源消耗平衡。

2、HA:高可用性,用于意外故障切换,当监控到Cluster中有主机意外故障时,会自动在其他主机上启动故障主机上之前承载的虚拟机。

3、DPM:分布式电源管理,用于在负载较轻时,把虚拟机动态”集中”到Cluster中的少部分主机上,然后把其他ESX/ESXi主机待机,以节省电力消耗,等负载较大时,再重新唤醒之前待机的主机。

        当了解群集后,下面就来建立群集

1、在vSphere Client
中,右击数据中心或文件夹,然后在弹出的快捷菜单中选择”新建群集”

图片 1

2、在名称文本框中为群集命名。该名称显示在vSphere Client 清单面板中。

图片 2

 

3、如果适用,启用增强型vMotion兼容性
(EVC),并选择它应以何种模式运行。在这里可以看到EVC所支持的AMD和Inter的CPU类型。不过要注意的是,即便使用EVC,也不能将Intel服务器上的虚机迁移到AMD主机上。所以EVC只有三个选项:禁用、Intel或者AMD

图片 3

4、选择虚拟机的交换文件位置。可以将交换文件与虚拟机本身存储在同一目录中,或者将交换文件存储在主机指定的数据存储中(主机-本地交换)。单击”下一步”

图片 4

5、单击”完成”按钮以完成群集的创建,新群集不包括任何主机或虚拟机。

图片 5

6、完成建立群集后,该名称显示在vSphere Client 清单面板中。

图片 6

7、添加ESXi主机,可以从清单或列表视图中选择主机或者将主机拖至目标群集对象。

图片 7

8、将所有的主机都拖至目标群集对象。

图片 8