图片 5

搭配官方样机 Nehalem-EX处理器SPEC评测(1)

我们已经知道,Nehalem-EX至强7500以及6500系列)处理器属于Nehalem家族中最迟出生的系列,和其他家族兄弟都不太一样,Nehalem-EX的架构在Nehalem的基础上进行了改进,以适应多路、多核心的环境,这个改动出现在Uncore核外)架构上。

在上篇文章云计算百家争鸣之云服务器对比2 —
性能和高可用中,我们分享了云服务器里的两个点:CPU和可用区。不过大部分非专业人员或者程序员GG可能对CPU型号不太感冒,不确定这些型号到底有什么优劣,今天我们就来八一八

一个可能不是很多人都知道的事实是,Intel英特尔)的Nehalem-EX系列处理器不仅仅包含了面向四路以及以上服务器市场的至强7500系列处理器,它还包括了面向双路设计的至强6500系列处理器。

架构大不同

1.Xeon

xeon是Intel
CPU的一个品牌名,就像奔腾,目前有三个E系列:E3,E5,E7,以及Scalable系列

  • Xeon E3是针对工作站和入门级服务器的单路处理器系列
  • Xeon E5是针对高端工作站及服务器的处理器系列
  • Xeon
    E7是面向关键任务和数据中心的处理器系列,强调可靠性、可用性和可服务性
  • 2017年,新推出了可扩展系列,Xeon Scalable
    CPU,命名上看和E3,E5,E7不是很搭,任性

我们看到大部分云计算厂商的CPU都是E5系列,比如阿里云的Intel Xeon E5-2682
v4 ,那么后面的2682以及V4又是什么意思呢?

  • 第一个数字代表最大的处理器数目,有单路、双路、四路和八路。2682里的2,就代表这是双核
  • 第二个数字代表CPU插座类型,共有四种规格,第一代产品1、2、4、6、8分别代表BGA
    1284、LGA 1155、LGA 1356、LGA 2011和LGA 1567]
  • 第三和第四位代表编号序列,一般是数字越大产品性能越高,价格也
    更贵
  • v4表示这款CPU的修订版本

另外也会发现,阿里云的通用型实例是Intel Xeon Platinum
8163(Skylake),而不是E3,E5,E7,这是因为Scalable采用4种不同等级代替E5和E7,分别为青铜级(Bronze)、白银级(Silver)、黄金级(Gold)和铂金级(Platinum)四个等级(不会玩王者荣耀还不行啊>_<)

 图片 1
被设计为既适合7500系列也能适合6500系列应用的DELL PE M910刀片服务器

 图片 2
官方送来的四路Nehalem-EX评测样机,内部被处理器和内存卡占据了大部分空间

2.微处理器架构

了解了Intel
产品上的一些名称后,我们再看看Nehalem、Haswell、Broadwell、Skylake。他们其实代表CPU的微架构(microarchitecture),在介绍这个之前,不得不先介绍先intel的Tick
Tock(钟摆)战略,他于2007年(2016年终止)提出,其中的Tick是指CPU工艺升级,Tock则是CPU架构升级,二者轮流交替,两年为一个周期:

  • 2007年,Penryn,45nm工艺
  • 2008年,Nehalem,45nm工艺
  • 2010 年:Westmere,32nm工艺
  • 2011 年:Sandy Bridge,32nm工艺
  • 2012 年:Ivy Bridge,22nm 工艺
  • 2013 年:Haswell,22nm 工艺
  • 2014 年:Broadwell,14nm 工艺
  • 2015 年:Skylake,14nm 工艺

可以看到,Nehalem、Haswell
等就是CPU架构的一个名称,每个版本都会有很多改进,比如工艺升级,指令集扩充,这里简单看下划时代的Nehalem

至强6500只能用在双路市场上的限制是通过QPI总线来达到的,这个和单路至强/桌面Core
i7只有单条QPI而无法组装双路平台一样。那么,面向双路的至强为什么同时存在6500和5600两个系列呢?不注意看的话这两个数字还真是相像!

图片 3
X7560处理器,工程样品,因此看不到处理器的参数

2.1 Nehalem

在讲解Nehalem前,得先说一下FSB(前端总线)和北桥,
之前Intel一直依赖FSB和北桥来和内存通信,虽然FSB由原来的多核一条发展到每个处理器单独一条,但是每个处理器都要通过北桥,这很容易成为瓶颈

图片 4

所以在Nehalem架构中,抛弃了FSB和北桥的消失,引入了IMC(继承内存控制器)和QPI,IMC用于直连内存(每个核有自己的IMC,而不是之前一个北桥了),QPI用于连接其他核的内存,使用高频率
DDR3 内存,访问本地内存的延迟大约为 60 个时钟周期,而通过 QPI
总线访问远端的处理器 并返回数据大约需要 90 个时钟周期

图片 5

图片 6