图片 20

十载寒窗 英特尔至强处理器历代记(1)

2011年4月6日,Intel在北京发布了采用全新命名的至强E7系列,回顾至强处理器发展的历程,面向双路的产品从最初的至强5000系列到5400系列,到Nehalem架构的至强5500、Westmere架构的至强5600;而四路及多路处理器方面,最初的至强7100、六核心的Dunnington至强7400、上一代的Westmere至强7500再到最新的至强E7,算下来Intel在双路及四路以上服务器处理器中已经整整更新了10代产品。

图片 1

图片 2

这些产品见证了至强这个品牌一步步走向辉煌,同时这些产品也帮助数以万计的企业获得成功。今天,我们就来回顾一下最近几年Intel至强的10代产品,为了那些曾经忘却的纪念。

Intel于1971年发售了自己的第一款4位微处理器,设计与ROM 4001,RAM
4002和移位寄存器4003配合工作。其中4004自身负责运算,其它部分则是使CPU正常工作的重要组成。大部分4004被用于计算器和其它类似的设备,而不是用在计算机中。它的最大频率只有740KHz。4004的后继产品是4040,实质上是4004的改进版本,增加了扩展指令集并提高了性能。

今天,英特尔正式推出由傲腾数据中心级持久内存加持的第二代至强可扩展处理器(Xeon
Scalable
Processor,XSP)家族,对应在太平洋两岸近乎同步召开的“以数据为中心”(Data-Centric)发布会主题。

Dempsey核心 至强5000系列

图片 3

代号Cascade
Lake的第二代至强可扩展处理器可以视为前代产品(代号Skylake,SKL)的完善版,架构和工艺都没有明显的改变。在这种情况下,从3开头的铜牌系列到8开头的铂金系列,除了后面的数字从1变成2,最常见的变化是基频和睿频有100~300MHz的提高,内到互联架构与最高28核56线程、外到6通道DDR4和48条PCIe,都与初代保持一致。

英特尔公司的“Bensley”平台包括代号为“Dempsey”的双核Xeon
DP处理器和代号为“Blackford”的Intel
5000系列芯片组,另外还有一系列的新技术,比如I/O
AT技术、FBD内存技术、更新的安全特性等等。

二.8008和8080

新增的至强铂金9200系列是个例外。

型号 5080 5070 5060 5063MV) 5050 5040 5030 5020
sSpec SL968 SL969 SL96A SL96B SL96C SL96D SL96E SL96F
主频 3.73GHz 3.46GHz 3.2GHz 3.2GHz 3.0GHz 2.83GHz 2.66GHz 2.5GHz
CPUID string 0F64 0F64 0F64 0F64 0F64 0F64 0F64 0F64
封装类型 771pin 771pin 771pin 771pin 771pin 771pin 771pin 771pin
核心电压 1.25-1.40 1.25-1.40 1.25-1.40 1.25-1.40 1.25-1.40 1.25-1.40 1.25-1.40 1.25-1.40
总线速度 1066MHz 1066MHz 1066MHz 1066MHz 667MHz 667MHz 667MHz 667MHz
Thermal Guideline 130W 130W 130W 95W 95W 95W 95W 95W
Core stepping C1 C1 C1 C1 C1 C1 C1 C1
Thermal Spec 78℃ 78℃ 78℃ 68℃ 68℃ 68℃ 68℃ 68℃
L2 Cache Size 4MB 4MB 4MB 4MB 4MB 4MB 4MB 4MB
L2 Cache Speed 3.73GHz 3.46GHz 3.2GHz 3.2GHz 3.0GHz 2.83GHz 2.66GHz 2.5GHz
Manufacturing Technology 65nm 65nm 65nm 65nm 65nm 65nm 65nm 65nm
Bus/Core Ratio 14 13 12 12 18 17 16 15

4004使得Intel成为了一家微处理器公司,为了适应潮流,Intel发布了新的8位处理器系列。8008,8080和8085分别于1972年,1974年和1975年发布。

氪金玩家的Platinum 9200

英特尔当时一共发布了8款基于“Dempsey”核心的处理器:Xeon 5080、Xeon
5070、Xeon 5060、Xeon 5063、Xeon 5050、Xeon 5040、Xeon 5030和Xeon
5020。这些处理器依然采用了NetBurest微架构,它们将会是最后一个采用该微架构的Xeon系列产品。在Xeon
5000系列处理器中整合了两个完整的NetBurst微架构处理器,并且对于NetBurst微架构进行了进一步的优化——主要涉及到超管线技术Hyper
Pipelined Technology)和执行追踪缓存Execution Trace
Cache)。每个处理器拥有独立的2MB二级缓存,其前端总线为1066MHz或者667MHz,可以提供8.5GB/s或者5.3GB/s的传输带宽。

尽管8008是第一款8位处理器,但是并没有前任4004或者继任者8080那么著名。借助于8位数据传输,它的性能比4004有所提升,但频率依旧保守地定在200-800KHz之间,使用10微米工艺制造的8008的性能并没有打动消费者们。

,之后的一个月内我写了几篇产品和架构解析的文章。在一文中,我调侃至强可扩展处理器从铜牌、银牌、金牌到铂金的命名体系可能是受了80
PLUS电源认证体系的启发,并预言“随着至强可扩展处理器TDP的进一步上升,未来会出现类似Titanium
92xx这样的产品”……

Xeon
5000系列处理器采用了65nm制程,这对于有效的抑制Xeon处理器的发热量具有至关重要的作用。采用90nm制程的Irwindale核心的单核Xeon处理器TDP在130瓦左右,而Xeon
5000系列双核处理器TDP也只有135瓦甚至更低。Xeon
5000系列处理器不再采用Socket604封装,改用了FC-LGA6
LGA771封装,可进一步改进处理器的电气性能,更利于功率传导。

Intel的8080处理器则要成功的多,它增加了新的指令集并采用了6微米的制造工艺。这让频率几乎翻了一番,1974年性能最高的8080达到了2MHz的频率。8080被用到了大量的设备上去,这吸引了许多开发者,例如刚成立不久的微软,投身到Intel处理器的软件开发上。到8086发布的时候,它通过兼容8080来保持软件兼容性。结果是8080系列处理器和其他的关键硬件遍布当时所有的X86微机系统,8080的软件可以在任何X86处理器上运行。8085是8080的低价高能版本,尽管很成功但影响力不大

现在看来,预测对了一半:的确增加了9200系列,但仍在铂金旗下,并没有多出一个钛金。

这个系列的处理器依然支持超线程技术Hyper-Threading
Technology),这样每个核心可以处理2个线程,每颗双核心处理器可以并行处理4个线程,双路配置的处理器则能可以同时处理8个线程。另外,这个系列的处理器支持EIST、EM64T、VT、XDbit等技术,对于TM1功能也提供了支持。 

图片 4

要理解Platinum 9200系列,有必要简单回顾下始于Skylake、被Cascade
Lake延用的6×6 Mesh架构。

8086:X86的起点

图片 5

Intel的第一款16微处理器,相比于8080大有提升。不仅频率更高,而且16位总线和其它附加硬件允许8086同时执行两条8位指令。它也能执行更高效的16位任务,但此时大多数软件是8位软件,所以支持16位在多任务能力面前显得不那么重要。地址总线则扩展到了20位,使得8086可以存取1MB的内存,因而提高了性能。

这个共36个节点的网格结构,上面一排共6个用于UPI和PCIe,左右两边各1个用于3通道DDR4内存控制器(可达DDR4-2933,Skylake为DDR4-2666),留下最多28个节点用于处理器核心,所以Cascade
Lake-SP(Platinum 8200及以下)和Skylake-SP都无法超过28核56线程。

8086是史上第一款X86处理器,使用第一版的X86指令集架构,这是日后AMD和Intel几乎所有处理器的基石。

Platinum 9200的代号是Cascade Lake-AP,即Advanced
Performance的缩写,相应的SP代表Scalable
Performance——可以理解为“普通版”。

Intel与此同时也在生产8088处理器,这款处理器以8086为蓝本,但是外部总线只有8位。因为依旧能访问1MB内存和运行在较高频率,它比Intel的旧8位处理器性能快得多。

Cascade
Lake-AP在2018年11月初放出消息时,只有48核,为2个24核die的MCM(MultiChip
Module,多芯片模块)封装。但在正式发布的产品家族中,48核的Platinum
9242只能排在第二档,上面还有56核的Platinum
9282——相当于把2个28核的顶级款Cascade Lake-SP给“粘”在了一起。

图片 6

图片 7

80186和80188

9200的双路相当于8200的四路

继8086之后Intel发布了一些使用相似架构的16位处理器。首先是80186处理器,设计用于缓解使用80186
CPU成品机的制造压力。Intel将一些原本在主板上的硬件移到了CPU中,包括时钟发生器,中断控制器和计时器,通过集成这些部分,80186比8086快上许多,Intel也通过提高时钟频率来提升性能

“胶水”的具体实现简单粗暴。9200系列支持双路配置,意味着4个die(每个die可以理解为1个Cascade
Lake-SP)要彼此互连。以铂金8000系列(以及金牌6000系列)的3个UPI,是支持4个CPU之间全网状连接(full-mesh)的,即任意两个die之间都有直接的UPI连接。这样一来,每个die对外有2个UPI,每个9200系列处理器对外就有4个UPI。

80188同样集成了部分硬件,但是像8088那样总线被限制为8位总线

图片 8

图片 9

通过这种直接的1+1=2,9200系列的最大内核数量、每处理器支持的内存通道数量都达到了8200/8100系列的两倍,在某些应用中也获得了近乎两倍的性能提升(9282
vs. 8180)。TDP(Thermal Design
Power,热设计功耗)亦同步增长,最低的922x为250瓦,9282则高达400瓦——如果不是主频有所降低,达到410瓦也是很有可能的。

80286:更多的内存 更好的性能

如此高功率的CPU对服务器的散热提出了很高的要求。以伴随Platinum
9200系列推出的Intel Server System
S9200WK家族服务器产品为例,有1U半宽和2U半宽两种节点,前者必须使用冷板式液冷,后者可选风冷,但仅支持到350瓦。

80286和80186于同年发布,有着几乎相同的特性,但是80286的地址总线扩展到了24位,使得最高能访问16MB的内存

Cascade Lake-SP概览

图片 10

不算“开胶”的4款Cascade Lake-AP,我们现在能看到的Cascade
Lake-SP,共有43个公开的型号,比Skylake-SP最初发布时精简了8款——因为加上了后来推出的Gold
6138P,第一代至强可扩展处理器公开的型号多达52个。

iAPX 432

改进的14nm制程,在31款换代产品(即型号仅第二位由1变成2)中最为普遍的收益是200~300MHz的主频提升,有些核数多了2~4个,还有些LLC(Last
Level
Cache,末级缓存)的容量得到了少量增加;逾七成TDP保持不变,另9款TDP有不同幅度的上升。

iAPX 432是Intel对于偏离X86的不同设计的一种尝试。Intel希望 iAPX
432性能能够更上一步,但因为一些设计上的缺陷,这款处理器最终以失败告终。尽管X86处理器已经很复杂了,iAPX
432则将CISC复杂度更上一层。芯片的设计过于庞杂,迫使Intel不得不把它做成分离的两片芯片。处理器对于数据吞吐的庞大需求致使带宽不足而性能表现不佳。它比8080和8086表现要好,但不敌后续的X86处理器,最终被放弃

支持的内存频率也从DDR4-2666提高到DDR4-2933,不过,内存方面最大的改变还数从Skylake时代延至Cascade
Lake时代的傲腾数据中心级持久内存。

图片 11

图片 12

i960:Intel的RICS初尝试

Optimized for highest per-core scalable performance

Intel在1984年推出了自家的第一款RICS处理器,但它并不是设计与自家的X86处理器竞争,而是主要被用于嵌入式安全解决方案。它的内部设计基于BerkeleyRISC
32位超标量设计概念。最初的i960处理器频率非常低,低速模式仅仅有10MHz,但是经过逐年改进和更先进的制程,它的最终频率达到了100MHz。同样支持4GB内存,被广泛应用于军事系统和商业系统中

傲腾数据中心级持久内存即Intel Optane DC Persistent
Memory,中英文都长到拗口,很多大英的员工也记不住。所以尽管2018年5月底就发布了这个正式名称,很多人仍然愿意以之前的代号“Apache
Pass”或其简写“AEP”称呼它。虽然我一度对Apache
Pass怎么会简写为AEP感到接受不能,但在正式名称出来后,我也觉得还是代号更简洁易记。

图片 13

为了叙述方便,下面我们会用“DCPMM”的简写来指代Optane DC Persistent Memory
Module(傲腾数据中心级持久内存模块)。后面这个名字虽然更长,但确实较为精确的说明了这是一种什么产品——用在服务器等数据中心级设备中的NVDIMM。

80386:X86的32位开端

图片 14

Intel的第一款32位X86处理器是80386,于1985年发布。其中最关键的特性就是采用了32位地址总线最大支持4GB内存,尽管这个数字比当时大多数人用的要大得多,但RAM的限制损害了早先X86处理器和它的竞品的性能。与现代CPU不同的是,在80386时代,更多的RAM能够直接转化为性能的提升。Intel同时采用了一些架构改进来提升相同RAM大小的性能表现

自下向上,依次是64GB DDR4内存、256GB和512GB的Optane
DCPMM,后者在外观上与加装散热片的DDR4内存没有两样

为了让产品线在价格上更加友好,Intel发布了80386SL,和32位的80386几乎相同,不过限制了只能进行16位操作,不过它同样支持最大4GB
RAM,但只能运行16位应用

NVDIMM即Non-Volatile
DIMM,可以通俗理解为不需要保持通电即可持久存储数据的内存条。闪存(如Flash
NAND)等固态存储技术就是非易失性的,而且还比“正经内存”容量大、单位价格低,做成内存条的形状插到服务器的内存插槽上,可以作为“正经内存”的补充。

图片 15

不过闪存的性能还是比DRAM差太远,延迟高几个数量级,写入尤其慢,更要命的是写入寿命有限,总之是各种不耐写。英特尔在2015年发布的傲腾品牌基于3D
XPoint技术,延迟只比DRAM高一个数量级,读写性能均衡,写入寿命也比闪存高得多,相较于作为固态盘,NVDIMM是其更为理想的使用场景。

.i860

Optane
DCPMM硬件上是内存条的形态,需要和DRAM配合使用,即每个内存通道的2个DIMM槽上,离CPU更近的槽插Optane
DCPMM,另一个槽留给DRAM。软件方面,有两种使用模式:内存模式不需要软件应用进行修改,App
Direct模式则需要软件应用具备持久内存感知能力,各有利弊,留待以后专文另述。

在1989年,Intel再次尝试了非X86处理器,他们推出了全新的RICS处理器i860。不像早先的i960,这次的i860被设计用于直接在桌面级市场竞争,但是这次的设计问题繁多,它最明显的缺陷是处理器的性能严重依赖于编译器在软件启动时将指令编排好顺序,这虽然帮助Intel将芯片尺寸缩小,复杂度降低,但是在编译过程中将指令从头到尾正确排序几乎是不可能的,最终导致了处理过程中的高延迟

图片 16

图片 17

内存模式面向传统工作负载,App Direct模式则需要应用软件进行针对性的优化

80486:整合浮点运算

支持傲腾数据中心级持久内存是铂金和金牌(6200&5200系列)相对前代产品的一大卖点,其中6款还有大型和中型DDR内存层支持可选。

80486是CPU性能史上的又一里程碑,它成功的关键在于在CPU中整合更多的元件。80486上第一次出现了一级缓存,早期的80486封装了8KB缓存,使用1000nm制程。不过随着制程发展到600nm,一级缓存增加到了16KB

与前代一样,第二代至强可扩展处理器的通用产品分为两大类,一类是为最高每核“可扩展性能”优化,另一类直接是“可扩展性能”(scalable
performance),姑且认为对应第一代的“Balanced, energy efficient perf/W”。

此外,Intel还整合了FPU,在此之前一直作为一个分离的处理单元。通过将FPU整合进CPU,它们之间的延迟大大降低。80486还使用了更快的FSB接口来提升带宽和其它技术来提升性能。这些改进显著提高了80486的性能。

图片 18

最初的80486时钟频率为50MHz,后来的采用600nm制程的型号达到了100MHz。在消费领域还发布了80486SX,移除了FPU部分

Scalable Performance

图片 19

这里面值得一提的是Gold 5217,与Silver 4215都没有公开的前代型号。Gold
5117是百度定制的型号,从非官方信息来看,除了105瓦的TDP,其他主要参数都与Gold
5217有着较为明显的差异,似无直接关联。

P5:最初的Pentium

5类后缀与工作负载优化

最初的Pentium
CPU在1993年发布,但没有沿用80X86的命名方式。Pentium采用了P5架构,这是Intel在X86
CPU首次采用超标量技术(注:这与我们现在常提到的超线程技术不同),尽管全面超越了80486,但最突出的进步是改进了FPU。

在评介Skylake的系列文章里,已经指出新的型号命名规则将严重依赖4位数字后面的2位字母“处理器选项”。第一代至强可扩展处理器有4种处理器选项,分别是M、F、T、P,在这一代M(每插槽1.5TB内存)被L和M所取代,F和P看似后继无人,只有T不变,又加上了N、S、V和Y。

最初的Pentium FPU性能达到80486的十倍,在接下来推出的Pentium
MMX中这一特点更加显著,它和最初的Pentium处理器架构相同,但新的MMX
SIMD指令集令性能大幅提升

图片 20

Intel同样提升了一级缓存的大小,Pentium提升到16KB,Pentium
MMX提升到32KB。当然频率也在提升,最初的Pentium使用800nm制程,运行在60MHz,但在之后的版本中,采用250nm的Pentium达到了300MHz的频率

Long-life cycle and NEBS-thermal friendly