烽烟再起 2011年服务器处理器有新看点

间隙填充
正睿科技  发布时间:2011-01-21 08:48:00  浏览数:2075

    2010年的服务器芯片大战已经偃旗息鼓,转眼2011已至,经过短暂的休整,芯片巨头们在新一年中又将拿出怎样的“杀手锏”?


    2010年是服务器处理器的一个大年,英特尔和AMD这对老对手在2010年都可谓风生水起。英特尔在第一季度先后推出了面向高端市场的安腾9300,以及Nehaelm家族新成员至强5600和至强7500。AMD方面自不甘落后,先后推出了面向双路/四路市场的皓龙6100,以及面向单路市场的皓龙4100。在RISC阵营中,IBM强势推出Power 7,继续巩固在RISC领域的霸主地位。

    2011年已至,处理器巨头们暂时偃旗息鼓,不过从历年的处理器市场来看,2010年末至2011年初这只不过是大战前的平静,很快,新一轮的处理器烽烟又将燃起,2011年在服务器处理器市场依旧有很多新的看点。

    英特尔至强全面进入32nm时代

    2010年英特尔所推出的一个最具划时代意义的产品就是Nehalem-EX至强7500,至强7500具有前所未有的可扩展性,并引入了移植自安腾处理器的RAS特性,让x86处理器第一次具备了能够挑战RISC的实力。凭借先进的至强7500,英特尔在2010年风光无限,无论营收还是市场影响力均获得了满意的答卷。不过在Tick-Tock处理器发展步调的推动下,虽然至强7500大获成功,但英特尔并不打算坐吃老本,在2011年第二季度将推出Nehalem-EX的继任者??Westmere-EX,将制程和核心数量再度提升。


烽烟再起 2011年服务器处理器有新看点
Westmere-EX是是对Boxboro平台的一次重大更新

    Westmere-EX所面向的依旧是关键任务领域,可以支持两颗、四颗、八颗CPU,或者通过节点控制器扩展到更多路。Westmere-EX是对Boxboro平台的一次重大更新,首先是制程工艺从至强7500的45nm进步到32nm,工艺的进步让Westmere-EX核心数量增加到10个,支持英特尔HT超线程技术,具有20个线程。Westmere-EX依旧被分为“Core”和“Uncore”部分,后者集成了QPI互联、电源和时钟控制、集成的内存控制器和L3缓存(英特尔更喜欢将L3缓存称作last level cache,或LLC)。

    Westmere-EX的10个核心共享缓存中的10个“薄片”,通过一个双向的环形总线访问。Nagaraj描述LLC采用10路物理地址哈希来避免热点(hot spot),并且每个时钟周期可以处理5个并行的缓存请求。Westmere-EX中一个Nehalem-EX所不具备的小功能是Directory Assisted Snoopy (DAS), 可以降低8插槽系统或基于节点控制器的平台的内存(缓存)延迟。Westmere-EX的一个重要提升是加入了六条新的AES-NI指令集,为加密加速。Nagaraj还表示Westmere-EX具有增强的虚拟化支持,将提升虚拟机的切换速度,并加入VT-x3的一些新功能。

    Westmere-EX将成为英特尔面向多路市场的重头产品,它的发布也标志着英特尔至强产品线全面进入32nm时代。

    Sy Bridge家族至强全面登场

    根据英特尔的Tick-Tock发展战略,英特尔将在2011年全面升级至“Sy Bridge”架构至强,包括面向单路、双路、四路的新至强处理器,完成Sy Bridge架构的全面布局。不过Sy Bridge至强家族发布时间还没有正式公布。


烽烟再起 2011年服务器处理器有新看点
Sy Bridge至强家族

    从上图可以看到英特尔的Sy Bridge至强家族包括面向入门单路服务器的Sy Bridge-DT、面向主流单路/入门双路服务器的Sy Bridge-EN、面向主流双路服务器的Sy Bridge-EP、以及面向入门四路服务器的Sy Bridge-EX。

    能够看到Sy Bridge至强家族的接口相对Nehalem至强有了一些变化,接口种类更多,分别为LGA 1155(Socket H2)、LGA 1356(Socket B2)、LGA 2011(Socket 2011),这将意味着Sy Bridge至强将采用全新的芯片组和插槽,不再兼容Nehalem至强。

    值得注意的是Sy Bridge-EX定位是在“入门4路服务器”,而高端四路英特尔将采用全新至强(22nm)的Ivy Bridge-EX,不过这个产品的发布时间还没有确定。能够推测Sy Bridge-EX的成本更低,而明年面向高端四路、或者更多插槽服务器的主力产品将是Westmere-EX,两者之间应该具有明确的分工,看来英特尔打算将产品线更加的细化。

烽烟再起 2011年服务器处理器有新看点
Sy Bridge家族

    上图列出了Sy Bridge家族的架构图,能够看出它们之间的一些区别,主要在于支持的DDR3内存通道、QPI总线以及PCIe通道的数量。其中LGA1155接口至强(Sy Bridge-DT)没有采用QPI架构,支持两条DDR3内存通道和20个PCIe 2.0通道。LGA1356(Sy Bridge-EN)具有1条QPI总线用于CPU之间的互联,具有三条内存通道,并且内存规格支持到1600MHz,具有24个PCIe 3.0通道。

    面向主流双路、入门四路的LGA2011(Sy Bridge-EP/EX )在规格上就要更高一些了,具有两条QPI总线、四条DDR3内存通道,支持1600MHz规格内存,具有40个PCIe 3.0通道。Sy Bridge-EP将具有四核、六核产品,所有版本均支持英特尔Hyper-Threading超线程技术。

    Sy Bridge-EP一个重要特点是在内存上,它将根据每个通道安装的内存模块的不同调整内存频率,比如一个内存通道安装一个DIMM的时候,内存频率可以运行到1600MHz,安装两个DIMM模块内存平率将降到1333MHz,而安装三个DIMM模块内存频率将降低到1066MHz。

    Sy Bridge-EX将具有八个核心,从规格上来看它的规格要比即将发布的Westmere-EX要低一些,Sy Bridge-EX具有2条QPI总线,只能实现相邻两颗CPU的互联,而要访问第四颗CPU,则需要经过相邻的CPU;Westmere-EX具有3条QPI总线,能够实现四颗CPU的两两互联,当然效率要更高。从这点也能比较出Sy Bridge-EX成本要更低。

烽烟再起 2011年服务器处理器有新看点
Westmere-EX和Sy Bridge-EX QPI的对比

    Sy Bridge至强家族将采用全新的Patsburg芯片组平台,从将发布的CPU来看,Patsburg芯片组将具有三四个版本,来支持不同插槽的CPU。日前英特尔已经透露了四款该芯片组的SKU,代号分别为A、B、D和T,我们还不知道英特尔缘何选择这些字母。

2011服务器处理器有何看点
英特尔透露的芯片组Patsburg SKU

    四个型号的共同点包括最大支持14个USB 2.0接口、3个SATA 3Gbps接口、2个SATA 6Gbps接口、一个用于板载闪存的ONFi接口??虽然很可能最终的服务器主板中不会用到。还支持8个PCI-E 2.0通道和HD音频(虽然可能也不会用到),看上去还将支持早期的PCI接口,尽管还不清楚是否会通过桥接芯片。

    A型号具备最基本的功能,通过扩展器支持额外的四个SATA 6Gbps接口。B型号SKU将支持的SATA 6Gbps接口换成了SAS 6Gbps接口,但是数量还是四个。D SKU和T SKU具有额外的四个PCI-E 3.0通道,支持8个SATA 6Gbps或SAS 6Gbps接口。另外T SKU为SAS接口提供了RAID 5支持,并且内建SRAM用于缓存数据保护,其他的SKU提供了RAID 0/1/10的支持。

    AMD“推土机”迎击“Sy Bridge”

    英特尔已经为2011年做好了准备,不仅有Nehalme-EX的继任者Westmere-EX,还有完备的Sy Bridge至强家族,即将实现从高到低的全面更新。作为老对手,AMD在2011年又将有哪些动作呢?2010年的“Magny-Cours”皓龙应当算是一款成功的产品,得到了众多OEM的拥簇和市场的好评,2011这种势头是否还能够延续?

    我们希望能够这样,毕竟市场并不是英特尔一家的舞台。2011年AMD方面最值得期待的莫过于全新的“推土机”架构,或许应该用“革命”这样的形容词,因为“推土机”将是一个全新的处理器架构,基于“推土机”架构的处理器,将和K7之后的所有AMD处理器都不尽相同。

    AMD“推土机”将采用32nm SOI工艺,这让“推土机”相比“Magny-Cours”皓龙处理器可以在不增加功耗的前提下增加33%的核心数量、增加50%的吞吐量。与AMD之前所有处理器都有所不同的是,“推土机”采用了“模块化”的设计,每个“模块”包含两个处理器核心,这有些像一个启用了SMT的单核处理器。每个核心具有各自的整数调度器和四个专有的管线,两个核心共享一个浮点调度器和两个128位FMAC乘法累加器。


烽烟再起 2011年服务器处理器有新看点
AMD“推土机”模块架构图

    所不同的,在K10架构中,ALU和AGU共享三个管线(平均1.5个),“推土机”中每个核心整数单元管线的数量增加为4个,2个AGU专有、2个ALU专有。L1缓存也有所不同,在K10架构中,每个核心具有64KB L1指令缓存和64KB L1数据缓存;而“推土机”每个核心具有16KB L1数据缓存、每个模块具有64KB双向L1指令缓存,至于减小的L1缓存是否会影响性能还有待观察。两个核心共享L2缓存,模块之间共享L3缓存及北桥。

    “推土机”可以说采用的是介于传统的“多核”和同步多线程(simultaneous multithreading,简称SMT)之间的第三种方式。我们知道,之前的AMD皓龙处理器采用的是“芯片多处理器”(chip multiprocessing, 即CMP)设计,每个独立的核心运行一个线程,比如AMD双核、四核皓龙,采用的就是CMP设计;而SMT技术是允许两个或更多的线程共享相同的核心,并发执行,比如像英特尔的Hyper-Threading。

    AMD“推土机”架构可以说是介于这两种之间的一种设计:两个线程(核心)共享浮点执行单元,但是各自具有独立的整数执行资源。这看上去像是SMT的另一种形式,或者说是经过AMD改良的一种“AMD式的第三种方式”。但与传统的SMT设计不同,SMT仅仅复制的是核心的存储部分,一个线程一个存储模块(register file),而AMD“推土机”架构中,每个线程复制的是完整的整数执行单元硬件,一个线程具有一个存储模块(register file)和一组完整的整数执行单元。

    每个线程具有独立的整数执行单元是AMD“推土机”和双线程SMT设计的主要区别。不过从“推土机”的设计来看,这并不像真正意义上的“CMP双核”,毕竟两个核心还要共享浮点执行单元,或者可以称之为“1.5核”。这样设计的好处就是能够大大节省晶体管的数量、降低核心面积和功耗,同时降低成本。即使不是真正的“双核”,但不难想象这样的设计要比SMT更加高效,相比之下,传统的SMT设计可以称之为是一种“1.2核”的设计。

    总之,AMD“推土机”架构将带来全新的性能和体验,这足够值得我们期待。不过面对英特尔丰富的产品线,“推土机”肩上的重任并不轻松。

    经过了短暂的休整,2011年的服务器芯片大战即将揭幕,英特尔和AMD还将是这场战役的主角??虽然像ARM等服务器新进能够让我们眼前一亮,主流服务器市场还将是由这两个老对手来左右。我们期待它们都能够有更好的表现,毕竟CPU的竞争、发展是推动服务器技术发展的原动力。