【IT168 IDF2008】2008年春季英特尔信息技术峰会的第一天,英特尔发布了大量的关于未来1-2年内服务器相关的重要信息??不但有6核心的Xeon处理器,也有4核Itanium处理器的详细信息。同时,还在继续推动着SSI行业开放型刀片标准的进程,并且描绘着未来mega数据中心的灵魂,具有TeraFLOPS性能的Intel多核处理器的未来蓝图。
全新理念的Nehalem
自从确立了“Tick-Tock”产品开发战略之后,英特尔一直严格的履行着其诺言。英特尔在2008年春季信息技术峰会上在此明确了会在今年下半年推出代号Nehalem的微架构的45nm处理器产品,明年将会将制程技术提升到32nm,代号Sy Bridge的微架构也开始出现在公众视线内。
同Penry所采用的策略类似,英特尔也计划将Nehalem所使用的微架构应用于从移动平台到PC平台和服务器平台。而根据英特尔已经公布的信息来看,Nehalem是一款具有“动态和可扩展”微架构设计的产品,虽然还是基于Core微架构而来,但是同以往的英特尔处理器产品在设计理念上有很大不同。利用Nehalem模块化设计,英特尔根据移动平台、PC平台和服务器平台应用的需求不同,来调整核心、内存通道、QPI链路、缓存容量、内存类型、电源管理和整合图形控制器等功能来塑造不同的产品线。
放弃了英特尔使用多年的前端总线结构,是Nehalem处理器最引人瞩目的改变。Nehalem处理器整合了内存控制器??这意味着系统的内存带宽会随着处理器数量的变化而变化。每个处理器可支持3通道DDR3内存,最高可支持DDR3-1333内存,双路服务器最高可得到64GB/s的内存带宽。可支持RDIMM和UDIMM,不排除未来的产品会支持更多的内存通道、内存容量。
Nehalem引入了全新的Intel QuickPath Interconnect(QPI)点对点互连总线。从上图可以看出,系统内处理器两两之间可以直接使用QPI通讯,处理器同IOH之间也是采用QPI通讯(每IOH可支持两个处理器)。QPI每方向带宽为6.4GT/s,双向链路可达12.8GT/s。
目前英特尔将Nehalem平台笼统的称为Nehalem-EP平台,服务器平台所采用的芯片(组)代号可能为Tylersburg EP,PC平台的芯片(组)代号可能为Ibexpeak。
Nehalem处理器的每个核心具有32KB L1数据缓存和32KB L2指令缓存,此外还有256KB L2缓存??这一点同现在的Core微架构非常的不同,不再是两个核心共享一个L2缓存。Nehalem中所有的核心共享L3缓存,根据处理器型号不同L3缓存容量最大为8MB,而L3缓存为非独占式,并且采取了一系列的技术确保缓存一致性。
Nehalem处理器的多种改进
Nehalem相对于Penry做了多个方面的改进,主要包括增强的处理器内核、新的SSE4.2指令集、改进的锁存支持、附加的缓存层级、改进的环流、更好的分支预测、更快速的虚拟化、同步多线程、更深度缓冲等等。
在酷睿2处理器中引入了宏融合的功能,它可以将条件分支后的Test/CMP看做单一一条指令,从而提升执行效率。Nehalem中定义了更多的宏融合机会,并且增加了64bit宏融合模式。
利用环流检测器,可以尽量的避免不必要的分支预测和取指令,从而达到提升效能甚至节能的目的。Nehalem扩大了可检测数据环的大小,从而进一步提升环流检测器的效果。
分支预测功能是确保在当前复杂的处理器架构和应用的环境下,得到高效的计算系统的必要功能。英特尔一直在不断的改进着分支预测的准确率,从而提升处理器的性能同时降低不必要的功耗。
为了保证强大的执行单元获得足够的供给,Nehalem将保留站点(Reservation Station)的数量扩充到了36个,相应的负载缓冲器和存储缓冲器也做了增加。
Nehalem增加了新的低延迟联合二级TLB数量;优化了无排列指令,编译器可以更随心所欲的使用无排列指令;更快速起始同步。这三个方面使得Nehalem在内存子系统方面会有进一步的改进。
同步多线程(SMT)功能可以算是HT技术的回归,Nehalem处理器中的每个核心可以运行2个线程,从而更加充分的利用处理器的各种资源,这主要得益于Nehalem具有更大的缓存和更高的内存带宽。
Nehalem为虚拟化应用做了进一步的改进,主要是减少转换延迟、减少虚拟处理器ID转换成本、减少EPT(扩展页表)转换次数。从英特尔展示的数据来看,Nehalem虚拟化应用的延迟会比上一代产品缩短40%以上,这是一个很让人期待的数字。
STTNI(字符串文本新指令)和ATA(面向应用的加速器)是SSE4.2相对于SSE4.1最大的改变。Intel C++ Compiler 10.x和Microsoft Visual Studio 2008 VC++均已经实现了对于SSE4.2的支持。
代号Dunington,6核心Xeon MP
在2008春季英特尔信息技术峰会前夕,英特尔宣布2008年下半年将会推出代号为“Dunnington”的6核心处理器,在峰会期间英特尔也不失时机的在多个厂商提及Dunnington。
在Dunington处理器中整合了3个Penryn核心的双核处理器,每两个核心共享一个容量为3MB的L2缓存,每个Dunnington处理器还整合了最多16MB L3缓存。正是因为如此,这款处理器的晶体管数量达到了19亿个。好在采用了45nm High-k制程技术,所以它的TDP依然维持在60W/90W/130W的水平上。
代号为“Dunnington”的新一代Xeon 7400 MP处理器保持了同Canel平台(Clarksboro芯片组)的兼容,依然是Socket mPGA604封装(同现有的Tigerton处理器保持针脚兼容),前端总线为1066MT/s??这对于6核心处理器而言显然是不足的,但是为了保持对现有平台的兼容,做出一定的牺牲也是必要的。此外,英特尔还可能推出4核心的Dunnington,用于满足不同客户的需求。
英特尔多年以来一直将X86架构应用于4路以下的服务器系统上,除非第三方厂商开发芯片组提供支持,英特尔并没有让Xeon MP产品去触碰8路市场??按照英特尔规划那应该是Itanium的势力范围。其实,凭借着Nehalem和QPI总线良好的扩展性,组件8路乃至更复杂的系统均是可行的,上图所示的就是一个8路的系统。英特尔目前还没有透露Xeon MP更多的发展规划,也许下一代的Xeon MP不仅仅限于4路的系统。
全新架构的Tukwila,Itanium摒弃前端总线
就现在的发展状况来看,Itanium在诞生至今的短短7年中的年增长率超过40%的发展速度令人感叹。目前安腾解决方案联盟的成员已经超过了100个,其投资超过了100亿美元,全球100家顶尖的公司中已经有75家选择了Itanium,实际的部署数量超过了164000台,可用的应用已经超过了12000个,一个围绕Itanium的生态系统已经逐渐成熟了。
2007年,英特尔发布了代号Montvale的Itanium 2 9100系列双核处理器,相对于上一代Itanium 2处理器(Montecito核心)仅仅是提升了处理器主频和提升了缓存容量,并没有明显的改进,所采用的制程也是较老的90nm制程技术,比英特尔最新的制程技术慢了2代。
在2008年春季英特尔信息技术峰会期间,英特尔公布了代号“Tukwila”的新一代Itanmium处理器的技术细节。Tukwila是一款四核处理器,每个核心支持两个线程,所以每颗处理器总共支持8个线程。英特尔宣布每个Tukwila处理器整合了24MB L3缓存(每个核心具有独立的6MB L3缓存),同时还集成了两个内存控制器和一个路由控制器(Crossbar Router)。Intel已经公布的数据显示Tukwila性能可达40G Flops/sockets,是上一代安腾2处理器性能的1倍。
TukwilaTukwila采用了8级流水线设计,具备50bit物理寻址的能力。它的高速宽位执行单元每周期可执行6个宽位指令:
Tukwila整合两个内存控制器,每个内存控制器可以操作一对高速Lock-stepped内存通道,每个内存通道连接到一个内存缓冲器上,可支持DDR3 800,最高可获得34GB/s的内存带宽。Tukwila可支持512MB-16GB容量的内存条,可同时支持4种不同类型的内存,每通道最高可支持4条内存。每个内存控制器最大可支持1TB内存。
Tukwila也会采用英特尔最新的QPI点对点串行差分互连总线,每方向带宽为4.8 & 6.4 GT/s,理论上总共可提供96GB/s的QPI带宽??Itantium也放弃前端总线结构。
由于Tukwila和Nehalem均整合了内存控制器和大部分传统北桥的功能,这使得这两个之前两条平行的产品线有可能会采用相同的芯片(组),这是否意味着生产Itanium系统的门槛有了进一步的降低,是否会有更多的服务器厂商跟进?
Tukwila的RAS特性
Tukwila内核错误保护机制被用于了L2I、L2D和Directory缓存上,通过Soft-error硬件电路增强了soft error保护。
Tukwila的内存通道保护机制可在出现硬件错误时,通过CRC和Lane Failover来纠正。在重置物理层之前,内存控制器会重试多次。物理层则在通道重置的时候可完成lane failover。
Tukwila处理器中引入了DDDC(双设备数据更正,Double Device Data Correction)技术,从而确保当一个DIMM上的二个DRAM芯片发生硬错误时也能修复产生的错误。
在新的Itanium系统中发挥重要作用的QPI总线的RAS也是非常重要的,英特尔在物理层、链路层和协议层三个方面提供了保障,比如物理层支持自我复原、热插拔,链路层具备健壮的CRC和链路层重试机制,协议层具有错误遏制系统并可处理传输超时的情况。
超并行微架构和第9代安腾
目前,Intel在Itanium系列产品上的战略也很有些“Tick-Tock”的味道。在Tukwila处理器之后,Intel计划发布Poulson核心的Itanium处理器。
Poulson将会采用全新的超并行微结构(ultra parallel micro-architecture),可能会是四核处理器处理器,也可能会整合更多的核心,而且支持多线程技术,因此将会具有更强的并行处理能力。此外,Poulson还会支持一些新的指令,从而提升并行处理和虚拟化应用的效能。 值得我们注意的是,Poulson将会不会采用45nm制程技术而是直接采用32nm制程技术。这是一个非常重要的信息,它预示着Intel在Itanium系列产品上应用新制程技术态度的转变,采取更“激进”的策略,才是Itanium破茧而出的重要举措。
Poulson将会具有更多的片内缓存,并且提供新的大型机级别的RAS。即便有如此多的改变,它依然同Tukwila平台兼容。这确保安腾系统能保持较快的技术更新的同时还能保持一定的稳定性。
Kittson是继Poulson之后的下一代英特尔安腾处理器的代号,是第9代安腾处理器,预计在2010年以后会逐渐的浮出水面。目前,英特尔没有提供更多的细节,只是大致阐述了它的发展方向:更强大的并行处理能力、更多的核心和更多的线程。即便是这样,我们依然可以看出Intel对于安腾系列产品有着非常长远的规划,依然能感觉到Intel坚持发展安腾之路的决心。
统一与差异化,英特尔推广SSI标准
刀片服务器出现的时间已经不短了,但是它尚未有一个统一的标准,不同的厂商,如IBM、HP等,都具有不同的刀片标准,厂商与厂商之间的产品互不兼容。即便是如此,却不能阻止刀片服务器市场成为目前成长最快的服务器细分市场,目前它占据了服务器市场10%左右的市场份额。
SSI(Sever System Infrastructure)服务器系统基础架构论坛(www.ssiforums.org)瞄准了这个颇具潜力的市场,在去年7月份推出Modular Server Specification模块式服务器规范,目标就是为业界提供一个开放的、标准的模块化服务器标准,可以使用规范的接口和部件技术,从而降低刀片服务器的建造、维护成本。
英特尔擅长营造生态圈,像推行一个标准/发布一个服务器平台这样的事情自然少不了其他厂商,浪潮、联想、宝德、中兴、华硕、技嘉、曙光等国内厂商均已经是这个组织的成员,并且浪潮等厂商已经推出了相应的产品。
SSI MSS规范的支持厂商
英特尔在通过定制统一的标准来降低刀片服务器产品门槛,一方面可以让更多的厂商参与到刀片服务器的设计和生产,一个方面通过标准化可以大幅度降低刀片服务器成本,更多的用户可以选购这类产品。与此同时,SSI还允许成员进行创新设计,从而确保不同厂商产品之间的差异化。
Mega数据中心的灵魂
未来数据中心是什么样子的?至少是现在常规规模的10倍大小,具备TeraFLOPS性能,从任意设备可访问数据和应用程序,具有良好的安全性,容易维护……不管怎样,随着数据中心规模越来越大,它得能耗非常的巨大,这也是为什么Goolge的新数据中心选择在俄勒冈Dalles水利发电厂的附近的原因。
多核处理器非常的适用于数据中心的需求,它能提供比单核处理器高得多的计算密度和能效比。结合虚拟化整合应用,还能更加高效的利用已有的计算资源,从而在整体的降低功耗。
英特尔在2008年春季信息技术峰会期间再次向我们描绘了80核处理器的美好前景。英特尔正在开发中的这款80核处理器,采用了65nm制程技术,2D网状分布结构,外形尺寸只有22x13.75mm,可提供1TeraFLOPS的总体性能。就主频为3.1GHz的产品而言,平均每瓦性能高达10 GFLOPS。
进程内核,IO以及互连,性能与内核数量几乎成正比关系