with SMT vs. without SMT
ScienceMark Membench | |||
厂商 | Intel | Dawning | |
产品型号 | Nehalem-EP Intel Gainestown Xeon E5540 2.53GHz |
Nehalem-EP Intel Gainestown Xeon E5540 2.53GHz 无超线程 | |
内存技术参数 | 2GB R-ECC DDR3-1066 SDRAM x12 | 2GB R-ECC DDR3-1066 SDRAM x12 | |
L1带宽(MB/s) | 47705.89 | 47572.00 | |
L2带宽(MB/s) | 19499.26 | 19353.08 | |
内存带宽(MB/s) | 8620.40 | 8623.25 | |
L1 Cache Latency(ns) | |||
32 Bytes Stride | 2 cycles 0.79 ns |
2 cycles 0.79 ns | |
L1 Algorithm Bandwidth(MB/s) | |||
Compiler | 41485.23 | 42272.23 | |
REP MOVSD | 43346.81 | 43279.73 | |
ALU Reg Copy | 11990.39 | 12024.42 | |
MMX Reg Copy | 47705.89 | 23374.45 | |
SSE PAlign | 46105.34 | 47567.95 | |
SSE2 PAlign | 48167.88 | 47572.00 | |
L2 Cache Latency(ns) | |||
4 Bytes Stride | 3 cycles 1.19 ns |
3 cycles 1.19 ns | |
16 Bytes Stride | 3 cycles 1.19 ns |
3 cycles 1.19 ns | |
64 Bytes Stride | 9 cycles 3.56 ns |
9 cycles 3.56 ns | |
256 Bytes Stride | 8 cycles 3.17 ns |
8 cycles 3.17 ns | |
512 Bytes Stride | 8 cycles 3.17 ns |
7 cycles 2.77 ns | |
L2 Algorithm Bandwidth(MB/s) | |||
Compiler | 18042.06 | 12053.96 | |
REP MOVSD | 19499.26 | 19353.08 | |
ALU Reg Copy | 8766.52 | 8691.59 | |
MMX Reg Copy | 13988.43 | 13947.73 | |
SSE PAlign | 18664.20 | 18458.88 | |
SSE2 PAlign | 18664.20 | 18287.87 | |
Memory Latency(ns) | |||
4 Bytes Stride | 3 cycles 1.19 |
3 cycles 1.19 | |
16 Bytes Stride | 5 cycles 1.98 |
5 cycles 1.98 | |
64 Bytes Stride | 23 cycles 9.10 |
23 cycles 9.10 | |
256 Bytes Stride | 105 cycles 41.55 |
105 cycles 41.55 | |
512 Bytes Stride | 118 cycles 46.70 |
118 cycles 46.70 | |
Memory Algorithm Bandwidth(MB/s) | |||
Compiler | 8013.28 | 7990.45 | |
REP MOVSD | 8620.40 | 8623.25 | |
ALU Reg Copy | 7066.53 | 7014.69 | |
MMX Reg Copy | 8098.63 | 8082.58 | |
MMX Reg 3dNow | - | - | |
MMX Reg SSE | 7288.34 | 7373.09 | |
SSE PAlign | 7121.20 | 7133.16 | |
SSE PAlign SSE | 8001.72 | 7999.09 | |
SSE2 PAlign | 7123.08 | 7140.24 | |
SSE2 PAlign SSE | 7985.25 | 8000.34 | |
MMX Block 4kb | 6499.16 | 6505.21 | |
MMX Block 16kb | 6873.16 | 6907.44 | |
SSE Block 4kb | 6582.42 | 6573.33 | |
SSE Block 16kb | 4681.34 | 6917.23 |
关闭超线程之后,L1和内存性能着微弱的提升,但是L2性能下降比较明显,这表明Nehalem的L2 Cache可以充分满足处理器的需要,你不需要关闭超线程以获得极微弱的L1/内存性能提升。
CineBench R10 | |||
处理器 |
双路Intel Gainestown Xeon E5540 |
双路Intel Gainestown Xeon E5540 无超线程 | |
显卡 | - | - | |
CPU Benchmark | |||
Rendering (1 CPU) | 3640 CB-CPU | 4014 CB-CPU | |
Rendering (x CPU) |
24275 CB-CPU |
23279 CB-CPU | |
Multiprocessor Speedup |
6.67x |
5.80x | |
OpenGL Benchmark | |||
OpenGL Standard |
188 CB-GFX |
205 CB-GFX |
Intel Nehalem-EP/Gainestown Xeon E5540测试成绩对比
没有超线程,单处理器渲染性能上升了10.3%,不过,多处理器渲染性能下降了4.10%。在一般情况下,你仍然没有必要关闭超线程。
IO读
IO写
读吞吐量
写吞吐量
这台Nehalem-EP测试平台的磁盘子系统是一个软阵列,因此性能和处理器子系统和内存子系统相关,关闭超线程会具有一些提升。
with SMT vs withou SMT
关闭超线程成绩略微高一些,总体影响不大。
with SMT vs withou SMT
关闭超线程成绩略微高一些,总体影响不大。
Intel Nehalem-EP/Gainestown Xeon E5540 SPEC CPU 2006整数运算性能:with SMT vs without SMT
关闭超线程之后,Nehalem-EP平台的测试成绩下降了12.4%,非常明显。超线程对大部分测试项目都有着正面的提升作用,除了一个项目:456.hmmer 基因序列搜索(关闭后提升4.05%)、不算太明显,因此可以认为,在整数运算中,超线程可以很明显地提升处理器效能,你最好打开超线程技术。
Intel Nehalem-EP/Gainestown Xeon E5540 SPEC CPU 2006浮点运算性能:with SMT vs without SMT
关闭超线程之后,性能下降了7.3%,大部分测试成绩都下降了,少数项目在关闭超线程之后性能不降反升,这几个项目是:450.soplex 线形编程、优化(关闭后提升9.35%)、459.GemsFDTD 计算电磁学(关闭后提升19.1%)、470.lbm 流体力学(关闭后提升5.77%)、481.wrf 天气预报(关闭后提升43.5%)共4项,481.wrf 天气预报影响非常巨大,进行相关工作的用户在配置Nehalem-EP平台的时候可要好好掂量一下。其他的浮点运算用户一般都不必关闭超线程。
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
P1:连接电源但不开机状态
P2:系统启动完毕,5分钟内无动作,但不休眠
P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作
功耗:Intel Nehalem-EP平台与AMD Shanghai、DELL PE2900 III平台
配置上,Nehalem-EP官方评测样机具有24GB的内存,不过是DDR3,Harpertown Xeon则只有16GB,不过是大发热量的FBD DDR2。Harpertown Xeon平台的硬盘要多一个,并且Nehalem-EP平台是7200RPM的桌面SATA硬盘。此外,Nehalem-EP平台的机架式设计配置了7个暴力散热风扇,总体来看其功耗应该更高一些。上表仅作参考:Nehalem-EP在闲置时功耗要比基准平台低不少,Nehalem的长沟道晶体管、Power Control Unit、Power Gate确实发挥了作用。在满负荷情况下,Nehalem-EP平台也仍然比基准平台更省电??同时性能更高。
参考的AMD Shanghai平台功耗要高一些。
凭借着崭新的直联架构??集成内存控制器和双QPI总线,再配合超线程技术,Nehalem-EP的性能比起其上一代有了一个大的飞跃,同频率下处理器密集型和内存密集型运算的性能提升达到了一倍以上。
Nehalem-EP:Xeon X5570,主频2.93GHz,QPI频率3.2GHz
配合Nehalem-EP使用的Intel Tylersburg-EP芯片
由于处理器指令集架构的缘故,x86处理器非常依赖于缓存/内存性能,使用集成内存控制器之后,Nehalem-EP消除了FSB总线引起的内存瓶颈,通过每处理器三通道DDR3,提供了高带宽、低延迟的子系统,极大地提升了性能。
同样,高带宽的QPI总线也更有利于多处理器协同工作,虽然在双路系统中表现并不明显,不过,可以预先,在4路及4路以上市场以及非常多PCI Express IO设备的情况下,QPI总线可以发挥巨大的作用。
超线程技术也是Nehalem处理器的要点之一,虽然不是所有的应用中都有正面效果,然而总体来看,超线程技术对SPEC CPU 2006的成绩提升为14.2%(整数)和7.87%(浮点),在应用测试当,如SQL数据库性能测试中,超线程的存在让性能提升了67.8%,这是一个巨大的数字。这表明数据库应用可以将Nehalem-EP的超线程技术发挥到极致。
Intel Nehalem-EP官方评测样机,配置了双路Xeon X5570处理器和24GB DDR3内存
比起同频率Hartertown Xeon,Nehalem-EP的性能提升在一倍以上,目前在双路x86服务器领域,Nehalem-EP可以说是毫无敌手。
Nehalem-EP处理器:独孤求败
评测文章导读:
Intel Nehalem-EP首发深度评测(一)
Intel Nehalem-EP首发深度评测(二)
Intel Nehalem-EP首发深度评测(三)
Intel Nehalem-EP首发深度评测(四)
Intel Nehalem-EP首发深度评测(五)
Intel Nehalem-EP首发深度评测(六)
Intel Nehalem-EP首发深度评测(七)