本次Nehalem-EP评测基于一台曙光的服务器,配置的是双路Nehalem-EP Xeon E5540处理器,测试结果并会与我们IT168评测中心的DELL PowerEdge 2900 III服务器进行对比,测试对比平台的详细参数如下:
测试平台、测试环境 | |||||
测试分组 | |||||
类别 |
Intel Nehalem-EP官方送测样机 华硕RS700-E4服务器 双路Intel Gainestown Xeon X5570 |
Dawning A650服务器双路AMD Shanghai Operton 2378 | 双路Xeon E5430基准平台 DELL PE2900 III服务器 | ||
处理器子系统 | |||||
处理器 |
双路Intel Xeon X5570 |
双路AMD Operton 2378 |
双路Intel Xeon E5430 | ||
处理器架构 |
Intel 45nm Nehalem | AMD 45nm Shanghai | Intel 45nm Penryn | ||
处理器代号 |
Gainestown | Shanghai | Harpertown | ||
处理器封装 |
Socket 1366 LGA | Socket F 1207 | Socke 771 LGA | ||
处理器规格 |
四核 | 四核 | 四核 | ||
处理器指令集 |
MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT |
MMX,3DNow!,SSE,SSE2,SSE3,SSE4A, AMD-64,AMD-V |
MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,EM64T,VT | ||
主频 | 2.93GHz | 2.40GHz | 2.66GHz | ||
处理器外部总线 | 2xQPI 3200MHz 6.40GT/s 单向12.8GB/s(每QPI) 双向25.6GB/s(每QPI) |
2xHT 1000MHz 2.00GT/s 单向4.0GB/s(每HT) 双向8.0GB/s(每HT) |
FSB 333MHz 1333MT/s 10.6GB/s | ||
L1 D-Cache |
4x 32KB 8路集合关联 |
4x 64KB 2路集合关联 |
4x 32KB 8路集合关联 | ||
L1 I-Cache |
4x 32KB 4路集合关联 |
4x 64KB 2路集合关联 |
4x 32KB 8路集合关联 | ||
L2 Cache |
4x 256KB 8路集合关联 |
4x 512KB 16路集合关联 |
2x 6144KB 16路集合关联 | ||
L3 Cache |
8MB 16路集合关联 |
2MB 32路集合关联 |
|||
主板 | |||||
主板型号 |
ASUS Z8PS-D12-1U |
Tyan S2932-E |
DELL PE2900 III | ||
芯片组 |
Intel Tylersburg-EP IOH:Intel 5520(Tylersburg-36D) ICH:Intel 82801JR(ICH10R) |
NVIDIA nForce PRO 3600 | MCH:Intel 5000X ICH:Intel ESB6321 | ||
芯片特性 | 2xQPI VT-d Gen 2 |
1x HT | 2xFSB1333 12MB Snoop Filter VT-d Gen 1 | ||
内存控制器 |
每CPU集成三通道R-ECC DDR3 1066 | 每CPU集成双通道R-ECC DDR2 800 | 北桥集成四通道FBD DDR2 667 | ||
内存 |
4GB R-ECC DDR3 1333 SDRAM x6 | 2GB R-ECC DDR2 667 SDRAM x4 | 2GB FBD DDR2 667 SDRAM x4 | ||
系统磁盘子系统 | |||||
磁盘控制器 |
LSI Embedded MegaRAID SAS RAID Controller |
LSI MegaRAID SAS RAID Controller |
DELL Perc 5/i RAID Controller | ||
磁盘控制器规格 |
8xSAS 3Gbps | 8xSAS 3Gbps | 8xSAS 3Gbps | ||
磁盘控制器设置 |
RAID 0 |
RAID 5 |
RAID 5 | ||
磁盘控制器驱动 |
LSI MegaSR 13.06.0212.2009 |
LSI SAS 3.8.0.64 |
LSI SAS 3.8.0.64 | ||
磁盘 |
Fujitsu MBA3300RC x2 |
Fujitsu MBA3147RC x3 |
Seagate Cheetah 15K.5 ST314655SS x3 | ||
磁盘规格 |
15000RPM 300GB SAS 3Gbps 16MB Cache |
15000RPM 147GB SAS 3Gbps 16MB Cache |
15000RPM 146GB SAS 3Gbps 16MB Cache | ||
磁盘设置 |
SAS 3Gbps 50GB系统分区 |
SAS 3Gbps 30GB系统分区 |
SAS 3Gbps 20GB系统分区 | ||
网络子系统 | |||||
网卡 |
Intel 82574 Gigabit Network Controller x2 | NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2 | Broadcom BCM5708C PCI-E千兆网卡 x2 | ||
网卡设置 |
PCI Express x1@ICH10R I/OAT Intel Teaming Load Balancing |
Forceware Teaming Load Balancing |
PCI Express x1@ESB6321 Broadcom NIC Teaming Load Balancing | ||
网卡驱动 |
Intel PRO Set 13.5 |
NVIDIA NIC/LAN v67.76.1 | Broadcom NetXtreme 2 11.04.01 | ||
软件环境 | |||||
操作系统 | Microsoft Windows Server 2008 Enterprise Edition SP1 x64 |
Microsoft Windows Server 2003 R2 Enterprise Edition SP2 x64 |
Microsoft Windows Server 2008 Enterprise Edition SP1 x64 |
用来对比的45nm Shanghai Opteron 2378(左)
Nehalem-EP:Xeon X5570,主频2.93GHz,QPI频率3.2GHz
Nehalem-EP/Gainestown Xeon X5570处理器,主频2.93GHz。QPI总线频率3.2GHz,传输速率是6.4GT/s
64KB L1,256KBL2,8MB共享L3
ASUS Z8PS-D12-1U主板,采用Intel 5520 + ICH10R芯片组,也就是Intel Tylersburg芯片组
D12就是具备12个DIMM的意思,1U就是专门为1U机架服务器设计
24GB R-ECC DDR3 1333内存,NB Frequency是Nehalem-EP处理器Uncore部分的频率(实际上就是L3的频率),而不是Tylersburg芯片组的频率:这个Xeon X5570的Uncore频率(也就是L3频率)是2.67GHz
每条内存4GB,总共6条DDR3-1333内存
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而Opteron可能就只能使用SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。
SiSoftware Sandra Pro Business 2009 | |||
测试对象 |
Intel Nehalem-EP 双路Intel Gainestown Xeon X5570 2.93GHz |
Dawning AS650 双路AMD Shanghai Operton 2378 2.40GHz |
DELL PE2900 III 双路Intel Harptown Xeon E5430 2.66GHz |
Processor Arithmetic Benchmark 处理器架构测试 | |||
Dhrystone ALU |
142977MIPS |
63082MIPS | 91006MIPS |
Dhrystone ALU vs SPEED | 48.75MIPS/MHz | 26.28MIPS/MHz | 34.21MIPS/MHz |
Whetstone iSSE3 |
124035MFLOPS |
62993MFLOPS | 78385MFLOPS |
Dhrystone iSSE3 vs SPEED | 42.29MFLOPS/MHz | 26.25MFLOPS/MHz | 29.47MFLOPS/MHz |
Processor Multi-Media Benchmark 处理器多媒体测试 | |||
Multi-Media Int x16 iSSE4.1 |
296.85MPixel/s |
||
Multi-Media Int x8 aSSE2 |
|
187.70MPixel/s | |
Multi-Media Int x8 iSSE4.1 | 199.33MPixel/s | ||
Multi-Media Int x16 iSSE4.1 vs SPEED |
101.21kPixels/s/MHz | ||
Multi-Media Int x8 aSSE2 vs SPEED |
78.21kPixels/s/MHz | ||
Multi-Media Int x8 iSSE4.1 vs SPEED | 74.94kPixels/s/MHz | ||
Multi-Media Float x8 iSSE2 |
228.24MPixel/s |
||
Multi-Media Float x4 iSSE2 |
|
81.53MPixel/s | 108.69MPixel/s |
Multi-Media Float x8 iSSE2 vs SPEED |
77.82kPixels/s/MHz | ||
Multi-Media Float x4 iSSE2 vs SPEED |
33.97kPixels/s/MHz | 40.86kPixels/s/MHz | |
Multi-Media Double x4 iSSE2 |
125.88MPixel/s |
||
Multi-Media Double x2 iSSE2 |
|
44.51MPixel/s | 55.75MPixel/s |
Multi-Media Double x4 iSSE2 vs SPEED |
42.92kPixels/s/MHz | ||
Multi-Media Double x2 iSSE2 vs SPEED |
18.55kPixels/s/MHz | 20.96kPixels/s/MHz | |
Multi-Core Efficiency Benchmark | |||
Inter-Core Bandwidth |
75.61GB/s |
6.54GB/s | 20.54GB/s |
Inter-Core Bandwidth vs SPEED |
26.40MB/s/MHz | 2.79MB/s/MHz | 7.91MB/s/MHz |
Inter-Core Latency (越小越好) |
16ns |
128ns | 90ns |
Inter-Core Latency vs SPEED (越小越好) |
0.01ns/MHz | 0.05ns/MHz | 0.03ns/MHz |
.NET Arithmetic Benchmark .NET架构测试 | |||
Dhrystone .NET |
32904MIPS |
12736MIPS | 10562MIPS |
Dhrystone .NET vs SPEED |
11.22MIPS/MHz | 5.31MIPS/MHz | 3.97MIPS/MHz |
Whetstone .NET |
78286MFLOPS |
38737MFLOPS | 45399MFLOPS |
Whetstone .NET vs SPEED |
26.69MFLOPS/MHz | 15.62MFLOPS/MHz | 17.07MFLOPS/MHz |
.NET Multi-Media Benchmark .NET多媒体测试 | |||
Multi-Media Int x1 .NET |
62.28MPixel/s |
24.48MPixel/s | 31.28MPixel/s |
Multi-Media Int x1 .NET vs SPEED |
21.23kPixels/s/MHz | 10.20kPixels/s/MHz | 11.76kPixels/s/MHz |
Multi-Media Float x1 .NET |
26.19MPixel/s |
5.29MPixel/s | 8.68MPixel/s |
Multi-Media Float x1 .NET vs SPEED |
8.93kPixels/s/MHz | 2.20kPixels/s/MHz | 3.26kPixels/s/MHz |
Multi-Media Double x1 .NET |
51.45MPixel/s |
21.31MPixel/s | 24.75MPixel/s |
Multi-Media Double x1 .NET vs SPEED |
17.54kPixels/s/MHz | 8.88kPixels/s/MHz | 9.30kPixels/s/MHz |
SiSoftware Sandra对比,用蓝色标出了性能特出的项目
处理器架构性能测试分为整数和浮点两个部分,在频率更低的情况下,Nehalem-EP处理器的测试成绩全面强于对比的处理器,领先幅度在50%~100%左右。
在以往,缓存/内存上,AMD的Opteron和Intel的Xeon基本上是采用了两个策略:AMD Opteron采用了直联架构,处理器独立拥有L1/L2,所有核心共享L3,每一个处理器都直接访问RAM和另外的处理器;Intel Xeon则采用了传统的MCH架构,4核心处理器中,独立拥有L1,每两个核心共享一个L2,没有L3,此外所有的处理器通过FSB互通,以及通过FSB再通过MCH访问RAM。相对来说,在处理器大架构上,AMD的无疑更为先进一些。现在,Nehalem-EP也采用了直联架构,因此对比起来,AMD Operton的优势就消失了。
无论AMD还是Intel,目前的内存架构仍然是读取和写入对称:速度都一样。毫无疑问,虽然不同的应用具有不同的读写比,不过在大多数情况下都应该是读需求远高于写需求的,未来可能会采用特别为读取优化的不对称内存读写架构。
SiSoftware Sandra Pro Business 2009 | |||
测试对象 |
Intel Nehalem-EP 双路Intel Gainestown Xeon X5570 2.93GHz |
Dawning AS650 双路AMD Shanghai Operton 2378 2.40GHz |
DELL PE2900 III 双路Intel Harptown Xeon E5430 2.66GHz |
Memory Bandwidth Benchmark 内存带宽测试 | |||
Int Buff‘d iSSE2 Memory Bandwidth |
12.74GB/s |
16.59GB/s | 6.13GB/s |
Int Buff‘d iSSE2 Memory Bandwidth vs SPEED |
25.52MB/s/MHz | 9.43MB/s/MHz | |
Float Buff‘d iSSE2 Memory Bandwidth |
12.75GB/s |
16.58GB/s | 6.13GB/s |
Float Buff‘d iSSE2 Memory Bandwidth vs SPEED |
25.50MB/s/MHz | 9.43MB/s/MHz | |
Memory Latency Benchmark 内存延迟测试 | |||
Memory(Random Access) Latency (越小越好) |
81ns |
106ns | 108ns |
Memory(Random Access) Latency vs SPEED (越小越好) |
0.16ns/MHz | 0.16ns/MHz | |
Speed Factor (越小越好) |
61.40 |
83.80 | 95.20 |
Internal Data Cache |
4clocks |
3clocks |
3clocks |
L2 On-board Cache |
10clocks |
16clocks | 18clocks |
L3 On-board Cache |
48clocks |
58clocks |
|
Cache and Memory Benchmark 缓存及内存测试 | |||
Cache/Memory Bandwidth |
143.24GB/s |
77.08GB/s | 68.88GB/s |
Cache/Memory Bandwidth vs SPEED |
50.01MB/s/MHz | 32.89MB/s/MHz | 26.52MB/s/MHz |
Speed Factor (越小越好) |
20.90 |
36.00 | 111.90 |
Internal Data Cache | 448.46GB/s | 299.00GB/s | 421.23GB/s |
L2 On-board Cache | 421.42GB/s | 162.91GB/s | 122.68GB/s |
SiSoftware Sandra对比,用蓝色标出了性能特出的项目
和上一页类似,采用了直联架构之后,Nehalem-EP的缓存/内存性能大幅度提升,凭着3.2GHz的QPI总线和三通道DDR3-1333,这个成绩在Nehalem-EP当中也是最好的。对比AMD Shanghai,Nehalem-EP居然在内存带宽测试上不及(很奇怪),其余的都是Nehalem-EP平台占优。并且在缓存子系统中,除了L1 Data时钟周期略长之外,L2、L3都比AMD Shanghai要快。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
Intel Nehalem-EP/Gainestown Xeon E5540 SPEC CPU 2006整数运算性能
对比频率更高的Harpertown,Nehalem-EP/Gainestown的性能可谓让人大吃一惊:提升超过了100%,Xeon E5540的得分为153,比Xeon E5430的74.8分高104.5%,同时CPU的主频要低4.95%,成绩斐然。在测试当中,403.gcc C编译器(194.6%)、429.mcf 组合优化(257.6%)、462.libquantum 物理:量子计算(298.8%)、471.omnetpp 离散事件仿真(211.3%)、473.astar 寻路算法(139.9%)、483.xalancbmk XML处理(169.9%)这6项的提升都很明显,这些项目都能因直联架构而获益。所有的项目都能从超线程当中获得提升。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
Intel Nehalem-EP/Gainestown Xeon E5540 SPEC CPU 2006浮点运算性能
浮点运算上的提升比整数上更大,Nehalem-EP/Gainestown的得分为137,比Harpertown的57分高140%,这是IMC、QPI、HTT的集合成果,表明了Nehalem架构的强大优势。在测试当中,410.bwaves 流体力学(390.6%)、433.milc 量子力学(434.8%)、434.zeusmp 物理:计算流体力学(110.5%)、436.cactusADM 物理:广义相对论(122.7%)、437.leslie3d 流体力学(310.9%)、450.soplex 线形编程、优化(279.4%)、459.GemsFDTD 计算电磁学(221.8%)、465.tonto 量子化学(97.0%)、470.lbm 流体力学(278.2%)、481.wrf 天气预报(174.6%)、482.sphinx3 语音识别(333.0%)这11个项目的提升都很大,提升幅度都是几倍几倍的,最高的是433.milc 量子力学(434.8%),Xeon E5540的性能是Xeon E5430的5倍以上。
评测文章导读:
Intel Nehalem-EP首发深度评测(一)
Intel Nehalem-EP首发深度评测(二)
Intel Nehalem-EP首发深度评测(三)
Intel Nehalem-EP首发深度评测(四)
Intel Nehalem-EP首发深度评测(五)
Intel Nehalem-EP首发深度评测(六)
Intel Nehalem-EP首发深度评测(七)