正睿服务器  >  新闻中心  >  评测室
新闻中心

Intel Nehalem-EP处理器首发深度评测(五)

间隙填充
正睿科技  发布时间:2009-04-01 11:17:56  浏览数:7370

  本次Nehalem-EP评测基于一台曙光的服务器,配置的是双路Nehalem-EP Xeon E5540处理器,测试结果并会与我们IT168评测中心的DELL PowerEdge 2900 III服务器进行对比,测试对比平台的详细参数如下: 

测试平台、测试环境
测试分组
类别
Intel Nehalem-EP官方送测样机
华硕RS700-E4服务器
双路Intel Gainestown
Xeon X5570
Dawning A650服务器双路AMD Shanghai Operton 2378 双路Xeon E5430基准平台
DELL PE2900 III服务器
处理器子系统
处理器
双路Intel Xeon X5570
双路AMD Operton 2378
双路Intel Xeon E5430
处理器架构
Intel 45nm Nehalem AMD 45nm Shanghai Intel 45nm Penryn
处理器代号
Gainestown Shanghai Harpertown
处理器封装
Socket 1366 LGA Socket F 1207 Socke 771 LGA
处理器规格
四核 四核 四核
处理器指令集
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
 MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,
AMD-64,AMD-V
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频 2.93GHz  2.40GHz 2.66GHz
处理器外部总线 2xQPI
3200MHz
6.40GT/s
单向12.8GB/s(每QPI)
双向25.6GB/s(每QPI)
 2xHT
1000MHz
2.00GT/s
单向4.0GB/s(每HT)
双向8.0GB/s(每HT)
FSB
333MHz
1333MT/s
10.6GB/s
L1 D-Cache
4x 32KB
8路集合关联
4x 64KB
2路集合关联
4x 32KB
8路集合关联
L1 I-Cache
4x 32KB
4路集合关联
4x 64KB
2路集合关联
4x 32KB
8路集合关联
L2 Cache
4x 256KB
8路集合关联
4x 512KB
16路集合关联
2x 6144KB
16路集合关联
L3 Cache
8MB
16路集合关联
2MB
32路集合关联
 
主板
主板型号
ASUS Z8PS-D12-1U
Tyan S2932-E
DELL PE2900 III
芯片组
Intel Tylersburg-EP
IOH:Intel 5520(Tylersburg-36D)
ICH:Intel 82801JR(ICH10R)
NVIDIA nForce PRO 3600 MCH:Intel 5000X
ICH:Intel ESB6321
芯片特性 2xQPI
VT-d Gen 2
1x HT 2xFSB1333
12MB Snoop Filter
VT-d Gen 1
内存控制器
每CPU集成三通道R-ECC DDR3 1066 每CPU集成双通道R-ECC DDR2 800 北桥集成四通道FBD DDR2 667
内存
4GB R-ECC DDR3 1333 SDRAM x6 2GB R-ECC DDR2 667 SDRAM x4 2GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
磁盘控制器
LSI Embedded MegaRAID SAS RAID Controller
LSI MegaRAID SAS RAID Controller
DELL Perc 5/i RAID Controller
磁盘控制器规格
8xSAS 3Gbps 8xSAS 3Gbps 8xSAS 3Gbps
磁盘控制器设置
RAID 0
RAID 5
RAID 5
磁盘控制器驱动
LSI MegaSR
13.06.0212.2009
LSI SAS
3.8.0.64
LSI SAS
3.8.0.64
磁盘
Fujitsu
MBA3300RC x2
 Fujitsu
MBA3147RC x3
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格
15000RPM
300GB
SAS 3Gbps
16MB Cache
15000RPM
147GB
SAS 3Gbps
16MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置
SAS 3Gbps
50GB系统分区
SAS 3Gbps
30GB系统分区
SAS 3Gbps
20GB系统分区
网络子系统
网卡
Intel 82574 Gigabit Network Controller x2 NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2 Broadcom BCM5708C
PCI-E千兆网卡 x2
网卡设置
PCI Express x1@ICH10R
I/OAT
Intel Teaming
Load Balancing
Forceware Teaming
Load Balancing
PCI Express x1@ESB6321
Broadcom NIC Teaming
Load Balancing
网卡驱动
Intel PRO Set
13.5
NVIDIA NIC/LAN v67.76.1 Broadcom NetXtreme 2
11.04.01
软件环境
操作系统 Microsoft
Windows Server 2008 Enterprise Edition SP1 x64
Microsoft
Windows Server 2003 R2 Enterprise Edition SP2 x64
Microsoft
Windows Server 2008 Enterprise Edition SP1 x64


用来对比的45nm Shanghai Opteron 2378(左)


Nehalem-EP:Xeon X5570,主频2.93GHz,QPI频率3.2GHz


Nehalem-EP/Gainestown Xeon X5570处理器,主频2.93GHz。QPI总线频率3.2GHz,传输速率是6.4GT/s


64KB L1,256KBL2,8MB共享L3


ASUS Z8PS-D12-1U主板,采用Intel 5520 + ICH10R芯片组,也就是Intel Tylersburg芯片组
D12就是具备12个DIMM的意思,1U就是专门为1U机架服务器设计
 
24GB R-ECC DDR3 1333内存,NB Frequency是Nehalem-EP处理器Uncore部分的频率(实际上就是L3的频率),而不是Tylersburg芯片组的频率:这个Xeon X5570的Uncore频率(也就是L3频率)是2.67GHz


每条内存4GB,总共6条DDR3-1333内存

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。

  有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而Opteron可能就只能使用SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。

SiSoftware Sandra Pro Business 2009
测试对象
Intel Nehalem-EP
双路Intel Gainestown
Xeon X5570
2.93GHz
Dawning AS650
双路AMD Shanghai
Operton 2378
2.40GHz
 
DELL PE2900 III
双路Intel Harptown
Xeon E5430
2.66GHz
Processor Arithmetic Benchmark
处理器架构测试
Dhrystone ALU
142977MIPS
63082MIPS 91006MIPS
Dhrystone ALU vs SPEED 48.75MIPS/MHz 26.28MIPS/MHz 34.21MIPS/MHz
Whetstone iSSE3
124035MFLOPS
62993MFLOPS 78385MFLOPS
Dhrystone iSSE3 vs SPEED 42.29MFLOPS/MHz 26.25MFLOPS/MHz 29.47MFLOPS/MHz
Processor Multi-Media Benchmark
处理器多媒体测试
Multi-Media Int x16 iSSE4.1
296.85MPixel/s
   
Multi-Media Int x8 aSSE2
 
187.70MPixel/s  
Multi-Media Int x8 iSSE4.1     199.33MPixel/s
Multi-Media Int x16 iSSE4.1 vs SPEED
101.21kPixels/s/MHz    
Multi-Media Int x8 aSSE2 vs SPEED
  78.21kPixels/s/MHz  
Multi-Media Int x8 iSSE4.1 vs SPEED     74.94kPixels/s/MHz
Multi-Media Float x8 iSSE2
228.24MPixel/s
   
Multi-Media Float x4 iSSE2
 
81.53MPixel/s 108.69MPixel/s
Multi-Media Float x8 iSSE2 vs SPEED
77.82kPixels/s/MHz    
Multi-Media Float x4 iSSE2 vs SPEED
  33.97kPixels/s/MHz 40.86kPixels/s/MHz
Multi-Media Double x4 iSSE2
125.88MPixel/s
   
Multi-Media Double x2 iSSE2
 
44.51MPixel/s 55.75MPixel/s
Multi-Media Double x4 iSSE2 vs SPEED
42.92kPixels/s/MHz    
Multi-Media Double x2 iSSE2 vs SPEED
  18.55kPixels/s/MHz 20.96kPixels/s/MHz
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth
75.61GB/s
6.54GB/s 20.54GB/s
Inter-Core Bandwidth vs SPEED
26.40MB/s/MHz 2.79MB/s/MHz 7.91MB/s/MHz
Inter-Core Latency
(越小越好)
16ns
128ns 90ns
Inter-Core Latency vs SPEED
(越小越好)
0.01ns/MHz 0.05ns/MHz 0.03ns/MHz
.NET Arithmetic Benchmark
.NET架构测试
Dhrystone .NET
32904MIPS
12736MIPS 10562MIPS
Dhrystone .NET vs SPEED
11.22MIPS/MHz 5.31MIPS/MHz 3.97MIPS/MHz
Whetstone .NET
78286MFLOPS
38737MFLOPS 45399MFLOPS
Whetstone .NET vs SPEED
26.69MFLOPS/MHz 15.62MFLOPS/MHz 17.07MFLOPS/MHz
.NET Multi-Media Benchmark
.NET多媒体测试
Multi-Media Int x1 .NET
62.28MPixel/s
24.48MPixel/s 31.28MPixel/s
Multi-Media Int x1 .NET vs SPEED
21.23kPixels/s/MHz 10.20kPixels/s/MHz 11.76kPixels/s/MHz
Multi-Media Float x1 .NET
26.19MPixel/s
5.29MPixel/s 8.68MPixel/s
Multi-Media Float x1 .NET vs SPEED
8.93kPixels/s/MHz 2.20kPixels/s/MHz 3.26kPixels/s/MHz
Multi-Media Double x1 .NET
51.45MPixel/s
21.31MPixel/s 24.75MPixel/s
Multi-Media Double x1 .NET vs SPEED
17.54kPixels/s/MHz 8.88kPixels/s/MHz 9.30kPixels/s/MHz

SiSoftware Sandra对比,用蓝色标出了性能特出的项目

    处理器架构性能测试分为整数和浮点两个部分,在频率更低的情况下,Nehalem-EP处理器的测试成绩全面强于对比的处理器,领先幅度在50%~100%左右。

  在以往,缓存/内存上,AMD的Opteron和Intel的Xeon基本上是采用了两个策略:AMD Opteron采用了直联架构,处理器独立拥有L1/L2,所有核心共享L3,每一个处理器都直接访问RAM和另外的处理器;Intel Xeon则采用了传统的MCH架构,4核心处理器中,独立拥有L1,每两个核心共享一个L2,没有L3,此外所有的处理器通过FSB互通,以及通过FSB再通过MCH访问RAM。相对来说,在处理器大架构上,AMD的无疑更为先进一些。现在,Nehalem-EP也采用了直联架构,因此对比起来,AMD Operton的优势就消失了。

  无论AMD还是Intel,目前的内存架构仍然是读取和写入对称:速度都一样。毫无疑问,虽然不同的应用具有不同的读写比,不过在大多数情况下都应该是读需求远高于写需求的,未来可能会采用特别为读取优化的不对称内存读写架构。

SiSoftware Sandra Pro Business 2009
测试对象
Intel Nehalem-EP
双路Intel Gainestown
Xeon X5570
2.93GHz
Dawning AS650
双路AMD Shanghai
Operton 2378
2.40GHz
DELL PE2900 III
双路Intel Harptown
Xeon E5430
2.66GHz
Memory Bandwidth Benchmark
内存带宽测试
Int Buff‘d iSSE2 Memory Bandwidth
12.74GB/s
16.59GB/s 6.13GB/s
Int Buff‘d iSSE2 Memory Bandwidth vs SPEED
  25.52MB/s/MHz 9.43MB/s/MHz
Float Buff‘d iSSE2 Memory Bandwidth
12.75GB/s
16.58GB/s 6.13GB/s
Float Buff‘d iSSE2 Memory Bandwidth vs SPEED
  25.50MB/s/MHz 9.43MB/s/MHz
Memory Latency Benchmark
内存延迟测试
Memory(Random Access) Latency
(越小越好)
81ns
106ns 108ns
Memory(Random Access) Latency vs SPEED
(越小越好)
  0.16ns/MHz 0.16ns/MHz
Speed Factor
(越小越好)
61.40
83.80 95.20
Internal Data Cache
4clocks
3clocks
3clocks
L2 On-board Cache
10clocks
16clocks 18clocks
L3 On-board Cache
48clocks
58clocks
 
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
143.24GB/s
77.08GB/s 68.88GB/s
Cache/Memory Bandwidth vs SPEED
50.01MB/s/MHz 32.89MB/s/MHz 26.52MB/s/MHz
Speed Factor
(越小越好)
20.90
36.00 111.90
Internal Data Cache 448.46GB/s 299.00GB/s 421.23GB/s
L2 On-board Cache 421.42GB/s 162.91GB/s 122.68GB/s

SiSoftware Sandra对比,用蓝色标出了性能特出的项目

    和上一页类似,采用了直联架构之后,Nehalem-EP的缓存/内存性能大幅度提升,凭着3.2GHz的QPI总线和三通道DDR3-1333,这个成绩在Nehalem-EP当中也是最好的。对比AMD Shanghai,Nehalem-EP居然在内存带宽测试上不及(很奇怪),其余的都是Nehalem-EP平台占优。并且在缓存子系统中,除了L1 Data时钟周期略长之外,L2、L3都比AMD Shanghai要快。

  SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。


Intel Nehalem-EP/Gainestown Xeon E5540 SPEC CPU 2006整数运算性能

  对比频率更高的Harpertown,Nehalem-EP/Gainestown的性能可谓让人大吃一惊:提升超过了100%,Xeon E5540的得分为153,比Xeon E5430的74.8分高104.5%,同时CPU的主频要低4.95%,成绩斐然。在测试当中,403.gcc C编译器(194.6%)、429.mcf 组合优化(257.6%)、462.libquantum 物理:量子计算(298.8%)、471.omnetpp 离散事件仿真(211.3%)、473.astar 寻路算法(139.9%)、483.xalancbmk XML处理(169.9%)这6项的提升都很明显,这些项目都能因直联架构而获益。所有的项目都能从超线程当中获得提升。

  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。


Intel Nehalem-EP/Gainestown Xeon E5540 SPEC CPU 2006浮点运算性能

   浮点运算上的提升比整数上更大,Nehalem-EP/Gainestown的得分为137,比Harpertown的57分高140%,这是IMC、QPI、HTT的集合成果,表明了Nehalem架构的强大优势。在测试当中,410.bwaves 流体力学(390.6%)、433.milc 量子力学(434.8%)、434.zeusmp 物理:计算流体力学(110.5%)、436.cactusADM 物理:广义相对论(122.7%)、437.leslie3d 流体力学(310.9%)、450.soplex 线形编程、优化(279.4%)、459.GemsFDTD 计算电磁学(221.8%)、465.tonto 量子化学(97.0%)、470.lbm 流体力学(278.2%)、481.wrf 天气预报(174.6%)、482.sphinx3 语音识别(333.0%)这11个项目的提升都很大,提升幅度都是几倍几倍的,最高的是433.milc 量子力学(434.8%),Xeon E5540的性能是Xeon E5430的5倍以上。

  评测文章导读:
  Intel Nehalem-EP首发深度评测(一)  
  Intel Nehalem-EP首发深度评测(二)
  Intel Nehalem-EP首发深度评测(三)
  Intel Nehalem-EP首发深度评测(四)
  Intel Nehalem-EP首发深度评测(五)
  Intel Nehalem-EP首发深度评测(六)
  Intel Nehalem-EP首发深度评测(七)
  

  

  • 正睿合作伙伴
  • 社区
首页 | 注册 | 网站地图 | 通告 | 联系我们
CopyRight(C)2004-2022 Chongqing Zhengrui Technology Co.,Ltd. All rights reserved.
重庆正睿科技有限公司(C)版权所有 未经书面授权 不得转载、复制或建立镜像
渝ICP备11002339号-1  渝公网安备 50010702500475号