正睿服务器  >  新闻中心  >  评测室
新闻中心

Intel Nehalem-EP处理器首发深度评测(六)

间隙填充
正睿科技  发布时间:2009-04-01 11:24:59  浏览数:6172

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。


ScienceMark v2.0 Membench L1测试成绩


ScienceMark v2.0 Membench L2测试成绩


ScienceMark v2.0 Membench 内存测试成绩

  首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是??当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。

 

ScienceMark Membench
厂商 Intel Intel Intel
产品型号 Nehalem-EP
Intel Gainestown
Xeon X5570 2.93GHz
AS650
AMD Shanghai
Operton 2378 2.40GHz
PowerEdge 2900 III
Intel Harpertown
Xeon E5430 2.66GHz
内存技术参数 4GB R-ECC DDR3-1333 SDRAM x6 4GB R-ECC DDR3-1333 SDRAM x6 4GB R-ECC DDR3-1333 SDRAM x6
L1带宽(MB/s) 47880.48 48167.88 55376.16
L2带宽(MB/s) 19604.64 14314.34 16757.55
内存带宽(MB/s) 10116.61 6672.76 4485.09
L1 Cache Latency(ns)
32 Bytes Stride 2 cycles
0.68 ns
1.25 ns 1.13 ns
L1 Algorithm Bandwidth(MB/s)
Compiler 43072.25 34042.63 25201.96
REP MOVSD 43467.25 34864.10 25467.15
ALU Reg Copy 11949.09 12166.94 13093.65
MMX Reg Copy 22537.36 25698.47 25242.19
SSE PAlign 47773.13 48167.40 52826.21
SSE2 PAlign 47880.48 48167.88 55376.16
L2 Cache Latency(ns)
4 Bytes Stride 3 cycles
1.02 ns
1.25 ns 1.13 ns
16 Bytes Stride 3 cycles
1.02 ns
1.25 ns 1.50 ns
64 Bytes Stride 8 cycles
2.73 ns
3.75 ns 4.51 ns
256 Bytes Stride 8 cycles
2.73 ns
6.25 ns 4.51 ns
512 Bytes Stride 7 cycles
2.39 ns
6.25 ns 4.89 ns
L2 Algorithm Bandwidth(MB/s)
Compiler 18039.64 11609.57 11880.48
REP MOVSD 19604.64 12140.00 12536.88
ALU Reg Copy 8788.90 9273.71 8577.86
MMX Reg Copy 14083.83 12042.45 13408.31
SSE PAlign 18731.92 14314.34 16719.97
SSE2 PAlign 5833.93 14289.88 16757.55
Memory Latency(ns)
4 Bytes Stride 3 cycles
1.02 ns
1.67 ns 1.13 ns
16 Bytes Stride 5 cycles
1.70 ns
5.00 ns 4.89 ns
64 Bytes Stride 22 cycles
7.50 ns
20.00 ns 19.17 ns
256 Bytes Stride 102 cycles
34.77 ns
34.58 ns 59.77 ns
512 Bytes Stride 117 cycles
39.88 ns
81.24 ns 68.04 ns
Memory Algorithm Bandwidth(MB/s)
Compiler 9210.17 2872.77 3178.45
REP MOVSD 10116.61 2887.02 3220.23
ALU Reg Copy 8156.00 2654.29 2789.34
MMX Reg Copy 9306.18 2943.85 2972.91
MMX Reg 3dNow - 6631.75 -
MMX Reg SSE 8781.26 6672.76 3978.53
SSE PAlign 8580.24 5765.46 4128.59
SSE PAlign SSE 9524.07 6611.10 4390.48
SSE2 PAlign 8560.83 5766.87 4326.42
SSE2 PAlign SSE 9555.13 6612.42 4441.71
MMX Block 4kb 7743.82 4450.46 4063.30
MMX Block 16kb 8321.35 4677.49 4479.88
SSE Block 4kb 7890.10 4441.71 4074.79
SSE Block 16kb 8355.86 4681.34 4485.09

  基本上,与处理器结合最紧密的L1,或L2(在有L3的情况下)的延迟总是跟处理器频率密集相关的,从总体测试结果来看,Nehalem-EP Xeon X5570全面强于基准平台,不过有两项数值很奇怪:SSE2 PAlign的L1测试和L2测试,这个数值明显不正常。

  CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。


Nehalem-EP/Gainestown Xeon X5570测试成绩

CineBench R10
处理器
双路Intel Gainestown
Xeon X5570
双路AMD Shanghai
Operton 2378
双路Intel Harpertown
Xeon E5430
显卡 - - -
CPU Benchmark
Rendering (1 CPU) 4410 CB-CPU 1797 CB-CPU 2931 CB-CPU
Rendering (x CPU)
28172 CB-CPU
10734 CB-CPU
16806 CB-CPU
Multiprocessor Speedup
6.39x
5.97x
5.73x
OpenGL Benchmark
OpenGL Standard
224 CB-GFX
98 CB-GFX
176 CB-GFX

Intel Nehalem-EP/Gainestown Xeon X5570测试成绩对比

   单处理器的渲染性能,Xeon X5570要比Xeon E5430要高50.5%,频率上要高10.2%,架构提升很明显。

  在多处理器的渲染测试中,X5570性能要高67.6%,多处理器加速比为6.39x。

  Iometer 2006.07.27

  我们的基准服务器采用了三块15000RPM的Seagate Cheetah 15K.5硬盘。Nehalem-EP测试样机则是用两块7200RPM Seagate Barracuda 7200.11。基准平台使用了LSI MegaRAID SAS 8408E硬件阵列卡组建了RAID 5阵列,而测试样机使用了一块集成的LSI MegaRAID SAS阵列卡。显而易见,Nehalem-EP测试样机的磁盘子系统比较糟糕。


IO读


IO写


读吞吐量


写吞吐量

  由于是软阵列,阵列缓存由驱动在主内存中维护,因此512B连续读取IOps和连续吞吐量都很不错,当然……实际应用是另一回事。

  NetBench v7.03

  NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。

 
NetBench性能测试

  由于是SATA软阵列??它们的曲线都表现出类似于正态分布一样:在某处具有一个波峰,两侧则逐渐下滑。Nehalem-EP测试样机的峰值吞吐量在20台测试客户机时达到,为850Mbps,此后随着客户端的增加,滑落到400Mbps附近。基准平台属于硬件阵列,Shanghai平台属于SAS Host-RAID半软半硬阵列。关于NetBench性能与处理器、内存、磁盘的关系可以看这里《评测机密:文件服务器性能提升N大要义

  Benchmark Factory 4.6

  我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。

  由于时间紧迫,在测试X5570的同时,我们也对另一台E5540 Nehalem-EP进行了数据库测试

 
SQL2005数据库性能测试

  数据库测试是一个综合性的测试,在较少客户端的时候,其性能依赖于处理器以及内存系统,在较多客户端的时候,则开始依赖于磁盘子系统。在这个测试里面,Nehalem-EP的三个优势都得以完全发挥,最终成绩非常惊人:在频率更低的情况下,平均TPS(每秒交易数)要高114%(90557.2对40397.217),提升超过了一倍以上。峰值TPS是96264.5。Nehalem真是理想的数据库平台。

  为了体现出超线程对系统性能的影响,我们特地在另一台Nehalem-EP平台上作了打开/关闭超线程的测试。

SiSoftware Sandra Pro Business 2009
测试对象
Nehalem-EP
双路Intel Gainestown
Xeon E5540
2.53GHz
Dawning Nehalem-EP
双路Intel Gainestown
Xeon E5540
2.53GHz
无超线程
Processor Arithmetic Benchmark
处理器架构测试
Dhrystone ALU
129014MIPS
130767MIPS
Dhrystone ALU vs SPEED 51.05MIPS/MHz 51.75MIPS/MHz
Whetstone iSSE3
111000MFLOPS
68158MFLOPS
Dhrystone iSSE3 vs SPEED 43.93MFLOPS/MHz 26.97MFLOPS/MHz
Processor Multi-Media Benchmark
处理器多媒体测试
Multi-Media Int x16 iSSE4.1
269.08MPixel/s
228.02MPixel/s
Multi-Media Int x16 iSSE4.1 vs SPEED
106.48kPixels/s/MHz 90.23kPixels/s/MHz
Multi-Media Float x8 iSSE2
206.19MPixel/s
172.03MPixel/s
Multi-Media Float x8 iSSE2 vs SPEED
81.60kPixels/s/MHz 68.08kPixels/s/MHz
Multi-Media Double x4 iSSE2
113.93MPixel/s
89.72MPixel/s
Multi-Media Double x4 iSSE2 vs SPEED
45.09kPixels/s/MHz 35.50kPixels/s/MHz
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth
63.30GB/s
25.88GB/s
Inter-Core Bandwidth vs SPEED
25.65MB/s/MHz 10.49MB/s/MHz
Inter-Core Latency
(越小越好)
22ns
58ns
Inter-Core Latency? vs SPEED
(越小越好)
0.01ns/MHz 0.02ns/MHz
Memory Bandwidth Benchmark
内存带宽测试
Int Buff‘d iSSE2 Memory Bandwidth
9.02GB/s
32.59GB/s
Float Buff‘d iSSE2 Memory Bandwidth
8.90GB/s
32.56GB/s
Memory Latency Benchmark
内存延迟测试
Memory(Random Access) Latency
(越小越好)
96ns
92ns
Speed Factor
(越小越好)
59.40
57.90
Internal Data Cache
4clocks
4clocks
L2 On-board Cache
10clocks
10clocks
L3 On-board Cache
52clocks
51clocks
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
122.06GB/s
120.64GB/s
Cache/Memory Bandwidth vs SPEED
49.46MB/s/MHz 48.89MB/s/MHz
Speed Factor
(越小越好)
22.80
23.10
Internal Data Cache 398.74GB/s 401.21GB/s
L2 On-board Cache 368.03GB/s 362.61GB/s
.NET Arithmetic Benchmark
.NET架构测试
Dhrystone .NET
29299MIPS
28774MIPS
Dhrystone .NET vs SPEED
11.59MIPS/MHz 11.39MIPS/MHz
Whetstone .NET
69736MFLOPS
44516MFLOPS
Whetstone .NET vs SPEED
27.60MFLOPS/MHz 17.62MFLOPS/MHz
.NET Multi-Media Benchmark
.NET多媒体测试
Multi-Media Int x1 .NET
53.25MPixel/s
46.38MPixel/s
Multi-Media Int x1 .NET vs SPEED
21.07kPixels/s/MHz 18.35kPixels/s/MHz
Multi-Media Float x1 .NET
23.09MPixel/s
13.30MPixel/s
Multi-Media Float x1 .NET vs SPEED
9.14kPixels/s/MHz 5.26kPixels/s/MHz
Multi-Media Double x1 .NET
45.02MPixel/s
24.73MPixel/s
Multi-Media Double x1 .NET vs SPEED
17.81kPixels/s/MHz 9.79kPixels/s/MHz

SiSoftware Sandra对比,用蓝色标出了性能特出的项目

  只有极少数的项目中,关闭超线程获得了更好的测试成绩。Nehalem-EP的超线程比起Pentium 4时代有了不少的改进,你不应该将其关闭。

  评测文章导读:
  Intel Nehalem-EP首发深度评测(一)  
  Intel Nehalem-EP首发深度评测(二)
  Intel Nehalem-EP首发深度评测(三)
  Intel Nehalem-EP首发深度评测(四)
  Intel Nehalem-EP首发深度评测(五)
  Intel Nehalem-EP首发深度评测(六)
  Intel Nehalem-EP首发深度评测(七)
  

    

  • 正睿合作伙伴
  • 社区
首页 | 注册 | 网站地图 | 通告 | 联系我们
CopyRight(C)2004-2022 Chongqing Zhengrui Technology Co.,Ltd. All rights reserved.
重庆正睿科技有限公司(C)版权所有 未经书面授权 不得转载、复制或建立镜像
渝ICP备11002339号-1  渝公网安备 50010702500475号