正睿服务器  >  新闻中心  >  评测室
新闻中心

性能大幅提升 Core i7 服务器应用测试

间隙填充
正睿科技  发布时间:2008-10-28 09:09:07  浏览数:6432
从上一年中开始,Intel就陆续放出酷睿处理器的下一代架构Nehalem的相关消息,45nm Penryn处理器的功耗以及性能已经让我们非常满意了,作为Penryn的下一代,Nehalem让人期待不已。现在到了2008年十月,新架构Nehalem的处理器事物终于来到了我们的面前,同期到来的还有搭配的桌面级别主板两块(一块Intel X58SO,一块ASUS P6T Deluxe)。和以往Intel处理器架构总是先亮相于服务器或是移动平台不同,今次Nehalem架构的全新产品首先出现在了桌面平台上,对应于Core 2 Duo或是Core 2 Quad,Intel将这个全新的产品系列命名为Core i7。


Nehalem - Core i7 Extreme的黑色LOGO

采用LGA1366封装的Core i7(左)与LGA775封装的Core 2(右)相比大上了不少

Nehalem桌面测试平台

  预计Nehalem??Core i7将于11月正式发布,而服务器版本仍然还有一段时日,Nehalem作为桌面级别产品的性能我们已经可以从这篇《再攀性能之巅 Intel全新酷睿i7深度评测》看到了,然而服务器方面的性能呢?我们IT168评测中心已经等不及了。

我们自行购买的Nehalem也是一个工程样板

CPU-Z 1.48可以正常识别出关于CPU的详细信息

  全球首批三款Nehalem架构处理器型号分别为Core i7 965 Extreme、Core i7 940及Core i7 920,我们拿到的这颗Core i7处理器型号为Core i7 940,是目前发布的三款Core i7产品中定位居中的一款,和顶级的Core i7 965 Extreme相比,它只是QPI规格稍低、倍频向上锁定以及缺少Turbo Mode功能。

由于加入了更多核心外的复杂设计,因此Core i7的背面也更加复杂

Core i7 940的缓存信息

  Core i7 965 Extreme、940及920处理器,核心代号Bloomfield,均采用原生四核心设计,基于45nm工艺生产,拥有7.31亿个晶体管,每个核心拥有256KB的独立二级缓存,四个核心共享8M容量的三级缓存,TDP为130W。由于缓存总容量较之Penryn四核还有所下降,所以其晶体管数量实际上还略低于Penryn四核心。但由于三级缓存及内存控制器等复杂设计的加入,Intel为Bloomfield设计了一个LGA 1366接口,这也直接使得最终产品看上去比起LGA 775接口的产品大了不少,处理器基板上的金属触点是为了Debug而设计。

测试平台、测试环境
测试分组
类别
Core i7 Extreme 940平台 双路Xeon E5450平台
DELL PE2900 III服务器
处理器子系统
处理器
Intel Core i7 Extreme 940
双路Intel Xeon E5450
处理器代号
Bloomfield Harpertown
处理器封装
Socket 1366 LGA Socke 771 LGA
处理器规格
四核超线程
内置内存控制器
四核
处理器指令集
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频 2.93GHz 3.00GHz
处理器外部总线 QPI Link:3200MHz FSB:1333MHz
L1 D-Cache
4x 32KB
8路集合关联
4x 32KB
8路集合关联
L1 I-Cache
4x 32KB
4路集合关联
4x 32KB
8路集合关联
L2 Cache
4x 256KB
8路集合关联
12MB
16路集合关联
L3 Cache
8MB
16路集合关联
 
主板
主板型号
ASUS P6T Deluxe
DELL PE2900 III
北桥芯片组(MCH)
Intel X58 Intel 5000X
北桥芯片特性 Intel VT-d技术 12MB Snoop Filter
内存控制器
处理器内置三通道DDR3 北桥集成四通道FBD DDR2
内存
1GB DDR3 1066 SDRAM x6 2GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
磁盘控制器
Intel ICH10R RAID Controller
DELL Perc 5/i RAID Controller
磁盘控制器规格
SATA 3Gbps SAS 3Gbps
磁盘控制器设置
RAID 0
RAID 5
磁盘控制器驱动
Intel Matrix Storage Manager
8.5.0.10032
LSI SAS
2.20.0.64
磁盘
Seagate
SV35.3
ST31000340SV x2
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格
7200RPM
1TB
SATA 3Gbps
32MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置
SATA 3Gbps
50GB系统分区
SAS 3Gbps
20GB系统分区
网络子系统
网卡
Marvell Yukon 88E8056
PCI-E千兆网卡 x2
Broadcom BCM5708C
 PCI-E千兆网卡 x2
网卡设置
Marvell NIC Teaming
Load Balancing
Broadcom NIC Teaming
Load Balancing
网卡驱动
Marvell Yukon for Win64
10.55.3.3
Broadcom NetXtreme 2 for Win64
11.04.01
软件环境
操作系统
Microsoft
Windows Server 2008
Enterprise x64 Edition SP1
Microsoft
Windows Server 2003 R2
Enterprise x64 Edition SP2

  我们使用了一套基于X58芯片组的主板搭配了测试平台,这块主板是ASUS P6T Deluxe,关于它的解析将会稍后推出。主要对比平台是一台安装了Windows Server 2003 R2 x64操作系统的DELL PowerEdge 2900 III服务器,包含了多款Xeon处理器的对比测试。DELL PowerEdge 2900 III服务器采用的主板基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升重负荷下缓存同步、进程调度方面的性能。5000X芯片组比较少见。前段时间推出的5400 Seburg芯片组带有24MB的Snoop Filter缓存。


我们使用的主板:ASUS P6T Deluxe


使用了6条DDR3-1066内存

Intel Xeon E54xx Harpertown处理器:

45nm Harpertown处理器

  45nm Xeon E5450的频率为3.00GHz,和我们的Core i7 Extreme 940的频率很接近。Core i7 Extreme 940的频率是2.93GHz。

测试平台、测试环境
测试分组
类别
Core i7 Extreme 940平台 双路Xeon E5450平台
DELL PE2900 III服务器
处理器子系统
处理器
Intel Core i7 Extreme 940
双路Intel Xeon E5450
处理器代号
Bloomfield Harpertown
处理器封装
Socket 1366 LGA Socke 771 LGA
处理器规格
四核超线程
内置内存控制器
四核
处理器指令集
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频 2.93GHz 3.00GHz
处理器外部总线 QPI Link:3200MHz FSB:1333MHz
L1 D-Cache
4x 32KB
8路集合关联
4x 32KB
8路集合关联
L1 I-Cache
4x 32KB
4路集合关联
4x 32KB
8路集合关联
L2 Cache
4x 256KB
8路集合关联
12MB
16路集合关联
L3 Cache
8MB
16路集合关联
 
主板
主板型号
ASUS P6T Deluxe
DELL PE2900 III
北桥芯片组(MCH)
Intel X58 Intel 5000X
北桥芯片特性 Intel VT-d技术 12MB Snoop Filter
内存控制器
处理器内置三通道DDR3 北桥集成四通道FBD DDR2
内存
1GB DDR3 1066 SDRAM x6 2GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
磁盘控制器
Intel ICH10R RAID Controller
DELL Perc 5/i RAID Controller
磁盘控制器规格
SATA 3Gbps SAS 3Gbps
磁盘控制器设置
RAID 0
RAID 5
磁盘控制器驱动
Intel Matrix Storage Manager
8.5.0.10032
LSI SAS
2.20.0.64
磁盘
Seagate
SV35.3
ST31000340SV x2
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格
7200RPM
1TB
SATA 3Gbps
32MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置
SATA 3Gbps
50GB系统分区
SAS 3Gbps
20GB系统分区
网络子系统
网卡
Marvell Yukon 88E8056
PCI-E千兆网卡 x2
Broadcom BCM5708C
 PCI-E千兆网卡 x2
网卡设置
Marvell NIC Teaming
Load Balancing
Broadcom NIC Teaming
Load Balancing
网卡驱动
Marvell Yukon for Win64
10.55.3.3
Broadcom NetXtreme 2 for Win64
11.04.01
软件环境
操作系统
Microsoft
Windows Server 2008
Enterprise x64 Edition SP1
Microsoft
Windows Server 2003 R2
Enterprise x64 Edition SP2

  我们使用了一套基于X58芯片组的主板搭配了测试平台,这块主板是ASUS P6T Deluxe,关于它的解析将会稍后推出。主要对比平台是一台安装了Windows Server 2003 R2 x64操作系统的DELL PowerEdge 2900 III服务器,包含了多款Xeon处理器的对比测试。DELL PowerEdge 2900 III服务器采用的主板基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升重负荷下缓存同步、进程调度方面的性能。5000X芯片组比较少见。前段时间推出的5400 Seburg芯片组带有24MB的Snoop Filter缓存。


我们使用的主板:ASUS P6T Deluxe


使用了6条DDR3-1066内存

Intel Xeon E54xx Harpertown处理器:

45nm Harpertown处理器

  45nm Xeon E5450的频率为3.00GHz,和我们的Core i7 Extreme 940的频率很接近。Core i7 Extreme 940的频率是2.93GHz。

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。


ScienceMark v2.0 Membench L1测试成绩


ScienceMark v2.0 Membench L2测试成绩


ScienceMark v2.0 Membench 内存测试成绩

  首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是??当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。

ScienceMark Membench

产品型号 单路Core i7 Extreme 940 双路E5450
内存技术参数 1GB DDR3-1066 SDRAM x6 2GB FBD ECC DDR2-667 SDRAM x4
L1带宽(MB/s) 47986.27 55707.30
L2带宽(MB/s) 19708.26 16740.23
内存带宽(MB/s) 13491.82 4505.59
L1 Cache Latency(ns)
32 Bytes Stride 1.02 1.00
L1 Algorithm Bandwidth(MB/s)
Compiler 42946.57  
REP MOVSD 43613.84  
ALU Reg Copy 12113.23  
MMX Reg Copy 23883.50  
SSE PAlign 47242.50  
SSE2 PAlign 47986.27  
L2 Cache Latency(ns)
4 Bytes Stride 1.02 1.00
16 Bytes Stride 1.02 1.34
64 Bytes Stride 3.06 4.01
256 Bytes Stride 3.06 4.01
512 Bytes Stride 2.72 4.34
L2 Algorithm Bandwidth(MB/s)
Compiler 18218.37  
REP MOVSD 19708.26  
ALU Reg Copy 8797.54  
MMX Reg Copy 14108.99  
SSE PAlign 18752.85  
SSE2 PAlign 18763.34  
Memory Latency(ns)
4 Bytes Stride 1.36 1.00
16 Bytes Stride 1.70 4.68
64 Bytes Stride 6.12 19.38
256 Bytes Stride 36.65 59.48
512 Bytes Stride 43.54 66.16
Memory Algorithm Bandwidth(MB/s)
Compiler 10216.66 3177.97
REP MOVSD 13421.20 3223.82
ALU Reg Copy 9015.34 2818.10
MMX Reg Copy 9570.62 2992.21
MMX Reg 3dNow --- ---
MMX Reg SSE 12729.13 3962.02
SSE PAlign 13379.86 4297.17
SSE PAlign SSE 13311.12 4124.61
SSE2 PAlign 13491.82 4293.79
SSE2 PAlign SSE 13236.43 4126.98
MMX Block 4kb 11442.95 4167.14
MMX Block 16kb 12754.30 4480.38
SSE Block 4kb 11424.75 4172.21
SSE Block 16kb 12878.85 4505.59

  从测试结果来看,45nm Nehalem Core i7平台与45nm Penryn Xeon总体超出实在太多了。L1缓存因为与频率密切相关,而且从上一页的表格来看,Core i7 Extreme 940的L1 I-Cache(指令缓存)为4路集合关联,要弱于Xeon E5450的8路集合关联,因此L1延迟要高上一些,L1带宽则要低上不少。


Nehalem的三级缓存架构

Core i7 940的缓存架构

  对于Core i7 Extreme 940来说,有一处特别的地方就是L3 Cache的存在,L2和L1很相像,都是小容量、低延迟。Xeon E5450就不是这样,因此最终的结果是Nehalem的L2性能要强于Penryn Xeon。由于ScienceMark 2.0认不出Nehalem的L3,因此没有相关的数据。


Nehalem的缓存设计

  到了内存延迟和内存带宽测试上,Core i7 Extreme 940完胜,这和Nehalem的架构密切相关:


Nehalem的内置内存控制器架构

  由于内置了内存控制器,因此内存延迟极低,在使用同样内存基础频率的情况下,Core i7的延迟只有Xeon的2/3,也就是64%左右。在带宽方面,虽然Core i7只具有3个内存通道,而Xeon平台则具有4个内存通道,然而Xeon的内存数据还要经过狭窄的FSB来到达CPU,比起Core i7的完全独享来自然大有不如,因此Core i7 Extreme 940的内存带宽性能测试大约是Xeon E5450的3倍左右。它们的理论带宽分别是25GB(三通道DDR3-1066)和20.8GB(四通道FBD DDR2-667),可见Core i7的内存带宽效率也远比现在的Xeon + 5000X要高。

  SiSoftware Sandra Pro Business 2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从Sandra 2007开始支持SSE4指令集。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。我们在Core i7 Extreme平台上使用的是Sandra 2009,在E5450使用的是Sandra 2008。

  • 正睿合作伙伴
  • 社区
首页 | 注册 | 网站地图 | 通告 | 联系我们
CopyRight(C)2004-2022 Chongqing Zhengrui Technology Co.,Ltd. All rights reserved.
重庆正睿科技有限公司(C)版权所有 未经书面授权 不得转载、复制或建立镜像
渝ICP备11002339号-1  渝公网安备 50010702500475号
SiSoftware Sandra Pro Business 2009
 
单Core i7 Extreme 940 双路Xeon E5450
Processor Arithmetic Benchmark
Dhrystone iSSE4.2 71538 MIPS  
Dhrystone ALU
 
110320 MIPS
Whetstone iSSE3
61616 MFLOPS
87861 MFLOPS
Processor Multi-Media Benchmark
Multi-Media Int x16 iSSE4.1
148.56MPixel/s
 
Multi-Media Float x8 iSSE2
114.78MPixel/s
 
Multi-Media Double x4 iSSE2
63.17MPixel/s
 
Multi-Media Int x8 iSSSE3
 
655876 iit/s
Multi-Media Float x4 iSSE2
 
358011 fit/s
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth
39.17GB/s
 
Inter-Core Latency
16ns
 
Memory Bandwidth Benchmark
Int Buff'd iSSE2 Memory Bandwidth
19.11GB/s
6264 MB/s
Float Buff'd iSSE2 Memory Bandwidth
19.11GB/s
6262 MB/s
Memory Latency Benchmark
Memory(Random Access) Latency
94ns
 
Speed Factor
64.50
 
Internal Data Cache
4clocks
 
L2 On-board Cache
11clocks
 
L3 On-board Cache
53clocks
 
Cache and Memory Benchmark
Cache/Memory Bandwidth
60.02GB/s
75623 MB/s
Speed Factor
27.30
 
.NET Arithmetic Benchmark
Dhrystone .NET
16280MIPS
12358 .netMIPS
Whetstone .NET
38076MFLOPS
52176 .netMFLOPS
.NET Multi-Media Benchmark
Multi-Media Int x1 .NET
29.06MPixel/s