Nehalem - Core i7 Extreme的黑色LOGO
![]() |
采用LGA1366封装的Core i7(左)与LGA775封装的Core 2(右)相比大上了不少 |
![]() |
Nehalem桌面测试平台 |
预计Nehalem??Core i7将于11月正式发布,而服务器版本仍然还有一段时日,Nehalem作为桌面级别产品的性能我们已经可以从这篇《再攀性能之巅 Intel全新酷睿i7深度评测》看到了,然而服务器方面的性能呢?我们IT168评测中心已经等不及了。
![]() |
我们自行购买的Nehalem也是一个工程样板 |
![]() |
CPU-Z 1.48可以正常识别出关于CPU的详细信息 |
全球首批三款Nehalem架构处理器型号分别为Core i7 965 Extreme、Core i7 940及Core i7 920,我们拿到的这颗Core i7处理器型号为Core i7 940,是目前发布的三款Core i7产品中定位居中的一款,和顶级的Core i7 965 Extreme相比,它只是QPI规格稍低、倍频向上锁定以及缺少Turbo Mode功能。
![]() |
由于加入了更多核心外的复杂设计,因此Core i7的背面也更加复杂 |
![]() |
Core i7 940的缓存信息 |
Core i7 965 Extreme、940及920处理器,核心代号Bloomfield,均采用原生四核心设计,基于45nm工艺生产,拥有7.31亿个晶体管,每个核心拥有256KB的独立二级缓存,四个核心共享8M容量的三级缓存,TDP为130W。由于缓存总容量较之Penryn四核还有所下降,所以其晶体管数量实际上还略低于Penryn四核心。但由于三级缓存及内存控制器等复杂设计的加入,Intel为Bloomfield设计了一个LGA 1366接口,这也直接使得最终产品看上去比起LGA 775接口的产品大了不少,处理器基板上的金属触点是为了Debug而设计。
测试平台、测试环境 | ||||
测试分组 | ||||
类别 |
Core i7 Extreme 940平台 | 双路Xeon E5450平台 DELL PE2900 III服务器 | ||
处理器子系统 | ||||
处理器 |
Intel Core i7 Extreme 940 |
双路Intel Xeon E5450 | ||
处理器代号 |
Bloomfield | Harpertown | ||
处理器封装 |
Socket 1366 LGA | Socke 771 LGA | ||
处理器规格 |
四核超线程 内置内存控制器 |
四核 | ||
处理器指令集 |
MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT |
MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,EM64T,VT | ||
主频 | 2.93GHz | 3.00GHz | ||
处理器外部总线 | QPI Link:3200MHz | FSB:1333MHz | ||
L1 D-Cache |
4x 32KB 8路集合关联 |
4x 32KB 8路集合关联 | ||
L1 I-Cache |
4x 32KB 4路集合关联 |
4x 32KB 8路集合关联 | ||
L2 Cache |
4x 256KB 8路集合关联 |
12MB 16路集合关联 | ||
L3 Cache |
8MB 16路集合关联 |
|||
主板 | ||||
主板型号 |
ASUS P6T Deluxe |
DELL PE2900 III | ||
北桥芯片组(MCH) |
Intel X58 | Intel 5000X | ||
北桥芯片特性 | Intel VT-d技术 | 12MB Snoop Filter | ||
内存控制器 |
处理器内置三通道DDR3 | 北桥集成四通道FBD DDR2 | ||
内存 |
1GB DDR3 1066 SDRAM x6 | 2GB FBD DDR2 667 SDRAM x4 | ||
系统磁盘子系统 | ||||
磁盘控制器 |
Intel ICH10R RAID Controller |
DELL Perc 5/i RAID Controller | ||
磁盘控制器规格 |
SATA 3Gbps | SAS 3Gbps | ||
磁盘控制器设置 |
RAID 0 |
RAID 5 | ||
磁盘控制器驱动 |
Intel Matrix Storage Manager 8.5.0.10032 |
LSI SAS 2.20.0.64 | ||
磁盘 |
Seagate SV35.3 ST31000340SV x2 |
Seagate Cheetah 15K.5 ST314655SS x3 | ||
磁盘规格 |
7200RPM 1TB SATA 3Gbps 32MB Cache |
15000RPM 146GB SAS 3Gbps 16MB Cache | ||
磁盘设置 |
SATA 3Gbps 50GB系统分区 |
SAS 3Gbps 20GB系统分区 | ||
网络子系统 | ||||
网卡 |
Marvell Yukon 88E8056 PCI-E千兆网卡 x2 |
Broadcom BCM5708C PCI-E千兆网卡 x2 | ||
网卡设置 |
Marvell NIC Teaming Load Balancing |
Broadcom NIC Teaming Load Balancing | ||
网卡驱动 |
Marvell Yukon for Win64 10.55.3.3 |
Broadcom NetXtreme 2 for Win64 11.04.01 | ||
软件环境 | ||||
操作系统 |
Microsoft Windows Server 2008 Enterprise x64 Edition SP1 |
Microsoft Windows Server 2003 R2 Enterprise x64 Edition SP2 |
我们使用了一套基于X58芯片组的主板搭配了测试平台,这块主板是ASUS P6T Deluxe,关于它的解析将会稍后推出。主要对比平台是一台安装了Windows Server 2003 R2 x64操作系统的DELL PowerEdge 2900 III服务器,包含了多款Xeon处理器的对比测试。DELL PowerEdge 2900 III服务器采用的主板基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升重负荷下缓存同步、进程调度方面的性能。5000X芯片组比较少见。前段时间推出的5400 Seburg芯片组带有24MB的Snoop Filter缓存。
我们使用的主板:ASUS P6T Deluxe
使用了6条DDR3-1066内存
Intel Xeon E54xx Harpertown处理器:
45nm Harpertown处理器
45nm Xeon E5450的频率为3.00GHz,和我们的Core i7 Extreme 940的频率很接近。Core i7 Extreme 940的频率是2.93GHz。
测试平台、测试环境 | ||||
测试分组 | ||||
类别 |
Core i7 Extreme 940平台 | 双路Xeon E5450平台 DELL PE2900 III服务器 | ||
处理器子系统 | ||||
处理器 |
Intel Core i7 Extreme 940 |
双路Intel Xeon E5450 | ||
处理器代号 |
Bloomfield | Harpertown | ||
处理器封装 |
Socket 1366 LGA | Socke 771 LGA | ||
处理器规格 |
四核超线程 内置内存控制器 |
四核 | ||
处理器指令集 |
MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT |
MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,EM64T,VT | ||
主频 | 2.93GHz | 3.00GHz | ||
处理器外部总线 | QPI Link:3200MHz | FSB:1333MHz | ||
L1 D-Cache |
4x 32KB 8路集合关联 |
4x 32KB 8路集合关联 | ||
L1 I-Cache |
4x 32KB 4路集合关联 |
4x 32KB 8路集合关联 | ||
L2 Cache |
4x 256KB 8路集合关联 |
12MB 16路集合关联 | ||
L3 Cache |
8MB 16路集合关联 |
|||
主板 | ||||
主板型号 |
ASUS P6T Deluxe |
DELL PE2900 III | ||
北桥芯片组(MCH) |
Intel X58 | Intel 5000X | ||
北桥芯片特性 | Intel VT-d技术 | 12MB Snoop Filter | ||
内存控制器 |
处理器内置三通道DDR3 | 北桥集成四通道FBD DDR2 | ||
内存 |
1GB DDR3 1066 SDRAM x6 | 2GB FBD DDR2 667 SDRAM x4 | ||
系统磁盘子系统 | ||||
磁盘控制器 |
Intel ICH10R RAID Controller |
DELL Perc 5/i RAID Controller | ||
磁盘控制器规格 |
SATA 3Gbps | SAS 3Gbps | ||
磁盘控制器设置 |
RAID 0 |
RAID 5 | ||
磁盘控制器驱动 |
Intel Matrix Storage Manager 8.5.0.10032 |
LSI SAS 2.20.0.64 | ||
磁盘 |
Seagate SV35.3 ST31000340SV x2 |
Seagate Cheetah 15K.5 ST314655SS x3 | ||
磁盘规格 |
7200RPM 1TB SATA 3Gbps 32MB Cache |
15000RPM 146GB SAS 3Gbps 16MB Cache | ||
磁盘设置 |
SATA 3Gbps 50GB系统分区 |
SAS 3Gbps 20GB系统分区 | ||
网络子系统 | ||||
网卡 |
Marvell Yukon 88E8056 PCI-E千兆网卡 x2 |
Broadcom BCM5708C PCI-E千兆网卡 x2 | ||
网卡设置 |
Marvell NIC Teaming Load Balancing |
Broadcom NIC Teaming Load Balancing | ||
网卡驱动 |
Marvell Yukon for Win64 10.55.3.3 |
Broadcom NetXtreme 2 for Win64 11.04.01 | ||
软件环境 | ||||
操作系统 |
Microsoft Windows Server 2008 Enterprise x64 Edition SP1 |
Microsoft Windows Server 2003 R2 Enterprise x64 Edition SP2 |
我们使用了一套基于X58芯片组的主板搭配了测试平台,这块主板是ASUS P6T Deluxe,关于它的解析将会稍后推出。主要对比平台是一台安装了Windows Server 2003 R2 x64操作系统的DELL PowerEdge 2900 III服务器,包含了多款Xeon处理器的对比测试。DELL PowerEdge 2900 III服务器采用的主板基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升重负荷下缓存同步、进程调度方面的性能。5000X芯片组比较少见。前段时间推出的5400 Seburg芯片组带有24MB的Snoop Filter缓存。
我们使用的主板:ASUS P6T Deluxe
使用了6条DDR3-1066内存
Intel Xeon E54xx Harpertown处理器:
45nm Harpertown处理器
45nm Xeon E5450的频率为3.00GHz,和我们的Core i7 Extreme 940的频率很接近。Core i7 Extreme 940的频率是2.93GHz。
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
ScienceMark v2.0 Membench L1测试成绩
ScienceMark v2.0 Membench L2测试成绩
ScienceMark v2.0 Membench 内存测试成绩
首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是??当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。
ScienceMark Membench | ||
产品型号 | 单路Core i7 Extreme 940 | 双路E5450 |
内存技术参数 | 1GB DDR3-1066 SDRAM x6 | 2GB FBD ECC DDR2-667 SDRAM x4 |
L1带宽(MB/s) | 47986.27 | 55707.30 |
L2带宽(MB/s) | 19708.26 | 16740.23 |
内存带宽(MB/s) | 13491.82 | 4505.59 |
L1 Cache Latency(ns) | ||
32 Bytes Stride | 1.02 | 1.00 |
L1 Algorithm Bandwidth(MB/s) | ||
Compiler | 42946.57 | |
REP MOVSD | 43613.84 | |
ALU Reg Copy | 12113.23 | |
MMX Reg Copy | 23883.50 | |
SSE PAlign | 47242.50 | |
SSE2 PAlign | 47986.27 | |
L2 Cache Latency(ns) | ||
4 Bytes Stride | 1.02 | 1.00 |
16 Bytes Stride | 1.02 | 1.34 |
64 Bytes Stride | 3.06 | 4.01 |
256 Bytes Stride | 3.06 | 4.01 |
512 Bytes Stride | 2.72 | 4.34 |
L2 Algorithm Bandwidth(MB/s) | ||
Compiler | 18218.37 | |
REP MOVSD | 19708.26 | |
ALU Reg Copy | 8797.54 | |
MMX Reg Copy | 14108.99 | |
SSE PAlign | 18752.85 | |
SSE2 PAlign | 18763.34 | |
Memory Latency(ns) | ||
4 Bytes Stride | 1.36 | 1.00 |
16 Bytes Stride | 1.70 | 4.68 |
64 Bytes Stride | 6.12 | 19.38 |
256 Bytes Stride | 36.65 | 59.48 |
512 Bytes Stride | 43.54 | 66.16 |
Memory Algorithm Bandwidth(MB/s) | ||
Compiler | 10216.66 | 3177.97 |
REP MOVSD | 13421.20 | 3223.82 |
ALU Reg Copy | 9015.34 | 2818.10 |
MMX Reg Copy | 9570.62 | 2992.21 |
MMX Reg 3dNow | --- | --- |
MMX Reg SSE | 12729.13 | 3962.02 |
SSE PAlign | 13379.86 | 4297.17 |
SSE PAlign SSE | 13311.12 | 4124.61 |
SSE2 PAlign | 13491.82 | 4293.79 |
SSE2 PAlign SSE | 13236.43 | 4126.98 |
MMX Block 4kb | 11442.95 | 4167.14 |
MMX Block 16kb | 12754.30 | 4480.38 |
SSE Block 4kb | 11424.75 | 4172.21 |
SSE Block 16kb | 12878.85 | 4505.59 |
从测试结果来看,45nm Nehalem Core i7平台与45nm Penryn Xeon总体超出实在太多了。L1缓存因为与频率密切相关,而且从上一页的表格来看,Core i7 Extreme 940的L1 I-Cache(指令缓存)为4路集合关联,要弱于Xeon E5450的8路集合关联,因此L1延迟要高上一些,L1带宽则要低上不少。
Nehalem的三级缓存架构
![]() |
Core i7 940的缓存架构 |
对于Core i7 Extreme 940来说,有一处特别的地方就是L3 Cache的存在,L2和L1很相像,都是小容量、低延迟。Xeon E5450就不是这样,因此最终的结果是Nehalem的L2性能要强于Penryn Xeon。由于ScienceMark 2.0认不出Nehalem的L3,因此没有相关的数据。
![]() |
Nehalem的缓存设计
到了内存延迟和内存带宽测试上,Core i7 Extreme 940完胜,这和Nehalem的架构密切相关:
Nehalem的内置内存控制器架构
由于内置了内存控制器,因此内存延迟极低,在使用同样内存基础频率的情况下,Core i7的延迟只有Xeon的2/3,也就是64%左右。在带宽方面,虽然Core i7只具有3个内存通道,而Xeon平台则具有4个内存通道,然而Xeon的内存数据还要经过狭窄的FSB来到达CPU,比起Core i7的完全独享来自然大有不如,因此Core i7 Extreme 940的内存带宽性能测试大约是Xeon E5450的3倍左右。它们的理论带宽分别是25GB(三通道DDR3-1066)和20.8GB(四通道FBD DDR2-667),可见Core i7的内存带宽效率也远比现在的Xeon + 5000X要高。
SiSoftware Sandra Pro Business 2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从Sandra 2007开始支持SSE4指令集。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。我们在Core i7 Extreme平台上使用的是Sandra 2009,在E5450使用的是Sandra 2008。
SiSoftware Sandra Pro Business 2009 | ||
|
单Core i7 Extreme 940 | 双路Xeon E5450 |
Processor Arithmetic Benchmark | ||
Dhrystone iSSE4.2 | 71538 MIPS | |
Dhrystone ALU |
|
110320 MIPS |
Whetstone iSSE3 |
61616 MFLOPS |
87861 MFLOPS |
Processor Multi-Media Benchmark | ||
Multi-Media Int x16 iSSE4.1 |
148.56MPixel/s |
|
Multi-Media Float x8 iSSE2 |
114.78MPixel/s |
|
Multi-Media Double x4 iSSE2 |
63.17MPixel/s |
|
Multi-Media Int x8 iSSSE3 |
|
655876 iit/s |
Multi-Media Float x4 iSSE2 |
|
358011 fit/s |
Multi-Core Efficiency Benchmark | ||
Inter-Core Bandwidth |
39.17GB/s |
|
Inter-Core Latency |
16ns |
|
Memory Bandwidth Benchmark | ||
Int Buff'd iSSE2 Memory Bandwidth |
19.11GB/s |
6264 MB/s |
Float Buff'd iSSE2 Memory Bandwidth |
19.11GB/s |
6262 MB/s |
Memory Latency Benchmark | ||
Memory(Random Access) Latency |
94ns |
|
Speed Factor |
64.50 |
|
Internal Data Cache |
4clocks |
|
L2 On-board Cache |
11clocks |
|
L3 On-board Cache |
53clocks |
|
Cache and Memory Benchmark | ||
Cache/Memory Bandwidth |
60.02GB/s |
75623 MB/s |
Speed Factor |
27.30 |
|
.NET Arithmetic Benchmark | ||
Dhrystone .NET |
16280MIPS |
12358 .netMIPS |
Whetstone .NET |
38076MFLOPS |
52176 .netMFLOPS |
.NET Multi-Media Benchmark | ||
Multi-Media Int x1 .NET |
29.06MPixel/s |