开放的未来！AMD Stream技术深度分析

正睿科技发布时间：2009-04-13 14:41:39 浏览数：6035

　　从1998年到2008年，3D加速卡已经经历了大约10年的发展历程，由最初的单纯3D显示加速到如今的并行计算，让显卡这一产品经历了一个十分巨大的变革。随着显卡的性能增强，人们越来越意识到如此高性能的显卡如果单纯的利用在3D加速领域的话，会让显卡在大部分时间浪费掉它的出色性能，因此并行计算便提上了显卡未来发展路线的日程。当然，实际上目前来看，显卡已经在朝着这一方向前进了。

　　ATI方面，早在X1950XTX时代就已经能够通过斯坦福大学Folding@home软件实现并行加速计算功能，不过面向普通用户的并行计算功能因为没有做到尽善尽美所以一直没有露面。

　　进入DX10以来，微软DX10 API引入了流处理器的概念，GPU不再像以前一样区分像素，顶点着色，使其更像内部的一个多核的通用处理器。于是GPU也开始参与更多的通用计算，逐渐呈现出威胁到CPU在计算机中的地位，处理器老大哥Intel开始也未雨绸缪，在谨慎评估后决定重返独立图形处理器行业，研发代号为”Larrabee“的产品，着眼在未来与AMD、NVIDIA两家共同抢夺并行计算巨大的市场蛋糕。

　　NVIDIA公司是三家里面走得最快的一家，在去年正式发布了CUDA这项技术，并且从GTX 280产品之后开始了大力宣传。这被人们普遍认为是图形产业一个具有重大意义的方向和领域，然而CUDA并不像NVIDIA所宣称的那样具备开放性和完美无缺，在并行计算的方向上，业界另一位重量级的选手AMD，也在沿着自己的道路在前进。随着ATI去年年底催化剂8.12的发布，具有ATI显卡划时代意义的Steam通用计算技术正式登场了。今天，我们就详细讲解一下ATI Steam技术的特色亮点以及应用领域方面的相关知识。

文章导航：

前言：显卡产业的变革：GPGPU应用进入井喷
第一章：GPU架构的演进	SIMD架构带来的超强浮点运算能力首款万亿次浮点运算GPU
第二章：殊途同归 CUDA与Stream	开放性通用计算标准：OpenGL定义 OpenCL与CUDA开放型对比 Stream同时支持OpenCL和微软DX11 Stream软件开放优势何在？
第三章：Stream流计算三大应用领域	娱乐：视频解码、转码商业办公/科学计算：个人PC与高性能服务器游戏：物理加速、AI加速
第四章：未来Steam的更新情况	Stream SDK1.4版：加入更多硬件支持 Stream SDK 2.0版：过渡到OpenCL ATI与微软的合作更多软件厂商的支持
第五章：Stream进入主流市场首例应用	Avivo converter软件发布转码效率、画质的争议消费者更倾向谁：免费与收费的差别
第六章：Stream企业应用	Stream企业应用的范围 FireStream产品介绍 Fusion战略 4U解决方案??Aprius运算加速系统厂商支持：惠普、Brown Deer Tech
总结：GPU HPC服务器时代到来	英特尔Larrabee加入战局

第2页：SIMD架构，为Stream打下基础

◆我们先来看看AMD对Stream计算的定义：

　　AMD Stream是一组AMD开放性技术，可让AMD处理器内数百个平行串流核心，为各种一般用途的应用带来加速的效果，打造各种优异的平台，并可大幅提升每瓦性能。而免费提供的完全开放性ATI Stream SDK，则是让程序开发人员更可以充分利用AMD硬件，帮助他们在变化性快速增长的平台与操作系统上，可开发出更快速、更节能的应用。

　　简单的说，Sream流技术就是利用AMD GPU多核在浮点运算性能上的优势进行加速计算。在HD 2000系列产品中，我们就已经知道ATI采用的4D+1D的SIMD设计能带来极强的浮点运算性能，甚至低端的HD2400的浮点运算性能都要比两颗四核CPU并行运算的浮点运算性能还要高。而RV770在基本保持R6XX架构的设计思路上，大量的增加了流处理器数量，这使得RV770的浮点运算能力又得到了飞跃式的提高。

◆ SIMD架构让RV770的浮点性能更强

　　2008年的6月20日，ATI正式发布了最新一代的Radeon HD 4850产品，这款产品发布的同时，也为大家带来了一款浮点运算能力达到万亿次的产品。之所以HD4850的浮点运算能力能够达到万亿次级别，这主要还是因为ATI在核心架构的设计上一直保留着SIMD的设计思路，虽然在遇到分支预测时，SIMD的效率会降低，但是SIMD的浮点运算的优势确实非常大。

『RV770架构图』

　　我们来举一个例子：RV770核心有800个流处理器，每个流处理器每个时钟周期总共可以完成800个矢量指令+800个标量指令，也就是说每个流处理器每个周期可以同时执行两个命令数，将流处理器的数量与每个流处理器同时执行的命令数相乘再乘以流处理器运行的频率，也就是说800 x2 x625MHz=1T Flops。可以看到，RV770依靠其800个流处理器的性能，可以达到惊人的万亿次的浮动运算能力。

　　强大的浮点运算性能有什么好处呢？编辑可以简单告诉你，这个指标在GPGPU（通用目的计算的GPU）上能够发挥很大的作用，尤其在依赖密集计算的科学运算领域，GPU依靠超强的浮点运算性能大大超越了CPU的运算速度。

第3页：Stream支持OpenCL开放标准

　　作为图形芯片的两大巨头，NVIDIA拥有自己的CUDA架构，AMD有自己的Stream Acceleration流加速技术。NVIDIA一直希望CUDA能够成为通用计算的标准平台，但包括苹果、AMD在内的业界厂商并不认可，于是在去年由苹果牵头，以苹果OpenCL草案为基础，联合业界各大企业共同完成了标准制定工作。随后Khronos Group成立相关工作组，工作组的26个成员来自各行各业，且都是各自领域的领导者，具体包括3DLABS、Activision Blizzard、AMD、苹果、ARM、Barco、博通、Codeplay、EA、爱立信、飞思卡尔、HI、IBM、Intel、Imagination、Kestrel Institute、摩托罗拉、Movidia、诺基亚、NVIDIA、QNX、RapidMind、三星、Seaweed、TAKUMI、德州仪器、瑞典于默奥大学。像Intel、NVIDIA和AMD都是这个标准的支持者，微软不在其列。

　　OpenCL全称Open Computing Language，是第一个面向异构系统通用目的并行编程的开放式、免费标准，也是一个统一的编程环境，便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码，而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器，在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景。

OpenCL 1.0主要由一个并行计算API和一种针对此类计算的编程语言组成，此外还特别定义了：

1、C99编程语言并行扩展子集；

2、适用于各种类型异构处理器的坐标数据和基于任务并行计算API；

3、基于IEEE 754标准的数字条件；

4、与OpenGL、OpenGL ES和其他图形类API高效互通。

　　编辑简单总结一下OpenCL，那就是统一编程环境、跨平台、异构计算以及是免费的标准。在OpenCL 1.0标准发布之后，AMD和NVIDIA立即表态，宣布即将采用OpenCL 1.0编程规范。　作为OpenCL的创始人之一，AMD一直以来都极力推崇OpenCL，并尽力赶在2009年上半年开发布ATI Stream SDK的开发者版本，实现对OpenCL 1.0的支持。

◆开放性标准，更有发展前途

　　相对NVIDIA的CUDA技术而言，AMD自家的Stream技术是一项开放性的技术。实际上，最初ATI采用的流处理技术并非完全开放，而是仅针对单一的一个项目而研发的。在2006年，ATI就曾经借助非统一架构设计的Radeon X1950XTX显卡为斯坦福大学的Folding@Home (蛋白质折叠的分布计算项目)项目进行科学计算。而此次全新的Stream流处理技术的改进就是要将这一技术全面开放，能够让更多的开发人员参与进来，借助HD4000系列显卡超强的浮点运算能力，为更多的并行计算应用进行加速。

第4页：OpenCL与CUDA开放型对比

　　为何要将这一技术完全开放，实际上这是AMD一个非常明智之举。我们可以回顾一下，历史上很多不开放的相关技术都是一些怎样的后果。

　　这其中大家最熟悉的应该就是早年3dfx公司的Glide图形技术接口和Rambus这两项技术了，由于技术的封闭性，让不少厂家望而却步，最终走向了没落的道路。一种公开的通用计算标准，能让开发者面对不同应用程序所针对的操作系统、应用环境拥有最大的自由。

　　从上面的表格当中我们可以看到，基于Khronos团体定制的OpenCL标准确实得到了不少厂商的认可，包括有AMD、Intel、IBM、APPLE等厂商，这其中甚至还包括了ATI的老对手NVIDIA。因此，我们也不难看出开放性标准对于一个厂商的重要性是非常有分量的。

第5页：新版Stream SDK将支持DX11

　　此外，业界另一个不可忽视的标准就是微软DirectX。在最新的DirectX 11的消息中透露，微软在DX11中加入物理加速计算--Compute Shader支持，而此技术目前的规格透露的不多，但有一点可以确认其肯定不会兼容NVIDIA的PhysX物理加速支持。一旦微软真正发布DirectX11之后，NVIDIA的PhysX将在DirectX11的游戏应用中得不到任何的好处，而如果是支持Havok的话，那么英特尔和AMD的显示卡将获得巨大的效率提升。

　　除了支持开放性标准OpenCL外，AMD还在积极与微软公司进行合作。AMD称其流处理计算开发包Stream SDK将在未来进行全面升级，在微软的Windows 7当中，加入对微软DirectX 11 API的支持。据悉，新版Stream SDK不但会支持DX11，还会加入OpenCL图形标准，并增强对C/C++语言的支持，以期降低GPU加速应用开发的难度。

　　微软Windows桌面和图形技术负责人Anantha Kancherla表示：“就像在3D游戏领域里一样，DirectX技术也将成为GPGPU通用计算革命的排头兵。DX11可以让开发人员在全球成百上千万的Windows平台上更简单地驾驭AMD GPU巨大的通用计算潜力，并给消费者带来轻松享受AMD Stream技术的新思路。”

　　我们可以想象得到，以微软非常强大的研发实力，必然会在Windows 7当中为我们带来更多的惊喜。

第6页：AMD流技术软件开发的优势

　　当然，AMD也并非仅仅支持OpenCL一种API接口，同时AMD自有的Brook+、更多的高级编程语言编程工具、高级编程语言编译器、特定应用程序库以及业界的OpenGL、DirectX等技术均能够得到支持。更多的开发方式的支持，得到的结果只有一个，那就是让编程人员有更多的选择，从而可以从自己熟悉的方式来对显卡的更多潜能进行开发。

　　AMD之前宣布，AMD将持续与业界伙伴合作制定OpenCL编程标准，而持续演进的Stream SDK将引导研发业者当OpenCL发行时，可利用Brook+程序代码管道来确保已完成的程序代码仍可使用于未来的软件上。

『ATI为流处理技术免费提供开发工具包』

　　除了提供更多的开发环境以外，ATI还未开发人员提供了一整套开发方案，并且为开发人员提供免费的、开放的编程工具套件，以增强开发人员的积极性。另外，ATI开放性的举动也将会增加开发人员的灵活性以及赋予开发者自由编程的能力。

　　根据ATI的消息表示，ATI能够让开发人员仅进行一次程序语言的编写，通过内部的代码识别以及转换就可以轻松的让这些程序语言运行在显卡上，而无需开发人员的二次编写更甚至从新编写程序，这一点无疑也大幅度降低了开发人员的开发难度，对于我们普通用户而言最直接的好处就是我们能够在更短的时间内看到采用流处理技术的应用程序。

第7页：未来Stream更新情况

　　根据我们目前的得到的消息来看，Brook+开发工具有效地提供了一个高级别访问GPU的途径，类似NV的CUDA技术。此外，ATI还有望提供从Brook+过渡到OpenCL的简单工具，不过具体细节目前尚不清楚。

『Stream1.3版功能简介』

　　另外，ATI并非会抛弃Brook+开发环境，1.3版本的Stream SDK当中，Brook+彻底重写以提升性能，把AMD的计算抽象层（CAL）整合到了ATI Catalyst驱动程序内，这让更多用户体验更高性能的Brook+。并且1.3版还增加对FireStream 9270、Radeon HD 4600、4550、4350显卡的支持。

『Stream1.4版功能简介』

　　在09年第一季度，ATI会继续更新Stream SDK到1.4版，新的版本会进一步加大软件开发者的编程控制和易用性。另外对Brook+也将会增加更多的功能，将提供对Crossfire多卡并联的支持，与DirectX的交互操作于线程层面上数据分享的使用，以及更精细的数据处理。硬件支持方面会增加目前ATI的家用顶级产品Radeon HD 4870 X2以及FirePro 3D系列的V3750、V7750、V7770等众多显卡。

　　另外我们得到消息，在ATI Stream SDK 2.0当中将完全支持OpenCL，并积极帮助客户从Brook+过渡到OpenCL。

第8页：普通用户的三大Stream应用领域

　　前面我们简单了解了一下ATI的Stream技术对于软件开发人员的优势，那么对于我们普通用户而言，Stream技术又会为消费者带来哪些益处呢？接下来的这一章节我们将会为大家详细的阐述一下这方面的应用。

◆普通用户的三大应用领域：

　　ATI的Stream技术对于普通用户来说主要提供了三个方面的应用领域，分别为：娱乐领域、工作领域以及游戏领域。例如在娱乐领域当中，Stream技术可以为我们提供视频、音频的编辑功能；在工作领域当中为我们提供办公软件、制图软件甚至操作系统等软件的加速；而在游戏当中，ATI表示在将来也会加入对游戏AI以及物理效果加速的功能。

视频编码，视频转码

　　通过显卡来做视频流硬件加速解码、转码运算，是证明GPU比CPU快速高效最有说服力的两项GPGPU应用。在Radeon HD 2000系列和Geforce 8000系列时候，AMD推出的UVD，能够对MEPG-2、H.264、VC-1三种格式实现硬解码，并且内置音频解码功能，在技术优势上要领先于NVIDIA的Purevideo HD。而近期关于GPU硬件转码方面的效率争论，也成为近期关注的一个焦点，本文后面章节会有详细介绍。

制图、PDF、多媒体加速

　　操作系统的发展，已经全面转向更简单、易操作的人性化图形UI界面，不管是手机3D触控界面还是微软Vista带来的3D桌面，都可以让用户获得更佳的视觉应用体验。此外诸如Photoshop CS4、PDF、Piclens等图形软件，可以通过GPU来加速人们日常办公的效率。NVIDIA认为，现在已经进入了一个“视觉计算”的时代。

游戏AI、物理加速

　　游戏物理运算相信大家都很熟悉了，物理运算本质上也是一种密集型的并行计算，NVIDIA现在将PhysX作为独占，并与部分游戏厂商合作开发支持PhysX物理引擎的游戏。因此AMD只能投向另一家Havok物理引擎，不过Havok目前仅支持CPU运算，使得AMD Raden 显卡的处境比较尴尬。不过在PC平台上，Radeon显卡不支持物理运算只是短暂的尴尬，Stream技术对微软DX11的支持将会成为A卡的一个转折点。

　　AMD曾经演示过一个《Froblins demo》，就是通过GPU进行每个角色的AI运算，发挥GPU强大的并行计算能力。

　　此外，一些程序员认为，通过PhysX来实现通用物理计算还是比较复杂的，远没有DirectX的SDK来的方便，因此未来虽然或许会有公司推出支持PhysX API的应用，但估计大部分程序员还是喜欢使用微软提供的API接口来实现物理加速。NVIDIA副总裁、TWIMTBP计划负责人Roy Taylor在GC 2008游戏大展上就此回应说，虽然DX11会带来Compute Shader通用计算技术，但并不会威胁他们的PhysX物理技术。不过Roy Taylor也承认，如果开发人员喜欢使用DX11 Compute Shader技术，而不是借助PhysX API来实现物理通用处理，也不会存在任何问题。他还质疑DX11 Compute Shader是否能像PhysX这样得到广泛应用，原因很简单：现在的游戏基本都是跨平台的，既有PC版也有主机版甚至掌机版，因此开发人员会更乐意使用跨平台游戏技术，就像PhysX。

第9页：ATI的Avivo视频转换器

　　ATI首先为软件开发者们提供了免费的、易用的开发工具，从而让这些开发人员去开发相应的软件，让软件的开发成本降到最低。不仅如此，ATI也积极的为大家带来更多更好的基于Stream技术的应用软件，来让用户能够直接免费的获得这些软件，这其中最先让消费者体验到的就是伴随催化剂8.12同时出现的Avivo视频转换器。下面我们将重点来介绍一下：

　　ATI的Avivo视频转换器是基于ATI的Stream技术实现的收个面对个人用户的免费软件，它能够让显卡与CPU共同加速，来一起完成以往仅有CPU参与的视频压缩，并且压缩速度将会达到原有CPU转换速度的17倍左右。作为此次催化剂8.12的重头软件，接下来我们用一页的篇幅来详细了解一下这款软件。

　　ATI这款Avivo视频转换器从今年的12月中旬伴随着催化剂8.12驱动一起提供免费下载，感兴趣的用户可以去这里进入下载页面：http://ati.amd.com/support/driver.html。用户只需要根据自己的操作系统和使用的显卡进行选择，就可以进入下载页面了。

　　ATI Video Converter转码演示中，使用流技术将一个1920x1080p@24fps、10小时时长的MPEG-2格式视频转码成320x240@24fps、MPEG-4格式，仅仅需要几十分钟即可完成。而同样一段视频，使用苹果iTunes 8.0.1软件（内建WinQuickTimeMPEG2 pack解码器），需要花费3小时23分钟。

所用系统为：
Intel Core 2 Duo QX9650 3.0 GHz processor,
6GB of Corsair CM2X1024-8500C5D 1066 MHz memory,
Windows Vista Ultimate? 64-bit with Service Pack 1,
ATI Radeon? HD 4850 512MB

　　Avivo视频转换器能够提供非常简便的设置，而执行效率却是空前的。以往需要超过三个小时转换的一小时高清视频，现在只需要十二分钟就能完成转换。以这样的速度来看Avivo视频转换器确实为我们带来了非常不错的视频转换速度，让我们无需在电脑前等待漫长的时间。

第10页：消费更倾向谁：免费是关键

　　AMD支持Stream流计算的AVC发布之后，两家的转码方案谁将更快，是很多玩家希望知道的。根据国外PC Persective网站测试的结果来看，AVC的速度要快于BadaBoom很多，不过也有测试爆料，AVC解码出来的画质却让人不敢恭维。

　　AVC快的原因显卡只是负责了其中运动补偿步骤的环节，其它环节都还是依赖CPU解码来完成，因此AMD的CPU占用率要高出NVIDIA的方案。其实NVIDIA BadaBoom也不是完全由GPU完成，因此谁也没有理由讥笑对方。而对于消费者而言，他们会更青睐那种转码方案呢？

	Avivo Converter	BadaBoom v1.1
输入格式	MPEG-1、VC-1、DivX、WMV、H.264/AVC	DivX、Xvid、MPEG-1、VC-1、AVI、MKV、WMV、H.264/AVC
输出格式	MPEG-2、H.264	H.264
支持型号	Radeon HD 4000系列	Geforce 8000系列 Geforce 9000系列 Geforce GT200系列
解码速度	最快	较快
CPU占用率	很高	较低
价格	免费	30美元

　　Avivo视频转换器是ATI首次将流处理技术得以实现的应用软件，它能够支持非常多的视频转换格式，包括了MPEG-2、H.264等多种高清视频格式，并可支持1080p的视频输出（这一技术将会在2009年第一季度实现）。而BadaBoom v1.0正式版发布时仅能支持MPEG-2和H.264，在输入格式兼容性方面不如AVC更广泛一些，而在输出格式方面，BadaBoom似乎只是一款为便携设备设计的软件。

　　ATI最新的Avivo视频转换器能够用于目前主流的Radeon HD 4870/50以及HD4670/50几款产品。目前ATI的Stream通用计算研发团队会将前期的工作重点放在HD 4000产品上面，而随后也会推出能够支持HD3000/2000或者其他产品的驱动和软件。NVIDIA曾经宣称全球已经销售了xx百万片Gefroce 8/9系列显卡，而AMD目前RV770芯片销售出了200百万片，双方都有着庞大的用户群基础。

　　我想，现在每个人都会支持购买收费的正版软件，不过免费的东西会更受欢迎。NVIDIA官方网站虽然提供了BadaBoom试用版下载，但用户需要花费30美金才能获得一份正式版。而AMD则是完全免费，相比之下，AMD的做法无疑更厚道一些。

第11页：Stream技术的软件厂商支持

　　AMD表示，Stream流处理技术当然并不是仅仅通过Avivo视频转换器这一个软件来体现，ATI也正在积极与一些大牌的软件厂商进行合作，预计将会在2009年第一季度推出不少采用ATI流处理技术的软件产品，这其中就包括了CyberLink公司的PowerDirector（威力导演7，是一款视频后期编辑软件）以及ArcSoft TotalMedia公司的Theater（视频编辑软件）软件。

PowerDirector截图

　　其中，CyberLink公司的PowerDirector同样拥有ATI的Avivo视频转换器的全部功能，并且PowerDirector实际上就是采用了AMD提供的核心AVT库，并且对ATI Radeon产品采用AVIVO视频编码器来执行转码的工作。在编码完全一样的输入内容和输出目标情况下，CyberlinkPowerDirector的性能和类似软件的性能没有不同。但是，Cyberlink的PowerDirector还有其他优势，如支持更多的视频文件存放器，支持多流转换等多种功能，Cyberlink的PowerDirector的所有功能都打包在一个完整视频编辑环境当中。

　　另外，来自Adobe公司的不少应用软件（如Acrobat Reader、Photoshop4、Flash10等）也都会加入对ATI显卡的流处理支持。ATI除了能够支持目前Photoshop CS4当中的旋转、缩放的GPU加速外，目前还在与Adobe公司积极配合，准备开发更多的能够使用Stream技术的功能。

　　除此以外，ATI与微软公司的合作也非常紧密，将会在未来Windows 7操作系统、Expression视频编码器、PowerPoint2007等不少软件当中提供支持。

第12页：针对企业用户的解决方案

　　前面我们花了很大篇幅介绍与个人用户相关的流处理技术，其实Stream技术更广阔的市场是面向对于企业级用户的，Stream相对于普通CPU计算的有着巨大的优势：

　　根据AMD FireStream 9250 运算加速器上算法的实行，当无AMD FireStream 9250支持独立运作时，运算时间需要1626.91秒，而若具有AMD FireStream 9250的支持，运算仅需要13.08秒。（系统规格：AMD Phenom X4 9950 黑核四核心处理器(2.6GHz)、Windows XP 32位、ATI Stream SDK 1.3 测试、AMD FireStream 9250主流处理器。）

下面编辑先介绍一下Stream技术对于企业当中哪些应用最适合：

　　实际上很多基于并行计算架构的运算都能够被流处理技术支持，例如科学研究、电脑辅助工程、财务建模和风险评估、石油煤气勘探、国防、医学成像、影响渲染和专业视讯等领域都能够被流处理技术支持，并且采用流处理技术还能够大幅度的缩减企业开发成本等优势。

接下来我们再来看看面对企业级别的用户，Stream流处理技术还会为我们带来哪些特色。

　　　　第一，使用流处理技术的话，能够大幅度缩小服务器的体积，并且还能够同时保证服务器运行的高效率；
　　　　第二，在服务器大幅度缩小后，同样还会带来功耗的大幅下降；
　　　　第三，能够让服务器的整体成本大幅度下降；
　　　　第四，能够支持双精度的浮点运算能力。

第13页：FireStream是Fusion商业化先锋

　　当然，对于企业级的用户来说，AMD自然也有相应的产品解决方案，而不可能让企业级用户使用那些普通家用级产品，毕竟针对企业用户来说，稳定性以及可靠性才是最重要的。AMD推出的FireStream系列产品就是专门针对企业级用户的解决方案。

　　目前FireStream系列已经有两款产品亮相了，一款产品为FireStream 9250：采用1GB GDDR3显存容量、单插槽设计、90W功耗、单精度浮点运算每秒1TFLOPS、双精度浮点运算每秒200GFLOPS。

AMD FireStream 9270 规格
GPU数量	1
Stream处理器数量	800个
峰值运算能力	1.2 TFLOPS (single), 240 GFLOPS (double)
支持浮点格式	IEEE single & double precision
片上显存容量	2GB GDDR5
显存位宽	256-bit @ 850MHz
峰值显存带宽	108.8 GB/s
PCI-E版本	PCIe x16 Gen 2
辅助供电接口	Two 6-pin
功耗	160 watts typical, <220 watts peak

　　另一款产品名称为FireStream 9270：采用2GB GDDR5显存、双插槽设计、160W功耗、单精度浮点运算每秒1.2TFLOPS、双精度浮点运算每秒240GFLOPS。并且针对企业级用户，还可以组件双卡、四卡或更多显卡的阵列，从而成倍提升显卡的流处理能力，已获得更强劲的性能。

　　ATI FireStream 9270 预计厂商建议零售价为1499美元，而ATI Stream SDK则为永久免费使用。

AMD Fuison战略

　　脱离了计算的平台，单片的FireStream显卡其实无从发挥实力，但如果做成以GPU为核心运算处理器的服务器，才是一个能够商业化的解决之道，这也是AMD针对企业市场的最终解决平台。因此，我们可以看到，AMD近期推出了全新的品牌策略??Fusion，即将整合显卡与CPU于一身。不过目前对这个市场投入力量最大的就是NVIDIA公司，而且同时目前也只有NVIDIA公司一家真正推出了面向高端市场的GPU服务器产品。

第14页：4U解决方案??Aprius运算加速系统

　　目前GPU服务器打算进入的应用软件领域以使用矢量型高速处理器为主。根据应用软件的不同，如果使用基于矢量处理器的GPU的话，那么将会带来近数十倍性能的提升，这个领域CPU的用户如果看到GPU解决方案的成熟和优势的话，未来将会大规模向GPU转移。

　　美国田纳西大学创新计算实验室总监以及《LINPACK》的作者Jack Dongarra教授曾在美国德克萨斯州奥斯汀市SC08大会上表示：“GPU已经发展到了相当高的阶段，许多现实应用程序均可在其上轻松运行，并且运行速度远远超过在多核CPU系统上的运行速度。未来的计算架构将是并行核群GPU与多核CPU协同工作的混合系统。”

AMD 4U解决方案??Aprius运算加速系统

　　AMD在Firestream 9270发布之后，还与Aprius合作推出了完整的4U解决方案??Aprius运算加速系统。Aprius为AMD Stream技术合作厂商之一，该公司为一专门开发高带宽服务器互连系统企业，为数据中心提升扩充性、资源共享以及低延迟的效能。

　　整套系统大小是一个标准的4U服务器机箱，整套系统一共采用了8块FireStream9270显卡，运算能力将会达到单精度浮点运算9.6TFLOPS，双精度浮点运算达到1.9DP TFLOPS，以及超过4个PCIe总线的16GB高速内存。透过多个80 Gbps PCI Express(PCIe)光学键链接到一个服务器群集。再加上 Aprius Computational Acceleration System，此款解决方案将在原生PCI-E互连系统上，提供许多创新技术，如透过光纤缆线打造50公尺的PCIe 2.0连结管道，提供简单的机架内安装与维修流程，以透明化模式支持所有操作系统环境。此技术已经在去年11月18日美国德州奥斯汀举行的Supercomputing 2008会中展出过。

Brown Deer Technology公司主席David Richie对Stream的评价

　　AMD流技术在企业领域的应有以及优势得到了不少厂商的重视，HP公司也宣布将在其Proliant服务器产品中积极参与到Stream技术应用当中。

“GPU HPC服务器”的时代

　　作为全球最大的GPU生产厂商，NVIDIA借助通用计算技术上的领先优势，率先开辟了GPU服务器这个全新的产业，从而主导整个产业的演进。AMD其实早在2006年收购之初就就已经规划好了这个方向，不过无奈的是，收购ATI后巨额的债务以及Intel的”Tick-Tock‘计划几乎拖垮了AMD，又碰上次贷危机引发的全球经济衰退，AMD Fusion战略推进的速度受到了一定影响。未来一段时间，相信我们还会看到Intel基于Larrabee处理器的服务器问世。

　　“高度决定眼界”，未来整合两种计算资源是各家厂商的必由之路。不论是Intel、AMD还是NVIDIA，整合CPU与GPU两种异构核心的计算能力，是未来竞争中占据主动的关键之一。