来源:蜘蛛抓取(WebSpider)
时间:2018-06-05 11:31
标签:
amd gpu工作负载
感觉AMD是要把【图形卡】和【计算卡】分家了?_amd吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:308,726贴子:
感觉AMD是要把【图形卡】和【计算卡】分家了?收藏
7nm VEGA+HBM2,目前的消息依然是只有专业卡,已流片。7nm Navi+GDDR6,目标小核心(250mm2左右)达到1080TI水平,传闻前端大改,能耗比不错,也已流片。为啥说分家咧,因为按照一般状况,新制程量产初期不会制造大核心的情况来看,7nm的VEGA也会是250mm2上下的核心(特别是比navi进度还早),这么说AMD一下子流片了两个规模相当的DIE?这是不符合一般常理的。所以只能推测AMD是要把【图形卡】和【计算卡】分家了。估计对玩家来说是好事?RTG:“又没钱又没技术,做不了老黄那种灵活度爆表的架构,那就做两套咯~”
我有种7nmvega 游戏性能会锤爆navi的不祥预感
理性分析一下,既然naive要大改前端,那vega也不可能不改前端提高利用率。而且a的专业卡肯定要顾及整数部分不可能砍整数的,倒是naive会大砍浮点。我怕在dx12下和光线追踪下会开倒车,毕竟naive有的特性vega肯定都要有,vega有的特性naive不一定有而且未来显存加成(无视售价就好)
早就该学老黄 分开
这样对游戏玩家和厂商都好,那些没用的功能都阉掉,加到专业卡上面去卖贵一些,他们又不差钱,这样游戏卡功耗下来了也好卖,能走量,专业卡利润也有保证
两个大小一样的die?有种不祥的预感,navi也许就是Vega的游戏版名字。。。归根结底都是祖传gcn,而AMD的专业卡份额远没有达到需要单独流个片的程度吧
虽然分两种流片,其实也有办法避免成本上升,只要晶圆上按一定比例分配两种核心,就不会分成两份光刻。试产时可以分开,等大批量的时候合一块就行了。
等一个显卡big little调度,调度控制用单核a7
数码家电「天猫618」抢100元大额券,先到先得!每满,大屏满减,惊爆狂欢!「天猫618」全民狂欢&嗨&购,理想生活上天猫!
250 能达到1080ti水平
没记错N卡的计算卡和游戏卡在能耗,频率方面差距很大,而且没法通过软件修改互相切换,N流片的时候恐怕就是2个芯片了。如果A总算想通了能积极跟进是个好消息。接下来就要看驱动了。只要N的新2代别突然硬件支持dx12,整个游戏行业也不会像当年那样滥用细分曲面。这点点计算的差距让cpu来遮掩吧。A的fx和GCN可以说是老黄cpu去掉浮点把计算移到gpu理论的坚定执行者了。你看N的CUDA在游戏中都不提了。
期待navi架构,不要再是gcn马甲了
我只希望,a卡能爆发下,可是每次都让人失望
看到消息就像假的。现在7nm的只能做200mm2的。250?。还有7nm的250mm2相当于多大的“14nm”?。你以为是x2?
有钱去流片,能分开当然最好了,这样产品针对性就更清晰了,而且功耗控制也会更优秀。。不过要是有专业需求的就只能买专业卡了,算是没了福利。不过千万不要在画质和色彩上缩水,不然就太坑爹了,以后大家都是灰白雾霾显示效果,恐怕都要瞎眼了。
去年底看到传言Navi也要加入DL单元,同时7nm继续做Vega,两套都要做DL,当时就听的莫名其妙
听说navi还是阿三留下来的东西,感觉不容乐观啊
难道不是一直分开的?最早 FirePro 只是同系列不同型号,到了 Radeon 加后缀。
我猜NAVI48的DIE面积是136MM2拥有3072个SP和480个光栅处理器,配个8G的DDR6,频率1.6G,热功耗270WVEGA64变成7NM后就200MM2的面积罢了,所以塞两块VEGA64组成VEGA128,然后基板内集成四块HBM2,我就猜到这个样了
这是好事啊, GPU原本也就是个ASIC, 非得搞通用计算 结果功耗飙升
登录百度帐号AMD 支持惠普进行密集计算工作负载
日 00:02&&&出处:&& 作者:张涵&&
泡泡网显卡频道2月28日&美国东部时间,日 - 公司(纳斯达克股票代码:)今天宣布,世界上最畅销的服务器1惠普ProLiant DL380 Gen9已经采用为高性能计算而生的 FirePro?S9150服务器GPU(图形处理单元)。AMD FirePro?服务器GPU与惠普ProLiant DL380 Gen9服务器结合,专门用于各种应用计算,包括学术和政府集群,石油和天然气研究和深度神经网络。强大的软件生态系统支持AMD FirePro?S9150服务器GPU,让开发人员能够更好地利用其计算性能,包括针对OpenCL?2.0的支持。 AMD FirePro?服务器GPU采用首款以计算负载为中心的AMD GCN架构,支持增强双精度浮点计算,双精度计算性能突破每秒2万亿次大关。借助16GB GDDR5显存和235瓦最大功耗,AMD FirePro s9150服务器GPU提供巨大计算性能,同时最大化可用的功率预算。 AMD专业显卡总经理Karl Freund表示:“我们很自豪能够为惠普服务器用户提供AMD FirePro服务器GPU和计算能力,来管理各种场景的密集型计算负载。惠普ProLiant DL380 Gen9服务器用户可以受益于开放标准,如OpenCL?和OpenMP,也能受益于GPU计算和多GPU支持。” 惠普机架式和塔式服务器副总裁和总经理Peter Schrady表示:“借助AMD FirePro GPU,惠普ProLiant DL380可以比以往更快地运行图形密集型应用程序。我们的政府、学术界和能源客户将会看到性能优势,让惠普ProLiant服务器帮助他们完成更多工作和任务。” 借助AMD Stream技术,客户将能够利用AMD FirePro s9150服务器GPU提供的大规模并行处理能力,加速图形之外的应用程序。AMD FirePro s9150服务器GPU特点: 2.53 TFLOPS峰值双精度性能 – 最高领先竞争产品277% 5.07 TFLOPS峰值单精度性能 – 最高领先竞争产品218% 业界领先的显存配置3 – 16GB GDDR5显存,512-bit显存界面,显存带宽高达320 GB/s 2816个流处理器(44个GCN计算单元) 支持纠错码 (ECC) 显存(仅限外部显存) 支持OpenCL? 2.04 最大功耗235瓦 AMD FirePro s9150服务器GPU通过开启OpenMP,支持各行业工作负载处理。OpenMP是在C、C ++和Fortran语言中实现高层次并行计算的API。在细分市场,如石油和天然气,计算机辅助工程与计算科学,许多组织都在OpenMP上进行了大量投资,以创建可扩展的工作负载。 AMD与PathScale公司合作支持OpenMP 4.0,将允许用户在这些HPC领域利用AMD FirePro s9150服务器GPU的计算能力。 此外,惠普ProLiant WS460c图形刀片服务器5采用了AMD FirePro? S4000X服务器GPU。凭借高品质的3D图形和多重显示功能,AMD FirePro? S4000X服务器GPU模块,为远程桌面提供了工作站级图形性能。AMD FirePro? S4000X服务器GPU在设计上考虑到刀片服务器和刀片工作站平台特点,每个模块最大功耗45瓦,包括2GB GDDR5显存,显存带宽高达72GB/s,并支持多达六个高分辨率远程显示设备6。 资源支持 详细了解 AMD FirePro专业显卡 详细了解 AMD FirePro S9150服务器显卡 详细了解AMD STREAM技术 详细了解惠普产品采用的AMD FirePro 关于AMD AMD(NYSE:AMD)设计并集成尖端技术,为包括个人电脑、平板电脑、游戏主机和云服务器等在内的数百万的智能设备提供强大动力,开启环绕计算的新时代。AMD解决方案让人们随时随地尽享其青睐设备和应用的全部潜力,不断创造新的可能。更多详情,敬请访问。 ?2015年,AMD公司版权所有。AMD,箭头标志,Enduro和FirePro是AMD公司的商标。其它名称只为提供信息的目的,也可能是各自所有者的商标。OpenCL和OpenCL标志是苹果有限公司的注册商标,由Khronos许可使用。 来源:& I全球服务器2014年第2季度跟踪报告,2014年8月 -& AMD FirePro? S9150 最大功耗235W,2.53 TFLOPS 峰值双精度性能,5.07 TFLOPS 峰值单精度性能。截止到2015年1月,市场上NVIDIA性能最高的单GPU服务器显卡是Tesla K40,最大功耗235W, 1.43 TFLOPS 峰值双精度性能,4.29 TFLOPS 峰值单精度性能。访问
获得NVIDIA产品规格 FP-97 AMD FirePro? S9150内建16GB GDDR5显存, 512-bit显存界面,高达320 GB/s显存带宽,截止到2015年1月,市场上NVIDIA性能最高的单GPU服务器显卡是Tesla K40,其内建12GB GDDR5显存,384-bit显存界面,高达288 GB/s显存带宽,访问
获得NVIDIA产品规格 FP-100 AMD计划在2015年第一季度为AMD FirePro? S9150显卡推出OpenCL 2.0驱动程序,一致性测试将在同期进行,AMD FirePro前代产品可能不支持 OpenCL 2.0。 AMD宽域技术在已启用的显卡上最多支持6台 DisplayPort显示器。支持的显示器数量、类型和分辨率根据型号和板卡设计而有所不同。部分AMD FirePro?专业显卡支持不同分辨率的显示器进行宽域配置,在购买之前请与制造商确认参数。在单一输出上开启2台以上或者多台显示器需要额外的硬件,如DisplayPort?显示器或者 DisplayPort 1.2 MST hub。消费系统推荐使用最多2张显卡,请访问 获得全部细节。■&
扯扯车精品文章推荐超越图形界限 AMD并行计算技术全面解析{精品}_显卡吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:3,221,965贴子:
超越图形界限 AMD并行计算技术全面解析{精品}收藏
&?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" /&&?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /&注明:自ZOL● 全文导读与内容简介&&&& 在日,AMD宣布推出全面支持OpenCL 1.1的ATI Stream软件开发包(SDK)2.2版,新版本的SDK为开发人员提供开发强大的新一代应用软件所需要的工具。这一版本的最大意义在于它表明了AMD在不断追求与开放性应用程序接口OpenCL的兼容,同时AMD再通过OpenCL快速提升其在业行内的影响力,毕竟借助这一标准,AMD和NVIDIA站在了统一起跑线上,OpenCL接口对于一个技术与标准的追随者来说是千载难逢的机会。&&&& 作为全世界成立较早和目前仍然具备绝对影响力的图形芯片生产厂商,ATI一直在探索图形芯片发展的方向,并在这25年发展历程中长期领跑GPU性能增长。自从统一渲染架构提出以来,ATI一直在寻求对这款架构的完善,我们看到继Xenos之后的在PC市场ATI设计了R600到R800一系列性耗比和性价比广受好评的架构。全面支持OpenCL 1.1的ATI Stream软件开发包(SDK)2.2版 不同厂商对于未来计算环境的考虑是有很大差异的,NVIDIA正在借助G80架构以来的特性不断加强GPU的通用性和编程易用性,其GPU内部大量单元用于逻辑控制和存储,而AMD则主要倾向于用最少的晶体管开销用于流处理器阵列的构建,用线程规模来掩盖延迟。总体来说,NVIDIA坚持的TLP(线程并行度)考验线程能力和并性能力,AMD坚持的ILP(指令并行度)则考验指令处理。&&&& 今天我们希望总结我们之前获得的大量资料,借助这篇文章对AMD并行计算技术做比较详细的特性分析。在文章的不同章节,我们将各有侧重地分析GPU并行计算的原理、发展历程、运算单元细节和目前我们能够找到的GPU通用计算实例。同时我们对Fermi架构、Fusion概念和Larrabee架构的特性做简单分析和预测,希望能让用户通过这些业界最为前瞻的产品找到未来GPU发展路径。
热销好货「天猫618」大牌尖货,限量特惠折上折,购物满就返红包,多买多得,不可错过!「天猫618」理想生活狂欢季,&嗨&购大品牌!
第一章:GPU工作原理与并行计算&&&& 我们将以21世纪视觉需求与GPU变化为开端回忆GPU从诞生以来的应用领域变革,通过GPU渲染流水线全面转向可编程浮点单元,GPU已经走向了并行应用,同时成为超级计算机不可或缺的部件。在目前备受关注的云计算领域,GPU同样可以发挥自己运算密度和并发线程数极高的特色,更多无法采购大型设备而急需计算资源的用户,将享受到GPU云计算带来的便利。
第二章:GPU结构与ATI芯片发展&&&& 我们将从R300架构开始回顾ATI GPU发展历程,同时和读者一起探讨不同结构流处理器指令细节,同时关注ATI第一代统一渲染架构Xenos对未来发展的影响。第三章:GPU通用计算发展与细节&&&& 这一章我们参考大量基础性资料来讲解CPU和GPU内部功能单元的异同,通过这些异同和它们的适用环境,我们了解到AMD提出的CPU+GPU异构计算平台能够借助更好的编程接口获得更好的加速比。这种方式比单纯给GPU增加调度能力或者给CPU增加并行度要更为实际,易用性也会得到解决。第四章:GPU内部的计算实现细节&&&& 这一部分我们关注CPU主要计算单元分布和职能,GPU内部通用计算代码运算过程,同时我们对浮点和整数能力做了进一步分析。这一章的亮点在GPU流处理器结构与性能分析部分,我们使用了较为专业的底层软件来对比不同架构的性能差异,对前文的分析做了数据佐证。第五章:ATI GPU通用计算实例分析&&&& 本章我们首先分析了Open CL接口对于ATI GPU未来发展的影响,然后列举了一些普通用户能够找到并且参与计算的分布式并行计算项目。文章最后的蒙特卡洛算法、N-body仿真和基于GPU的计算机病毒特征匹配来自《GPU精粹3》实例分析,我们希望这种具有普遍意义的项目和算法能够拓展未来的GPU应用深度和广度。
前言:通过GPU见证行业变革&&&& ● 前言:通过GPU并行计算见证行业最大变革&&&& 从1999年到现在从第一个显卡GPU产生到现在只有短短十年的时间。在这短短十年当中我们已经看到了GPU的运算能力呈几何级数提升,这个世界在GPU的虚拟之下更快更真,而更重要的一点是GPU已经将它的应用范围不断拓展。&&&& 从图形领域虚拟现实的角度来说,只要有显示终端的地方就需要一颗GPU。借助于GPU可以让医学家观察到更细微的分子;借助于GPU可以让军事演习的拟真度更强;借助于GPU可以让专业工作站的效率翻倍提升;借助于GPU可以让电影的特效骗过你的眼睛。&&&& 最近几年中当我们发现GPU的硬件结构能够适应极高并行度与大量浮点吞吐的运算环境,更多的科学研究领域已经开始大量采购GPU设备应用于电脑辅助工程、油气勘探、金融安全评估等领域。至此,GPU存在的意义已远远不是为图形运算服务这么简单。
高性能并行计算已经成为国家竞争力的重要标志之一,对科学技术进步、经济社会发展、生态环境保护和国家与公共安全的作用日益显著。但是,在超级计算机的峰值突飞猛进的同时,其投资大、运行维护成本高、使用效率低等问题也日渐突出,成为制约超算能力提升的瓶颈。&&&& 以低廉的成本和现成的网络设施实现高效的GPU超级计算技术越来越受到很多企业及科研单位的关注。GPU运算今天已经在产业界占有一席之地,尤其在科学模型模拟的运算上,都需仰赖GPU执行,动辄比一般中央处理器(CPU)还快出数十倍,甚至数百倍的复杂数学模型运算。&&&& 通过Shader单元的可编程性将GPU运用于图形运算之外的应用领域,是本世纪初计算机行业最大的变革,它标志着一种可大规模生产的高性能芯片正在渗透传统CPU掌控的高性能计算领域。借助GPU这种运算单元密集的芯片,各行业可以获取性价比和性耗比更高的运算解决方案。&&&& 曾今很多无法想象和耗费巨大的科学命题如全球气候变化、人类基因组工程等等问题如今可以借助GPU的运算能力以更快更经济的途径实现。作为这场变革的见证和参与者,我同样有幸通过媒体的宣传力量,来推动更多人对于GPU参与高性能计算的认识和理解。本文将通过介绍一个在传统图形领域的霸主——AMD GPU产品在通用计算技术方面的发展与技术细节。 产品:ATI Radeon HD 4850 显示芯片 第一章:GPU工作原理与并行计算&&&& ● 第一章:GPU工作原理与并行计算&&&& 10年前我们所有人都认为显卡服务于制图、动画、游戏等电子娱乐领域,这没有错。因为GPU(Graphic Processing Unit 图形处理器)发明的目的就是为了应对繁杂的3D图像处理。GPU的工作通俗的来说就是完成3D图形的生成,将图形映射到相应的像素点上,对每个像素进行计算确定最终颜色并完成输出。但是谁都没有想到10年后的今天,GPU的内部架构和应用范围已经发生了翻天覆地的变化。&&&& 随着GPU的可编程性不断增强,可编程浮点单元已经成为GPU内部的主要运算力量,并且调用越来越方便,编程门槛不断降低。GPU的应用能力已经远远超出了图形渲染任务,利用GPU完成通用计算的研究逐渐活跃起来,将GPU用于图形渲染以外领域的计算成为GPGPU(General Purpose computing on graphics processing units,基于GPU的通用计算)。&&&& 以前的服务器或者超级计算机都要拆除显卡这个多余的单元以减少发热和功耗,但是GPU通用计算时代的来临将板载GPU的显卡变为超级计算机不可或缺的加速部件。其实首款专门作流处理/并行计算的GPU产品并不是现在炒的火热的NVIDIA的Tesla产品,而是ATI的Fire Stream产品。早在2006年,ATI就发布了基于R580核心的流处理加速卡,48个像素渲染单元成为流处理器的雏形。&&&& R580核心相对于它之前的R520核心最明显的差异就是使用了20%的晶体管增量换来了200%的浮点吞吐量提升,这在当时绝对是一种创举。这种思路的提出是为了适应当时游戏编程环境越来越倚重渲染单元(Pixel Shader)运算,而这种思路的结果除了让ATI在DirectX 9.0时代末期赢得了性能王座之外,还造就了历史上第一款用于图形计算之外的Fire Stream产品
高性能并行计算发展迅速&&&&&&&& 放眼整个高性能并行计算领域,业界正在为X86架构CPU性能提升缓慢而感到担忧,特别是目前X86架构频率提升不断遇到障碍,并行度受制于传统CISC架构难以获得飞跃。超级计算机只能通过堆砌节点数量还换取性能提升吗?有没有一种性价比性耗比更高的解决方案?也许让每台PC机内置的GPU来处理这些并行数据再合适不过了。&&&& 在本章我们将分析GPU工作原理和历史沿革,并告诉读者这种芯片结构为什么能够适应大规模并行计算。同时我们在本章对目前业界所关注的高性能并行计算和云计算也做了简短分析。
21世纪视觉需求与GPU变化&&&& ● 21世纪视觉需求与GPU变化&&&& 日,我国首套GPU超级计算机“天河一号”由国防科学技术大学研制成功。这套计算机采用了创新的CPU+GPU异构计算设计,不但理论计算性能得到大幅提升,而且达到了很高的能效比。天河一号采用6144个Intel通用多核处理器和5120个AMD图形加速处理器,实测性能排列2009年6月TOP500第四位,峰值性能列第三位。我国首套GPU超级计算机“天河一号”&&&& 在此前的一年,全世界范围内已经出现了越来越多的搭载GPU的超级计算机,而随后的一年中,中国再次使用NVIDIA Tesla产品打造了全世界排名第二的超级计算机系统。之所以GPU频繁登陆大规模并行计算领域,是因为21世纪人类所面临的科研课题已经无法用传统的CPU架构来负责运算。&&&& 放下之前讨论的超级计算机回到图形领域,我们会发现21世纪视觉需求同样对硬件发展提出了近乎可不能完成的任务。无论是使用了当时全新游戏引擎的《毁灭战士3》(Doom 3)还是首次使用延迟渲染技术的《彩虹6号:维加斯》,直到DirectX 10时代测试显卡不可缺少的项目《孤岛危机》,都在给游戏玩家带来巨大震撼的同时考验着PC硬件的承受能力。DirectX 10时代测试显卡不可缺少的项目《孤岛危机》&&&& 实际上从1995年id software创作出第一款震惊世界的3D游戏《毁灭战士》开始,个人电脑3D游戏之路开始变得无限宽阔。甚至有一句话一直回荡在所有资深游戏玩家耳边“上帝花了6天创造了这个世界,id software和它的创始人、引擎师约翰•卡马克(John Carmark),则用6款游戏创造了个人电脑的3D世界。”
史诗电影《圆明园》&&&& 除了PC游戏应用对GPU发展的牵引力之外,专业渲染领域同样对强大的GPU运算能力充满渴求。我们在2006年看到了使用当时最先进GPU技术来制作的史诗电影《圆明园》,这部电影大规模使用电脑场景仿真动画技术,重现圆明园的瑰丽与辉煌。在国防军工方面,GPU也得到了广泛应用,最先进的战斗机上已经安装了专业GPU用于绘制目标标示和数据显示。大型军事视景仿真系统已经将一款高端的GPU芯片作为标配硬件。
GPU运算单元爆炸式增长&&&& GPU为了能够满足人类“贪婪”的视觉需求,内置了大量的运算单元,它们从负责三角形生成到顶点与像素的处理,特别是着色引擎为了更快更多实现图形渲染而迅速扩张,使得GPU的晶体管集成度以超越CPU摩尔定律3倍的速度发展,同一时期GPU的浮点吞吐速度也达到了CPU的十倍左右。产品:ATI Radeon HD 4850 显示芯片 从山峰渲染了解GPU图形流水线&&&& ● 从山峰渲染了解GPU图形流水线&&&& 在这一部分,笔者将和大多数初识GPU的爱好者一道探寻GPU的渲染步骤,我们使用一座山峰的渲染历程来帮助大家简单理解GPU图形流水线的工作原理。简单的说:GPU主要完成对3D图形的处理——图形的生成渲染。
从山峰渲染看GPU图形流水线&&&& 1、顶点生成&&&& 图形学API(应用程序接口)用最初级的图元(点、线、三角形)来表示物体表面。每个顶点除了(x,y,z)三维坐标属性外还有应用程序自定义属性,例如位置、颜色、标准向量等。结合到我们看到的这座山峰,首先GPU从显存中读取描述山峰3D外观的顶点数据。&&&& 2、顶点处理&&&& 这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系,建立起3D图形的骨架。在支持DX8和DX9规格的GPU中,这些工作由硬件实现的Vertex Shader(顶点着色器)完成。这个阶段中GPU生成一批反映山峰三角形场景位置与方向的顶点。&&&& 3、光栅化计算&&&& 显示器实际显示的图像是由像素组成的,我们需要将上面生成的图形上的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如,一条数学表示的斜线段,最终被转化成阶梯状的连续像素点。&&&& 在屏幕空间内生成山峰顶点之后,这些顶点被分为三角形图元,GPU内的固定单元会对这些山峰图元做光栅化过程,相应的片元**也就随之产生。
4、纹理帖图&&&& 顶点单元生成的多边形只构成了3D物体的轮廓,而纹理映射(texture mapping)工作完成对多变形表面的帖图,通俗的说,就是将多边形的表面贴上相应的图片,从而生成“真实”的图形。TMU(Texture mapping unit)即是用来完成此项工作。&&&&
5、像素处理这个阶段(在对每个像素进行光栅化处理期间)GPU完成对像素的计算和处理,从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中,这些工作由硬件实现的Pixel Shader(像素着色器)完成。&&&& 像素操作用每个片元的屏幕坐标来计算该片元对最终生成图像上的像素的影响程度。在这个阶段Pixel Shader(像素着色器)从显存中读取纹理数据对山峰片元上色并渲染。&&&& 6、最终输出:&&&&&&&& 产品:ATI Radeon HD 4850 显示芯片 CPU与GPU的设计方向决定运算能力&&&& ● CPU与GPU的设计方向决定运算能力 &&&& 近30年来,由Intel、IBM、SUN、AMD和富士通生产的通用CPU虽然有了很大发展,但性能提高速度却已经不能与上世纪八十年代末九十年代初相比。单线程处理性能在很大程度上受到了限制。这些限制一方面来自于通用计算程序中过低的指令级并行;另一方面来自于“功率墙(Power Wall)”——集成电路的功率消耗的物理限制。&&&&&&&& 举例说,在Folding@home项目中,一款中端显卡一天24小时可以计算10个左右的大分子蛋白质折叠,而一款酷睿2双核E7200处理器的一个核心在24小时内完成一个小分子包运算任务都非常困难。CPU和GPU在高密度多线程浮点运算中体现出的性耗比差异,相信大家已经非常清楚。在这一节,我们将着重分析GPU相对于CPU的架构优势。
5、像素处理这个阶段(在对每个像素进行光栅化处理期间)GPU完成对像素的计算和处理,从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中,这些工作由硬件实现的Pixel Shader(像素着色器)完成。&&&& 像素操作用每个片元的屏幕坐标来计算该片元对最终生成图像上的像素的影响程度。在这个阶段Pixel Shader(像素着色器)从显存中读取纹理数据对山峰片元上色并渲染。&&&& 6、最终输出:&&&& 由ROP(光栅化引擎)最终完成像素的输出,1帧渲染完毕后,被送到显存帧缓冲区。AA即多重采样,对ROP性能和图形卡带宽有相当的压力。而各项异性过滤则对TMU带来更多的负担。&&&& 这个阶段由ROP单元完成所有山峰像素到帧缓冲区的输出,帧缓冲区内的数据,经过D/A转换输出到显示器之后,我们就可以看到绘制完成的山峰图像。产品:ATI Radeon HD 4850 显示芯片 CPU与GPU的设计方向决定运算能力&&&& ● CPU与GPU的设计方向决定运算能力 &&&& 近30年来,由Intel、IBM、SUN、AMD和富士通生产的通用CPU虽然有了很大发展,但性能提高速度却已经不能与上世纪八十年代末九十年代初相比。单线程处理性能在很大程度上受到了限制。这些限制一方面来自于通用计算程序中过低的指令级并行;另一方面来自于“功率墙(Power Wall)”——集成电路的功率消耗的物理限制。&&&&&&&& 举例说,在Folding@home项目中,一款中端显卡一天24小时可以计算10个左右的大分子蛋白质折叠,而一款酷睿2双核E7200处理器的一个核心在24小时内完成一个小分子包运算任务都非常困难。CPU和GPU在高密度多线程浮点运算中体现出的性耗比差异,相信大家已经非常清楚。在这一节,我们将着重分析GPU相对于CPU的架构优势。
技术贴果断留名 学习
CPU和GPU架构差异很大,CPU功能模块很多,能适应复杂运算环境;GPU构成则相对简单,目前流处理器和显存控制器占据了绝大部分晶体管。CPU中大部分晶体管主要用于构建控制电路(比如分支预测等)和Cache,只有少部分的晶体管来完成实际的运算工作。
CPU和GPU逻辑架构对比&&&& 而GPU的控制相对简单,而且对Cache的需求小,所以大部分晶体管可以组成各类专用电路、多条流水线,使得GPU的计算速度有了突破性的飞跃,拥有了惊人的处理浮点运算的能力。现在CPU的技术进步正在慢于摩尔定律,而GPU(视频卡上的图形处理器)的运行速度已超过摩尔定律,每6个月其性能加倍。&&&& CPU的架构是有利于X86指令集的串行架构,CPU从设计思路上适合尽可能快的完成一个任务;对于GPU来说,它的任务是在屏幕上合成显示数百万个像素的图像——也就是同时拥有几百万个任务需要并行处理,因此GPU被设计成可并行处理很多任务,而不是像CPU那样完成单任务。
虽说是转载的不过补充了很多知识
CPU内部架构&&&& 当今CPU仅前端部分就非常复杂,指令解码、分支预测等部分消耗晶体管数量巨大。CPU的设计目标是不仅要有很高的吞吐量,还要有良好的应用环境兼容性,CPU所要面对的应用面远远超过了GPU。CPU是设计用来处理通用任务的处理、加工、运算以及系统核心控制等等的。CPU中包含的最基本部件有算术逻辑单元和控制单元,CPU微架构是为高效率处理数据相关性不大的计算类、复杂繁琐的非计算类的等工作而优化的,目的是在处理日常繁复的任务中应付自如。&&&& GPU设计的宗旨是实现图形加速,现在最主要的是实现3D图形加速,因此它的设计基本上是为3D图形加速的相关运算来优化的,如z-buffering消隐,纹理映射(texture mapping),图形的坐标位置变换与光照计算(transforming & lighting)等等。这类计算的对象都是针对大量平行数据的,运算的数据量大。但是GPU面对的数据类型比较单一,单精度浮点占到其处理数据的绝大多数,直到GTX200和HD 4800系列显卡才对双精度运算提供了支持。产品:ATI Radeon HD 4850 显示芯片 GPU并行编程为何加速发展&&&& ● GPU并行编程为何加速发展&&&& 回到我们刚开始讨论的地球科学、医学研究与金融建模那些计算问题,可能有很多读者会问到“为什么要花这么大力气将传统CPU上运行的程序移植到GPU环境中运行?”答案其实很简单——追求更高的性价比和性耗比。
GPU能够明显加速算术密集型并行计算任务&&&& 虽然GPU并不适用于所有问题的求解,但是我们发现那些对运算力量耗费巨大的科学命题都具备天然的“算术密集型”特色。这类程序在运行时拥有极高的运算密度、并发线程数量和频繁地存储器访问,无论是在音频处理、视觉仿真还是到分子动力学模拟和金融风险评估领域都有大量涉及。这种问题如果能够顺利迁移到GPU为主的运算环境中,将为我们带来更高效的解决方案。
浮点能力首次超越1TFLOPS的ASCI Red超级计算机&&&&&&&&
&&&& 该机器的原型使用的是英特尔的Pentium Pro处理器,每个处理器的时钟频率达到200MHz,后来才升级到Pentium II OverDrive处理器。升级后的系统拥有9632个处理器,每个处理器的主频为333MHz。ASCI Red超级计算机由104个机柜组成,占地面积达到了230平方米。
廉价的1TFLOPS解决方案——Radeon HD4000系列产品&&&& 时间一晃而过到2008年,ATI发布了统一渲染架构下的第二代PC领域GPU产品——Radeon HD4000系列产品,其中定位在中高端市场的Radeon HD4850显卡在当时使用了800个频率达到625MHz的流处理器,仅用110W的耗电带来了1TFlops的运算能力。这时人类获取1TFlops的经济支出仅为199美元。
一款HD5870相当于177台深蓝超级计算机节点&&&& 仅仅一年之后,ATI再次发力优化统一渲染架构,发布了Radeon HD5000系列产品,其中高端产品HD5870已经集成了2.7 TFlops运算能力。这颗GPU的问世标志着ATI已经成熟掌握了40nm制程工作、DirectX 11应用程序接口和吞吐带宽极高的DDR5显存。同时这颗GPU的运算能力相当于177台深蓝超级计算机节点。&&&& 传统意义上的GPU不善于运行分支代码,但是ATI和NVIDIA经过长期改进其内部架构已经使得GPU可以较为高效地运行分支、循环等复杂代码。同时因为GPU属于并行机范畴,相同的运算可以应用到每个数据元素的时候,它们可以达到最好的性能。在CPU编程环境中,写出每个输入数据元素有不同数量的输入的程序很容易,但在GPU这种并行机上还是有不少麻烦。&&&& 通用的数据结构正是GPU编程的最大困难之一。CPU程序员经常使用的数据结构如列表和树在GPU身上并不容易实现。GPU目前还不允许任意存储器访问,而且GPU运算单元的设计为主要操作是在表现位置和颜色的四维向量上。&&&& 不过这些并不能阻挡GPU编程的加速发展,因为GPU不是真的为通用计算而设计的,需要一些努力才能让GPU高速地服务通用计算程序。这些努力前些年是程序员而单独实现的,而随着ATI和NVIDIA开始看到高性能计算市场的硬件需求,我们看到无论是Fermi架构添加全能二级缓存和统一定址还是RV870架构不断优化LDS并放大并发线程数,这些都是GPU自身硬件体系为了适应未来的运算环境而做出的变革
GPU并行计算已成未来趋势&&&& ● GPU并行计算已成未来趋势&&&& 无数游戏玩家疯狂的购买力已经使得GPU这种芯片的价格下跌到只要花一百美元就能买到一颗性能级GPU产品,那为什么不大面积部署这种产品,来降低超级计算机的价格呢?从2006年的第一款Fire Stream产品开始,业内人士已经发现了GPU在处理大并行度程序时所表现出的超常性能。&&&& 在传统的GPU种,Shader单元从出现(2001年DirectX 8发布标志着Shader单元出现)到运算能力迅速提升(2007年Geforce 8800GTX发布,通用计算影响力显著扩大)经过了很长时间。在这段时间里,显卡对于高端大规模并行运算是毫无价值的,即使有少量业界先行者开始了思考和研究,也无法形成对整个产业的影响力。GPU开始应用于超级计算机&&&& 这个阶段在超级计算机与集群中,往往要拆除“多余的”显卡以节能功耗,而自从AMD公司的Stream架构NVIDIA公司的CUDA架构奠定了GPU通用计算地位之后,现在的设计开始逐渐采用大量GPU来获得更加廉价和绿色的计算能力。CUDA的强大性能引发了一场通用计算革命,这场革命将极大地改变计算机的面貌。&&&& 但是随着GPU的可编程性不断增强,GPU的应用能力已经远远超出了图形渲染任务,利用GPU完成通用计算的研究逐渐活跃起来,将GPU用于图形渲染以外领域的计算成为GPGPU(General Purpose computing on graphics processing units,基于GPU的通用计算)。&&&& 而与此同时CPU则遇到了一些障碍,CPU为了追求通用性,将其中大部分晶体管主要用于构建控制电路(比如分支预测等)和Cache,只有少部分的晶体管来完成实际的运算工作。在CPU上增加并行度已经变得越来越困难,虽然HTT超线程技术在Intel的推广下得以应用在自家的高端CPU中,但是目前单颗CPU所拥有的最大线程数还只是12个。&&&& 我们已经习惯了计算机核心性能的不断提升,而且似乎认为这是理所当然的事。因为传统芯片的性能提升可以依赖芯片制造工艺的进步。这种进步我们通常用摩尔定律来概括。1965年Intel的创始人戈登•摩尔(Gordon Moore)通过长期的对比研究后发现:CPU中的部件(我们现在所说的晶体管)在不断增加,其价格也在不断下降。“随着单位成本的降低以及单个集成电路集成的晶体管数量的增加;到1975年,从经济学来分析,单个集成电路应该集成65000个晶体管。”Intel此后几年的发展都被摩尔提前算在了纸上,使人们大为惊奇,“摩尔定律”也名声大振。为了让人们更直观地了解摩尔定律,摩尔及其同事总结出一句极为精练的公式 “集成电路所包含的晶体管每18个月就会翻一番”。
Intel定义的摩尔定律与晶体管数量增长&&&& 将摩尔定律简单应用在芯片集成度的增长方面,我们可以得出这在今天意味着:每年单芯片中可以大约多放置50%的元件。这种技术表面上为我们的芯片发展铺平了道路,虽然大多数趋势是向好的。比如说20年前芯片设计者刚刚开始把浮点运算单元FPU集成到CPU核心,但是20年后这个单元制占用1平方毫米不到的空间,而且同一个核心上可以放置上百个浮点运算单元。&&&& 但是这种性能提升并不是无止境的,而且这些技术发展最重要的后果是它们之间的区别。当某一指标变动速度和其他指标变动速率不同时,我们就需要重新考虑在芯片和系统设计背后的假设。换而言之目前CPU已经遇到了非常严重的计算与通信障碍、存储器延迟与带宽障碍和发热与功耗。而GPU在这3个方面表现显然要比CPU更为出色,在后文我们将详细分析GPU在这诸多方面的特性。产品:ATI Radeon HD 4850 显示芯片 初识高性能并行计算&&&& ● 初识高性能并行计算&&&& 并行计算是指同时对多个任务或多条指令、或对多个数据项进行处理。完成此项处理的计算机系统称为并行计算机系统,它是将多个处理器(可以几个、几十个、几千个、几万个等)通过网络连接以一定的方式有序地组织起来(一定的连接方式涉及网络的互联拓扑、通信协议等,而有序的组织则涉及操作系统、中间件软件等)。
并行计算的主要目的:一是为了提供比传统计算机快的计算速度;二是解决传统计算机无法解决的问题。同时科学与工程计算对并行计算的需求是十分广泛的,但所有的应用可概括为三个方面:&&&& 1、计算密集型(Compute-Intensive)&&&& 这一类型的应用问题主要集中在大型科学工程计算与数值模拟(气象预报、地球物理勘探等)。 &&&& 2、数据密集型 (Data-Intensive)&&&& Internet的发展,为我们提供了大量的数据资源,但有效地利用这些资源,需要进行大量地处理,且对计算机的要求也相当高,这些应用包括数字图书馆、数据仓库、数据挖掘、计算可视化。&&&& 3、网络密集型 (Network-Intensive)&&&& 通过网络进行远距离信息交互,来完成用传统方法不同的一些应用问题。如协同工作、遥控与远程医疗诊断等。并行度极高的RV870拥有1600个流处理器&&&& GPU所擅长应对的并行计算问题,正是我们之前提到的计算密集型(Compute-Intensive)问题。因为GPU内部大量充斥着ALU运算单元阵列,这种单元应对并行度高运算密度大的问题比CPU获取的加速比要高很多倍。
理解串行运算与并行运算&&&& 通过上图我们可以较为容易地理解串行运算和并行运算之间的关系。传统的串行编写软件具备以下几个特点:要运行在一个单一的具有单一中央处理器(CPU)的计算机上;一个问题分解成一系列离散的指令;指令必须一个接着一个执行;只有一条指令可以在任何时刻执行。&&&& 而并行计算则改进了很多重要细节:要使用多个处理器运行;一个问题可以分解成可同时解决的离散指令;每个部分进一步细分为一系列指示;每个部分的问题可以同时在不同处理器上执行。产品:ATI Radeon HD 4850 显示芯片 高性能并行计算发展历程&&&& ● 高性能并行计算发展历程&&&& 计算机的起源可以追溯到欧洲文艺复兴时期。16-17 世纪的思想解放和社会大变革,大大促进了自然科学技术的发展,其中制造一台能帮助人进行计算的机器,就是最耀眼的思想火花之一。&&&& 1614年,苏格兰人John Napier 发表了关于可以计算四则运算和方根运算的精巧装置的论文。1642年,法国数学家Pascal 发明能进行八位计算的计算尺。1848 年,英国数学家George Boole创立二进制代数学。1880 年美国普查人工用了7年的时间进行统计,而1890年,Herman Hollerith用穿孔卡片存储数据,并设计了机器,仅仅用了6个周就得出了准确的数据(62,622,250人)。1896 年,Herman Hollerith 创办了IBM公司的前身。这些" 计算机",都是基于机械运行方式,还没有计算机的灵魂:逻辑运算。而在这之后,随着电子技术的飞速发展,计算机开始了质的转变。&&&& 1949年,科学杂志大胆预测“未来的计算机不会超过1.5 吨。”真空管时代的计算机尽管已经步入了现代计算机的范畴,但其体积之大、能耗之高、故障之多、价格之贵大大制约了它的普及应用。直到1947 年,Bell实验室的William B. Shockley、John Bardeen和Walter H. Brattain. 发明了晶体管,电子计算机才找到了腾飞的起点,开辟了电子时代新纪元。&&&& 40年代开始的现代计算机发展历程可以分为两个明显的发展时代:串行计算时代、并行计算时代。&&&& 并行计算机是由一组处理单元组成的,这组处理单元通过相互之间的通信与协作,以更快的速度共同完成一项大规模的计算任务。因此,并行计算机的两个最主要的组成部分是计算节点和节点间的通信与协作机制。并行计算机体系结构的发展也主要体现在计算节点性能的提高以及节点间通信技术的改进两方面。
精品贴吗,顶一个
IBM360大型主机(Mainframe)&&&& 60年代初期,由于晶体管以及磁芯存储器的出现,处理单元变得越来越小,存储器也更加小巧和廉价。这些技术发展的结果导致了并行计算机的出现,这一时期的并行计算机多是规模不大的共享存储多处理器系统,即所谓大型主机(Mainframe)。IBM360是这一时期的典型代表。&&&& 1976年CRAY-1 问世以后,向量计算机从此牢牢地控制着整个高性能计算机市场15 年。CRAY-1 对所使用的逻辑电路进行了精心的设计,采用了我们如今称为RISC 的精简指令集,还引入了向量寄存器,以完成向量运算。&&&& 80年代末到90年代初,共享存储器方式的大规模并行计算机又获得了新的发展。IBM将大量早期RISC微处理器通过蝶形互连网络连结起来。人们开始考虑如何才能在实现共享存储器缓存一致的同时,使系统具有一定的可扩展性(Scalability)。90年代初期,斯坦福大学提出了DASH 计划,它通过维护一个保存有每一缓存块位置信息的目录结构来实现分布式共享存储器的缓存一致性。后来,IEEE 在此基础上提出了缓存一致性协议的标准。一个基于NUMA架构的SMP服务器&&&& 90年代以来,主要的几种体系结构开始走向融合。属于数据并行类型的CM-5除大量采用商品化的微处理器以外,也允许用户层的程序传递一些简单的消息;CRAY T3D是一台NUMA结构的共享存储型并行计算机,但是它也提供了全局同步机制、消息队列机制,并采取了一些减少消息传递延迟的技术。&&&& 今天,越来越多的并行计算机系统采用商品化的微处理器加上商品化的互连网络构造,这种分布存储的并行计算机系统称为机群。国内几乎所有的高性能计算机厂商都生产这种具有极高性能价格比的高性能计算机,并行计算机就进入了一个新的时代,并行计算的应用达到了前所未有的广度和深度。产品:ATI Radeon HD 4850 显示芯片 高性能并行计算单元分类&&&& ● 高性能并行计算单元分类&&&& 受到工艺、材料导致的功耗和发热等物理限制,处理器的频率不会在短时间内有飞跃式的提高,因此采用各种并行方式来提高运算能力已经成为业界共识。在现代的CPU中我们看到设计者广泛使用了超标量、超流水线、超长指令字,SIMD、超线程、分支预测等手段挖掘程序内的指令集并行,并且主流的CPU也有多个处理核心。而GPU与生俱来就是一种“众核”并行处理器,在处理单元的数量上还要远远超过CPU。&&&& 实际上我们之前所讲到的并行是一个非常笼统的概念,并行根据层次不同可以分为几种方式,我们可以将各个层级的并行在这里简单分析:&&&& 最为微观的是单核指令级并行(ILP),它可以让单个处理器的执行单元同时处理多条指令:向上一个层级是多核并行,它的实现方式是在一个芯片上放置多个物理核心,实现线程级别并行(TLP);再向上则是多处理器并行(Mutil-Processor),它的实现方法是在一块主板上安装多个处理器,以实现线程和进程级别并行;最后可以借助网络实现大规模集群或分布式并行(Cluster and Distributed Parallel),这种环境中每个节点就是一台计算机,可以实现更大规模的并行计算。&&&& Flynn(1966年)分类法是根据系统的指令流和数据流对计算机系统进行分类的一种方法。Flynn分类法通过鉴定数据流和指令流来区分不同类型的计算机系统。其中以下几种就是Flyuu分类法得出的计算机结构:&&&& SISD单指令流单数据流 (Single Instruction stream Single Data stream)SIMD单指令流多数据流 (Single Instruction stream Multiple Data stream)MISD 多指令流单数据流(Multiple Instruction stream Single Data stream)MIMD多指令流多数据流 (Multiple Instruction stream Multiple Data stream)
登录百度帐号