malig76相当于高通855哪款处理器

原标题:浅析Arm全新Mali G76 GPU:全方位进化但仍不足与高通苹果匹敌

距离Arm公布代号Bifrost的次世代GPU架构并推出Mali G71核心已经两年了, 然而作为先锋的Mali G71在麒麟960和Exynos 8895中的表现都不尽人意其功耗之高明显超出了预期。之后的Mali G72是一款更为合理的产品它更接近Bifrost架构所承诺的能效目标,在麒麟970和Exynos 9810上实现了100%的能效提升

今天,Arm公布了Mali G72的后續产品也是Bifrost系列的最新产品:Mali G76,目标非常明确:提高单位功耗性能和单位面积性能并尽可能地赶超竞争对手。Arm承诺在台积电7nm工艺的支撑下,使用Mali G76的下一代SoC性能可提高50%

横向来看,Mali G76重点改善了三个关键指标首先是性能密度提高了30%,这意味着GPU面积不变性能可提高30%;或者在性能相同时,可缩小约24%的GPU面积其次,Mali G76的微架构效率提升了30%这要归功于架构内功能块的整合。最后Arm为Mali G76添加了新的专用8位点積指令,使其机器学习推理性能提高了2.7倍

对于Arm的GPU设计来说,Bifrost已经是一个现代的图形架构3D图形技术在过去的两年中也没有发生重大变革。Mali G76在图形特性方面和Mali G72完全一样变化集中在图形计算过程中。

与Mali G72相比Mali G76在架构上的优化幅度更大。虽然它仍是Bifrost架构但GPU的工作方式发生了佷大变化。无论在移动GPU还是桌面GPU领域Mali G76都是单个图形体系版本迭代中变化最大的之一。

前代Mali G71/G72的每个EU模块中包含4组FMA和ADD/SF流水线并组成一个线程粒度Arm将这种模块结构称为“Quad”。随着技术和应用的发展以及移动GPU在VR和高画质游戏领域的压力不断增加Quad结构的运算效率已逐渐无法满足需求。

根据Arm的数据Mali G76为了进一步提高架构的性能和面积效率,将GPU内的基础计算模块的规模增加了一倍单个EU内拥有8组FMA和ADD/SF流水线。全新EU结构嘚面积并没有大幅增加相比前代只提升了22%,但性能却得到了显著提升

这是一个非常有趣的变化,通常来说线程粒度的尺寸通常代表着硬件架构的典型特性PC GPU的线程粒度已经有许多年没有变动过了,NVIDIA自2006年至今一直保持着32宽度AMD则从2011年至今一直使用64宽度。

此前Bifrost架构所用的Quad结構相比竞争对手架构的线程粒度(16~32宽度)要小很多。通常来讲线程粒度反映了架构在资源/面积密度和性能之间的平衡点,较大的线程粒度可节省控制逻辑单元数量(单个32宽度线程粒度只需1个控制逻辑单元而8个4宽度线程粒度需要8个控制逻辑单元)。

但线程粒度越大控淛单元填充它就越困难。Arm的GPU哲学总体上注重的是尽量避免执行停滞通过使用更小的线程粒度降低线程发散的可能性。分割线程虽然并不難但也会造成性能损失。

Arm在推出Bifrost架构时表示他们采用了4宽度线程粒度,以减少因线程发散所造成的ALU(算术逻辑单元)闲置这从理论仩看是一种很好的策略,如果运算中有大量分支代码那么因线程发散而闲置的ALU就没有了任何价值。

然而对于一个很小的线程粒度来说控制逻辑单元与ALU的比率太高了,浪费了大量硬件规模Mali G76换用8宽度线程粒度后,降低了控制逻辑单元与ALU的比率在ALU吞吐量翻倍的情况下,EU模塊的规模只比之前4宽度线程粒度时增加了28%

虽然Arm并没有做出更明确的解释,但雷锋网认为此次改变其实反映出Arm此前4宽度线程粒度的设计有些一厢情愿了实际游戏中几乎用不到这么小的尺寸。更致密的Quad结构也有助于扩充架构规模Arm可以在单位面积上塞入更多ALU以提升性能。

与此同时为了匹配翻倍的Quad尺寸,Arm将相应的缓存和通道也增加了一倍虽然Arm没有正式披露Quad的寄存器堆栈大小,但他们已经证实Mali G76的寄存器堆栈與Mali G72一样每通道有64个寄存器,因而寄存器堆栈的压力并没有变化

在像素和纹理方面,Mali G76也使用了双单元方案每周期可以处理两个像素或兩个纹理,ALU与像素和纹理单元的比例与之前保持一致

在相同的时钟速度下,Mali G76的浮点运算、纹理和像素吞吐量都增加了一倍实际性能的提升幅度也应基本相仿。在某种意义上Arm是将两个Mali G72核心融合成了一个Mali G76核心,但Mali G76达到Mali G72翻倍的性能只需132%的芯片面积理论上单位面积性能提升叻50%。

虽然Arm大幅强化了Bifrost架构的图形渲染性能但这不是Mali G76核心的唯一改变,机器学习性能的提升也是此次的重头戏

Arm为Mali G76的ALU强化了int8格式的支持,這一数据格式是处理神经网络的关键操作在机器学习推理非常重要,尽管8位整数的精度有限但在很多情况下仍然足以进行基本推理。

雖然此前Mali G71/G72也可通过打包4个int8数据的方法进行计算但Mali G76是第一个原生支持单周期处理int8的Mali核心。根据工作负载和机器学习框架的不同Mali G76的机器学習性能相比Mali G71/G72提升了约2.7倍。

同时Arm研究发现影响GPU性能的另一个潜在瓶颈是回写机制。如果GPU在一个多边形回写过程中停滞则很可能会阻塞GPU的其他部分。Arm将Mali G76从有序回写机制转变为无序回写机制允许通过绕过那些回写延迟来更灵活地回写多边形。

此外Arm还优化了Mali G76块缓冲在某些情況下色彩缓冲被耗尽时,可临时溢出到深度缓冲中这样可以减少对主内存进行访问的次数,以尽可能保持GPU核心的本地流量Mali G76的线程本地存储机制也相应的针对寄存器溢出处理进行了优化,GPU会将溢出的数据块分组在一起以利于将来获取

Arm的GPU核心设计一向都是组团群P的思路,通过堆砌核心数量来抗衡高通Adreno的大核心无敌策略

与三星的狂堆核心数相比,麒麟970和960则只使用了中等数量的核心然后通过拉高核心频率來榨取性能。然而雷锋网在上篇分析Cortex A76的文章中提到过每种核心架构在某一工艺下,都有一个能耗比最佳的频率区间越过这个区间后,繼续拉高频需要付出极大的功耗代价

考虑到实际使用中的情况,以及Mali G76核心规模的扩充Arm决定将Mali G76的最大核心数量下调至20核心。通过将功能模块和执行引擎整合到更少的“内核”中来提高内核的性能密度可显着改善GPU的单位面积性能。据估计Mali G76在曼哈顿3.1测试中,每mm?性能提升了39%

总的来说,Mali G76的进步非常明显——单位面积性能提高了30%且功耗表现也有很大改善。然而雷锋网认为尽管Mali G76将大大提高Arm公版GPU的竞争力,泹依然不足以借此一役赶超竞争对手

在微架构优化方面,Arm的确在整合核心和加强核心方面做出了正确的选择Arm公版GPU的多核心策略是一把雙刃剑,它虽然允许厂商根据自身需求配置核心数量但多核心也会导致不可避免的性能和面积损耗。Arm虽然预测了Mali G76 MP12的表现但与高通Adreno 630和苹果A11的GPU相比,12核依然太多了

目前,雷锋网非常关注Mali G76在实际芯片中能有怎样的表现同时希望Arm在未来能将每个EU的计算资源再增加一倍,这很鈳能将再次带来巨大的改进进一步缩小与竞争对手的差距。

Filippo表示Cortex A76相当于i5-7300,如果IP厂商缓存设計得更好那么可以媲美i7。当然演示中3.3GHz的A76功耗超过了5W,这对于手机来说肯定是不可接受的笔记本倒还好。

官标的数据方面基于台积電7nm工艺的3GHz A76核心比10nm 2.8GHz的A75核心性能提升35%、省电40%、机器学习的负载能力提升4倍。

关于详细的架构资料需要时间整理一个目前看到值得一说的参数昰从A73的三发射升级为四发射。Mali-G76Bifrost家族新品

Mali G76的性能密度提升了30%,节电30%用于手机的图形性能会提高50%,现在可以支持最高8K分辨率的屏幕了

Mali G7x都昰每核心三个执行单元,G76将执行单元的线程数从G72的4条增加到8条也就是每核心24条线程,不过Mali G76的总核心配置上限从32核降为20核

2倍的性能。新嘚纹理映射器相较G723D渲染吞吐量翻倍。A76和G76预计将在2019年的智能手机上登场当然,ARM希望能在笔记本形态上和Intel有实力过过招骁龙950/1000要用?日前知名爆料人Roland Quandt首次释放了“骁龙850”的消息,它表示这颗SoC相当于高频版的骁龙845,设计目标在3GHz不过,它的定位并非是智能手机而是Windows 10 on ARM笔记夲电脑。

去年Win10 on ARM推出了三款基于骁龙835处理器的ACPC(全互联PC),不过由于性能所限加之编译器并不成熟,运行Win32 exe的效率比较低下只是,对于這个新兴的平台微软、高通、ARM以及PC OEM厂商似乎兴趣依然非常浓厚。微软已经承诺将为其添加64位UWP/exe兼容性支持、ARM今天发布了高性能的新公版架構Cortex A76+Mali G76高通和OEM厂商也有进一步的动作。

同样是来自德媒WinFuture站长兼知名爆料人Roland他透露,除了骁龙850高通还在为Win10笔记本定制“骁龙950”、“骁龙1000”產品。这里要特别注意的是Roland对高通在准备面向Win10平台的高性能ARM SoC是非常笃定的,但是高通最终会否采用骁龙950、骁龙1000的命名只是目前一种纸面嘚推演不具备很强的参考性。这些全新芯片希望通过先进的工艺、紧凑的电路板、集成LTE甚至5G基带的天然优势来冲击被Intel/AMD x86处理器占据的二合┅产品、入门/主流级别笔记本市场虽然ARM在今天的TechDay中表示A76相当于i5-7300,但在WinFuture看来“骁龙950”“骁龙1000”的对手其实是7代Core Y系列SoC。据悉代号Primus的华硕筆记本可能会是“骁龙950/1000”的首波产品,Rolant称它已经完工最快年底或者明年初与消费者见面。

『本文转载自网络,版权归原作者所有,如有侵权請联系删除』

本站资讯文章系编辑转载转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责如涉及作品内容、版權和其它问题,请在30日内与本站联系我们将在第一时间删除内容!
[声明]本站文章版权归原作者所有 内容为作者个人观点 本站只提供参考並不构成任何投资及应用建议。
本站拥有对此声明的最终解释权

随着竞技类手游的兴起智能手機对3D图形渲染/运算能力提出了更加苛刻的要求。同时4K超高清录制、手机端的视频编辑、AR和VR等娱乐应用类的体验,也都少不了GPU(以及CPU和ISP等單元)的参与换句话说,在CPU性能基本够用的今天来自GPU层面的“核战争”已经无法避免。那么在智能手机领域值得我们关注的GPU都有哪些呢?

先从三星和AMD的携手谈起

在2019年6月初手机圈传出了一个重磅的消息——AMD与三星联合宣布达成多年战略合作伙伴关系,三星将获得AMD Radeon图形API授权并专注于加强移动设备(只限智能手机和平板电脑等AMD没有参与竞争的细分市场)创新至关重要的高级图形技术和解决方案官方透露嘚细节不多,暂时只能确认AMD会将“高度可扩展的RDNA图形架构”对三星授权

那么,RDNA是什么

DNA)是AMD在显卡领域推出的最新GPU架构,它是史上最长壽GPU架构“GCN”(2011年~2019年)的接班人其在CU计算单元、缓存、流水线等方面都进行了革新,拥有更好的性能(满足现代游戏的负载需求)、能效(充分优化功耗和带宽利用率)、功能(壮大相关生态)和扩展能力(通吃移动、桌面和云端)可以说,RDNA是一个全方位重新设计的架构也开启了AMD显卡历史上第五个重大架构的新时代。

那么三星未来的Exynos(猎户座)移动平台会直接集成RDNA架构的GPU吗?

答案自然是否定的AMD长期鉯来都缺乏ARM生态的经验(AMD曾涉足过ARM服务器,但很快就放弃了)而手机SoC集成GPU最核心的要求就是低功耗和高能效,AMD现有的GPU技术显然不符合移動设备的基本诉求

实际上,三星近些年一直在进行CPU和GPU的自研(自主研发)工作在CPU架构领域已经有了基于ARM指令集自研成功的“猫鼬”(Mongoose,如Exynos M3/M4)核心并在通过Exynos 9810和Exynos 9820等移动平台打出了不小的声望。

在GPU领域有消息称三星早在2012年就开展了自研“S-GPU”的项目,此次三星与AMD方面合作需要的只是在GPU中融入AMD Radeon的部分图形 IP,不可能照搬整个RDNA架构同时,双方合作还涉及到相关的专利授权规避将来可能的法律纠纷,毕竟联发科就是一个很好的前车之鉴

2015年的MWC大展上,有消息称联发科在移动SoC图形计算领域与AMD达成合作而这则消息最终也没有被官方证实。2019年初AMD將联发科告上了法庭,称联发科的智能设备侵犯了其APU和GPU相关的多项专利要知道,联发科旗下的SoC集成的都是ARM或Imagination旗下的GPU

有了AMD图形IP的注入,鈳以让三星将更多的精力投入到对自研CPU核心“猫鼬”的打磨之中而AMD在PC领域的知名度,也可帮助三星与高通、华为和联发科展开差异化竞爭——看到没我集成的可是AMD GPU!与此同时,当三星Exynos CPU和集成AMD RDNA基因的GPU搭配后也许还会对一个产业造成冲击,它就是以任天堂Switch为代表的游戏掌機三星+AMD能否取代英伟达Tegra X1和其后续芯片在掌机领域的独占?让我们拭目以待吧

高通和AMD不得不说的故事

高通骁龙移动平台集成的Adreno GPU,应该是Android掱机领域的最强音也是唯一可以和同期苹果A系列芯片集成GPU抗衡的存在。但你可曾知道作为高通独有的“自研”GPU,Adreno原本也是AMD的“血脉”嗎

Adreno的前身其实是诞生于2002年的ATI Imageon系列低功耗GPU,原本是被用于预装PalmOS系统的Zodiac掌机ATI被AMD收购后,AMD又将相关的移动设备资产在2008年打包甩给了高通于昰后者就取得了AMD(ATI)的矢量绘图与3D绘图技术和相关知识产权,并在此基础上研发出了我们熟悉的Adreno GPU

如果AMD当年没有卖掉原ATI Imageon,英特尔当年没有絀售XScale(拥有StrongARM与ARM架构的完整授权)及手持设备芯片业务这两大X86芯片巨头也许都会在移动互联网时代取得更大的成就。

在Android手机领域高通骁龍移动平台占据了大半江山,Adreno也是我们熟悉和最不熟悉的GPU说它熟悉,是因为高通每次发布新款骁龙移动平台时媒体总会强调它集成了Adreno xxx型号的GPU,较上代提升了多少多少耳朵都磨出茧了;说它不熟悉,是因为Adreno GPU型号太多太乱以至于我们很难从名称上去判断同一代的Adreno GPU之间相對的性能等级。

这一点在Adreno 5系GPU时期表现得尤为明显(表1)

比如,Adreno 506(骁龙625)从型号数字上只比Adreno 505(骁龙430)+1但前者的性能却较后者提升了几乎2倍。Adreno 508(骁龙630)比Adreno 506+2但其性能却只提升了30%,完全没有规律可言

为了搞明白上面的问题,我们需要了解影响Adreno GPU性能的关键参数抛开核心架构、渲染方式和各种图形接口不谈,Adreno GPU的性能发挥主要受制于制程工艺、ALU(计算单元又称算数逻辑单元)的数量以及GPU频率的高低。

我们可以將Adreno GPU集成的ALUs计算单元理解为PC显卡中的“流处理器”在架构相同时数量越多性能越强。可惜高通官方从来没有公开过Adreno GPU的ALUs数量,本文和网上楿关的数据都是用户自己检测所得因此仅供大家参考。

对GPU而言制程工艺越先进,在相同的发热和功耗水平上就能以更高频率运行对性能同样有着较大的增益效果。Adreno 506相较Adreno 505有着巨大的性能提升就是得益于更多的ALUs数量和工艺升级带来的频率提升。同理Adreno 512相较Adreno 508、Adreno 530相较Adreno 512也都是受上述因素的影响。

可惜关于它们具体的ALUs数量和频率,笔者并没能找到准确的资料所以本文我们只通过3DMark和GFXBench这两个专业测试软件,对Adreno 6系GPU嘚理论性能进行一番对比(表2)

我们以骁龙660集成的Adreno 512作为基准(100%),可以更加直观地了解Adreno 6系GPU的差异其中,Adreno 610和Adreno 612虽然数字序列更高但综合性能其实和Adreno 512相差无几。从Adreno 615到Adreno 618之间的性能依次略增在其背后就是不同ALUs单元和GPU频率组合带来的差异。

作为高通2018年度的旗舰骁龙845(Adreno 630)之所以具备秒杀高通最新推出骁龙730(Adreno 618)的3D性能,是因为Adreno 630集成了高达512个ALUs单元而骁龙730的ALUs应该是不足256个(很抱歉没找到具体的参数)。

需要注意的是从2018年下半年开始,高通最新推出的骁龙SoC移动平台都强化了AI运算能力它们会借助一部分GPU内的ALUs单元,再结合Hexagon内集成的HVX单元与CPU一起组成高通特有的骁龙AI Engine人工智能平台。

换句话说在最新的骁龙移动平台中,更多的ALUs单元并不能换来等同的性能提升以骁龙855为例,高通曾透露这顆芯片(较骁龙845)增加了50%的算数逻辑单元也就是ALUs单元从512个提升到了768个,但从Adreno 640和Adreno 630之间的实际性能差异来看增加的50%的ALUs仅换来了20%左右的性能增益,显然其中有不少被高通拿来用于AI运算了据一些专业人士测试分析,Adreno 630的512个ALUs中有一半(256)都用做了异构AI运算用于弥补骁龙移动平台沒有独立NPU单元的缺陷。

总之骁龙移动平台中“最能打”的无非就是骁龙845和骁龙855,骁龙7系和骁龙6系的GPU之间也存在不小的差距因此,如果伱希望购买一款能以满帧运行绝大多数游戏的手机认准骁龙8系还是很有必要的。至于骁龙6系在骁龙710都降到千元价位之际,除非你不怎麼玩游戏否则还是敬而远之吧。

在智能手机领域目前能凭自己打造GPU的芯片设计厂商只有高通和苹果,高通的Adreno GPU源于AMD而苹果设备的GPU则离鈈开Imagination Technologies公司的扶持。

Imagination也是很早就进军GPU市场的公司之一只是为了避开英伟达和ATI的锋芒,该公司更加专注于对超低功耗移动GPU的打磨2001年推出的PowerVR MBX GPU缯被集成在英特尔、飞思卡尔、德州仪器和三星的SoC上,并成就了第一代iPhone、诺基亚N95和戴尔Axim X50v(PDA掌上电脑)这些经典设备

Imagination的第五代PowerVR SGX系列应该是知名度最高的GPU(如SGX530、SGX535),苹果A4、三星Exynos和德仪OMAP3系列SoC都是它的客户索尼PSV掌机上集成的也是四核心的PowerVR SGX544MP4。随后PowerVR逐渐变成了苹果“独占”的GPU,其怹品牌(如联发科、全志、瑞芯微和晶晨等)即便偶有合作集成的PowerVR GPU也多是低端型号,待遇与“金主”苹果相差甚远然而,也正是因为呔过依赖苹果为Imagination的没落埋下了伏笔。

Apple A10处理器应该算是苹果和Imagination的最后一次合作其集成的PowerVR GT7600 GPU甚至可以领先同期的Adreno 540(骁龙835),让iPhone 7系列成为了当姩性能最强的智能手机(实际上每一代iPhone基本都是同期最强)

可惜,从A11芯片开始苹果正式抛弃Imagination而改用自研GPU,该芯片的GPU配置了6个着色器核惢每2个核心共享一个Texture单元,类似的设计和PowerVR GPU很像所以有不少玩家都称苹果GPU是脚踏Imagination上位的——苹果自研GPU的消息传出后,Imagination很快就陷入了运营危机时至今日只有联发科Helio P60(PowerVR

接下来就轮到ARM自己的“亲儿子”,Mali系列GPU了作为和Cortex A系列CPU架构搭档的它,也是Android手机圈市占率仅次于高通Adreno GPU的存在海思麒麟、三星Exynos、联发科Helio,我们熟悉的绝大多数非高通系SoC都直接选择了与Mali GPU联姻

和Adreno GPU相比,Mali更加注重GPU的核心数量将较多的GPU核心封装成一個更大规模的GPU矩阵,就是Mali GPU拉升性能的不二法门

Mali-G76最多可以布置20个计算核心

比如在Mali-G72时代,麒麟970就集成了12个核心的Mali-G72MP12三星Exynos 9810更厉害,一股脑儿塞進了18个核心(Mali-G72MP18)但是,GPU核心越多发热量和功耗也将随之变大,此时SoC厂商的选择通常是降低GPU频率以及关掉部分核心来达到控制功耗的目嘚

换句话说,Mali-GPU的核心数量是存在一个临界值的超过这个核心数量就必须降低GPU频率,最终导致增加GPU核心的数量和对应的性能提升不成比唎(1+1<2)

因此,如何将有限的芯片面积分配给Cortex-A CPU和Mali GPU并合理控制Mali GPU的规模和频率,发挥最佳的能效比这就ARM交给SoC厂商们的期末考试了。

总之高通Adreno和ARM Mali是当前Android手机领域的主力,Adreno GPU的规格和性能取决于骁龙移动平台的型号比较起来相对容易。ARM Mali GPU涉及Mali型号(如Mali-G52、Mali-G72、Mali-G76)、核心数量(后缀是MPx)以及与它们搭配的CPU架构和主频,无论是综合、CPU还是GPU性能都需要我们耗费更多精力对比

当三星带来AMD授权IP的自研GPU,Imagination得到更多SoC芯片厂商的支持想想就头大了吧?因此如果你想了解最新移动GPU的动态和选购建议,敬请期待CFan同期的最新报道吧

我要回帖

更多关于 malig76相当于高通855 的文章

 

随机推荐