张召忠如何看待战地4ARM发布Mali-G72以及Cortex-A55和Cortex-A75核心

ARM 最强移动平台来了!一图看懂 Cortex-A75/Mali-G72
ARM 最强移动平台来了!一图看懂 Cortex-A75/Mali-G72
本文经授权转载,其它媒体转载请经超能网同意近年来,营销在手机市场竞争中越来越重要。作为一种给消费者信心的营销方式,手机成品背后的供应链企业也纷纷被厂商们搬上台面。如今,普通消费者对高通、联发科、猎户座、海思等移动处理器厂商已经耳熟能详。在这些处理器厂商背后,有一个公司不得不提,那就是精简指令 CPU 领军企业 ARM。市面上现存的移动处理器中,无一例外地采用了 ARM 的架构,那些宣称采用自主架构的也是采用基于 ARM 架构深度开发的。近日,ARM 祭出了其面向 2018 的年度新品:Cortex-A75,Cortex-A55 和 Mali-G72。相对于 2017 年被广泛使用的 Cortex-A73、Cortex-A53 和 Mali-G71,这被官方称为三剑客的新品有什么提升呢?ARM 的美工做了几张精美的图片,我们通过图片来了解吧。神威剑客:Cortex-A75通天剑客:Cortex-A55俊逸剑客:Mali-G72根据移动处理器厂商的产品节奏,使用这些架构的处理器产品将会在下半年或者明年上半年推出,到那时,消费者就可以购买到使用这些架构的终端产品了。原网页已经由 ZAKER 转码以便在移动设备上查看
大家都在看当前位置 & &
& 骁龙845要用!ARM Cortex-A75/A55曝光:能耗...
骁龙845要用!ARM Cortex-A75/A55曝光:能耗绝了
19:29:33&&作者:
编辑:万南 &&)
让小伙伴们也看看:
阅读更多:
好文共享:
文章观点支持
当前平均分:0(0 次打分)
[05-26][05-24][05-23][05-22][05-19][05-18][05-18][05-14][05-12][05-12]
登录驱动之家
没有帐号?
用合作网站帐户直接登录后使用快捷导航没有帐号?
ARM正式宣布M3免预付授权费,A75、A55采用人工智能DynamIQ新技术 ...
22:48| 发布者:
简介:原题目:ARM正式宣布M3免预付授权费,A75、A55采用人工智能DynamIQ新手艺集微网推出知识产权微信公共号:“天天IP”,前沿博利动态发布,天天IP、天天集微网,积微成著!点击文章结尾“阅读原文”集微网 6月20日报道 ...
原题目:ARM正式宣布M3免预付授权费,A75、A55采用DynamIQ新手艺集微网推出知识产权微信公共号:“天天IP”,前沿博利动态发布,天天IP、天天集微网,积微成著!点击文章结尾“阅读原文”集微网 6月20日报道本日,ARM 在北京召开媒体发布会,正式宣布对其DesignStart项目举行升级,在此前开放Cortex-M0基础上,再次开放Cortex-M3处理器及相关IP子体系,对其免预付授权费。此外,ARM 还详粗介绍了为人工智能期间研发的全新的DynamIQ手艺。据悉该手艺已经应用到ARM 最新的 Cortex-A75处理器、ARM Cortex-A55处理器和ARM Mali-G72 图形处理器当中。DesignStart项目升级:Cortex-M0后,Cortex-M3正式免预付授权费ARM 自2010年起,承动DesignStart 项目,目的是提供给用户快速获得ARM IP的途径。2015年,ARM宣布通过DesignStart项目开放Cortex-M0体系,并以优惠的授权费帮助初创等厂商的芯片开发进程。开发商可以通过ARM DesignStart网站免费获得Cortex-M0处理器相关的工具,其中包括Cortex-M0的SDK以及ARM Keil MDK开发工具。简单来说,在从前,一个公司想要开发一款基于Cortex-M0 IP核的博用芯片,没有管芯片有不生产、贩卖,ARM都要先收一笔授权费。现在是通过该项服务免费开放给人们举行研发测试,在必要正式制造芯片举行贩卖的时辰才必要付ARM授权费。据ARM 官方透露,此次加入的Cortex-M3也是ARM Cortex-M系列中最成功的一款处理器。今朝,Cortex-M0和Cortex-M3的合计出货量已经跨越200亿,其中有一半的出货是在过去几年完成的。对于开放的缘故原由,ARM 表示,这是相应去年软银集团主席暨总裁孙正义提出的ARM“环球一万亿互联设备”的目标而采取的措施之一。今朝,基于Cortex-M0和Cortex-M3处理器的SoC的出货量达到了每小时50万。为人工智能到来推出DynamIQ手艺,未来3-5年运算性能提升50倍除了宣布DesignStart项目升级,ARM 还详粗介绍了今年3月推出了DynamIQ手艺。数据显示,在已经出货的1000亿颗基于ARM的芯片中,有500亿颗出货是在2013年到2017年短短四年时间完成的,而下一个1000亿颗预计在2021年完成。ARM表示,完成这一目标,很大程度上将归功于人工智能(AI)在人们一样平常生存中的普遍应用,为此ARM推出全新的DynamIQ手艺。DynamIQ手艺的推出是ARM big.LITTLE手艺的重要演进。自2011年推出以来,ARM big.LITTLE手艺为次要计算设备的多核特征带来了刷新。DynamIQ big.LITTLE将继续通过“根据没有同的义务选择最合适的处理器”的方式来推动高效、智能的多核计算创新。DynamIQ big.LITTLE能够许可对单一计算集群上的大小核举行设置,而这在过去是没有大概的。比方,1+3或者1+7的SoC设计设置, 现在因为DynamIQ big.LITTLE使其得以实现,尤其在异构计算和具有人工智能的设备上都是必要优先思量的。就在上个月台北国际电脑展前夕,ARM宣布推出基于ARM DynamIQ手艺的全新处理器,包括ARM Cortex-A75处理器、ARM Cortex-A55处理器和ARM Mali-G72 图形处理器。ARM表示,针对人工智能性能义务并基于DynamIQ手艺的博用指令,助力ARM在未来3-5年实现人工智能运算性能50倍的提升。ARM还称,自多核处理器答世以来,DynamIQ手艺标志着人类在这一领域获取的重点进步,多核处理器设计曾为移动行业带来双核和到处理器。依附 DynamIQ 单一集群现在最多能够包含8个处理器,除了可拆配没有同的物理设计特征(功耗,频率,面积),还能为单个CPU或名个核心单独设置电压与电源信道。这种机动性和扩展性计芯片厂商能够准各类市场。全新A75、A55处理器和Mali-G72 图形处理器亮相ARM在2017台北国际电脑展宣布推出ARM Cortex-A75处理器、Cortex-A55处理器和Mali-G72 图形处理器。全新的 Cortex-A75 处理器是 ARM 最新发布的最高性能CPU,同时也是基于全新 DynamIQ 手艺的首款高性能 CPU。在雷同频率下,Cortex-A75 比 Cortex-A73 性能提升20%。在浮点、NEON SIMD 处理或内存性能等别的衡量标准上,Cortex-A75 带来了更大的提升,像是在Octane基准测试套件上提升幅度靠近50%。与 Cortex-A73 相比,Cortex-A75 在内存复制方面的吞吐量实现了 15% 的提升。ARM 合作伙陪既可以单独使用 Cortex-A75 高性能处理器 (最多 4 颗),也可以使用 Cortex-A75 与Cortex-A55 处理器构成的 big.LITTLE 组合 (一共最多 8 颗处理器)。最终体系的选择取决于集成商 (每每是芯片供应商)、以及在性能水平与成本之间的权衡考量。Cortex-A55 采用最新的 ARMv8.2 架构,并在其前代产品的基础上挨造而成。它在性能方面突破了限,同时依旧保持了与 Cortex-A53 雷同的功耗水平。次要特征包括,1.在雷同的频率与工艺条件下,内存性能最高可达 Cortex-A53 的两倍;2.在雷同的频率与工艺条件下,效能比 Cortex-A53 高 15%;3.扩展性比 Cortex-A53 高十倍以上。跟随去年Mali-G71的脚步,ARM今年在Computex2017 大会上发布了基于Bifrost 架构的Mali-G72,在更小面积与更低功耗的基础上,提供更强盛的效能。Mali-G72 的亮点,包括相较现有产品包括效能提升25%、每平方毫米的芯片面积效能提升20%,以及机器进修效率提升17%。除此之外,它还能让团体设备效能提升40%。集微网推出知识产权微信公共号:“天天IP”,前沿博利动态发布,天天IP、天天集微网,积微成著!点击文章结尾“阅读原文”责任编辑:</ <
(window.slotbydup=window.slotbydup || []).push({
id: '2389871',
container: s,
size: '270,300',
display: 'inlay-fix'
(window.slotbydup=window.slotbydup || []).push({
id: '2389872',
container: s,
size: '270,300',
display: 'inlay-fix'
(window.slotbydup=window.slotbydup || []).push({
id: '2389873',
container: s,
size: '270,300',
display: 'inlay-fix'
关于威腾网什么是威腾网?
网站地图快速找到你想要的
微信扫一扫关注我们【图片】探索DynamIQ和ARM的新CPU:Cortex-A75,Cortex-A55【wp7吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:260,315贴子:
探索DynamIQ和ARM的新CPU:Cortex-A75,Cortex-A55收藏
本文转自Anandtech,原文链接ARM以积极的步伐前进,每年推出新的处理器IP。它需要快速移动,部分原因是它拥有如此众多行业的许多合作伙伴,以保持快乐,部分原因是它需要跟上IP接触的技术,从新的流程节点到更高质量的显示器到人工智能。为了跟上步伐,ARM将多个设计团队保持在几个不同的位置,并行工作。ARM在去年在德克萨斯州奥斯汀的一家这样的工厂举行的年度TechDay活动中,推出了Mali-G71 GPU,首先使用其新的Bifrost GPU架构,而Cortex-A73 CPU则是新的大核心,以取代A72在手机。然而,值得注意的是,这是一个新的核心。另一年,另一个TechDay和另一个ARM工厂(这次在英国剑桥) - 只能意味着新的ARM IP。在几天的时间里,我们深入了解其最新技术,包括DynamIQ,Mali-G72 GPU,Cortex-A75以及(是的,最后)A53:Cortex-A55的继承者。A53与A57一起宣布,已经使用了几年,无论是自己还是作为一个big.LITTLE配置中的小核心。这是非常成功的,在三年内,40多个持牌机构和17亿台机组出货。但在这段时间里,ARM每年都在推出新的大核心,从A57转向A72到A73。然而,A53仍然保持不变,即使大型和小型内核之间的性能差距继续增长。可以预见的是,A55的重点是提高性能。作为A55的起点,A53的双重问题,排序核心已经提供了良好的吞吐量,因此ARM专注于改进内存系统。一个新的数据预取器,一个集成的L2缓存,将延迟降低了50%,以及额外的L3缓存级别(除其他变化之外)使得A55显着提高了存储器性能 - 在LMBench内存复制测试中经过了近两倍的改进。ARM提供的数字在SPECint 2006中的性能提升了18%,而SPECfp 2006相对于A53而言,其增幅更大了38%。这些数字以及图表中显示的其他数字,比较了A55和A53是相同的频率,相同的L1 / L2缓存大小,相同的编译器等,并且是一个公平的比较。然而,额外的表现不是免费的。功耗比A53(iso-process,iso-frequency)上升了3%,但由于性能的提高,运行SPECint 2000的功耗效率仍然提高了15%。A55还包括几个新功能,可以帮助它扩展到新的市场。虚拟主机扩展(VHE)对于汽车市场和先进的安全性和可靠性特性非常重要,包括架构RAS支持和所有级别缓存的ECC /奇偶校验对于包括汽车和工业在内的许多应用至关重要。还有基础设施应用的新功能,包括一个新的Int8点产品说明(可用于加速神经网络)。由于A55与DynamIQ兼容,因此它还可以缓存和访问256位AMBA 5 CHI端口。当ARM去年推出A73时,它谈到了提高持续性能并在紧密的热封中工作。换句话说,A73是提高电力效率。A75的方向不同:利用A73的热空调,ARM专注于提高性能,同时保持与A73相同的效率。我们以前的性能测试显示,将A73与A72进行比较时,结果并不令人惊讶,因为微架构的显着差异 - A73通常超过A72,整数任务只有一小部分,但在浮点工作负载中落后于较旧的CPU。对于A75来说,事情看起来更好,至少基于ARM的数字,它们在整数和浮点工作负载以及内存流中都显示出超过A73的显着增益。上图显示,在10nm节点上以3GHz工作的A75与10nm节点上的2.8GHz操作的A73相比具有更好的性能和效率,这意味着A75消耗更多的功率。基于这一个简单的图表,难以说明多少。我们知道A73在使用4芯时有热量限制(尽管比A72少),所以A75肯定也是如此。然而,这不是一个常见的情况。大多数移动工作负载只能一次启动1-2个内核,通常只会在短时间内爆发。ARM显然感到足够舒适,使用A73的额外热量余量来提升性能,而不会对持续性能造成负面影响。ARM希望通过推高频率将A75推入更大尺寸的设备,功率预算超出手机的750mW /内核。像Chromebook或2合1超便携式产品的想法。在1W /内核的情况下,A75的性能比A73高出25%,而在2W /内核的情况下,A75的优势在运行SPECint 2006时可以达到30%。如果有的话,这些数字突出表明,为什么不推荐使用频率的性能不是一个好主意,动态功率呈指数级变化。ARM专注于移动设备,专注于电源效率,并删除了一些对其他应用程序有用的功能,以简化设计,包括L1缓存上没有ECC,256位AMBA 5 CHI端口没有选项。有了A75,A72已经有了一个明确的升级路径。对于服务器和基础架构市场,A75支持所有级别的缓存和AMBA 5 CHI的ECC /奇偶校验,用于连接到较大的CCI,CCN或CMN架构,对于汽车和其他安全关键应用程序,支持架构性RAS支持,防止数据中毒,并改进了错误管理。
wp手机-京东爆款持续抢!价格PK不怕比!wp手机全月保价!
DynamIQ在讨论新的CPU之前,我们需要讨论DynamIQ。5年前推出的ARM的原始big.LITTLE(bL)技术,允许多达4个CPU的多个集群链接在一起,已经在市场上取得了巨大的成功,允许其Cortex-A系列CPU的各种组合供电移动设备的范围从预算友好,没有装饰到预算突破的旗舰技术。Cortex-A和bL的结合超越了智能手机和平板电脑,应用范围从服务器到汽车。多年来,ARM的IP和客户的需求已经发展,需要一个新版本的bL:DynamIQ。ARM在2013年开始研究DynamIQ,提出了一个单一问题:“如何使big.LITTLE更好?”展望未来,ARM可能会看到DynamIQ需要更灵活,更可扩展,并提供更好的性能。考虑到这个项目有多少工作,DynamIQ将至少在未来几年内,希望能实现这些目标。像bL一样,DynamIQ提供了一种将CPU分组并将其连接到系统中的其他处理器和硬件的方法; 然而,有几个重大变化,首先是将大而小的Cortex-A CPU放在同一个集群中。使用bL,不同的CPU不得不驻留在单独的集群中。似乎是一个简单的核心重组实际上影响CPU性能和配置灵活性。另一个重要的变化是能够在一个集群内放置多达8个CPU(从bL为4个),CPU总数可达256个,共有32个集群,可以进一步扩展到1000个CPU,芯片支持通过CCIX接口提供。在集群中,CPU分为电压/频域,在一个域内,每个核心都在自己的电源域内。这允许每个CPU单独掉电,尽管同一域中的所有CPU必须以相同的频率运行,这与bL没有任何差别; 然而,使用DynamIQ,每个集群可以支持多达8个电压/频域,比bL单个电压/频域每个集群提供更大的灵活性。那么这是什么意思?这意味着在理论上,一个SoC供应商可以将每个CPU放入自己的电压域,以便为集群中的每个CPU分别设置电压/频率。每个电压/频域需要自己的电压调节器,这增加了成本和复杂性,所以我们很可能会继续看到每个域的2-4个CPU。(ARM教你怎么省钱)ARM仍然认为在未来几年内,移动设备将使用8核配置。使用bL,这可能是使用4个大内核和4个小内核的4 + 4配对,或者2个集群分布的8个小核心。使用DynamIQ,所有8个内核都可以安装在一个集群内,可以分为A75和A55内核的任意组合(1 + 7,2 + 6,3 + 5,4 + 4)。ARM看到1 + 7配置,其中一个A55内核被一个大的A75内核替代,特别适用于中档市场,因为它提供高达2.41倍的单线程性能和1.42倍更好的多线程性能与八核A53配置(iso过程,等频)相比,裸片面积仅增加1.13倍。实现这种灵活性的主要难题是DynamIQ共享单元(DSU),它是位于每个DynamIQ群集内的单独块,并且作为集群中的CPU和系统其余部分的桥的中央集线器。群集中的每个电压/频域可以配置为与DSU同步或异步运行。使用异步网桥(每个域一个)允许不同的CPU(A75 / A55)在不同频率下工作(使用同步网桥将强制所有CPU以相同的频率工作)。DSU通过1到2个128位AMBA 5 ACE端口或单个256位AMBA 5 CHI端口与CCI,CCN或CMN高速缓存相干互连进行通信。还有一个加速一致端口(ACP),用于连接需要与CPU缓存一致性的专用加速器。它还用于启用DynamIQ的缓存保存功能,我们将在一分钟内讨论。最后,还有一个单独的外设端口用于对连接到ACP接口的加速器进行编程(基本上是编程事务的快捷方式,因此不需要通过系统互连进行路由)。到目前为止,我们已经讨论了DynamIQ的灵活性和可扩展性功能,但它也通过新的缓存拓扑来提高CPU性能。使用bL,集群内的CPU可以访问共享的二级缓存; 然而,DynamIQ兼容CPU(目前仅限于A75 / A55)具有以CPU内核的频率运行的专用L2高速缓存。将L2更靠近核心将L2缓存等待时间提高50%以上。DynamIQ还增加了另一个级别的缓存:可选的共享L3缓存位于DSU内,是16路组合。缓存大小为1MB,2MB或4MB,但对某些应用程序(如网络)可能会省略。L3缓存在技术上是伪独占的,但是ARM表示,它完全是完全独占的,几乎所有L3的内容都没有出现在L2和L1高速缓存中。如果新的L3缓存是包容性的,L3缓存可以进行分区,这对于运行固定工作负载的网络或嵌入式系统或需要更多确定性数据管理的应用程序可能是有用的。它最多可以划分为4组,分割可以不平衡,所以1个CPU可以获得3MB,而另外7个CPU将在8核4MB L3配置中共享剩余的1MB。每个组可以通过ACP或其他接口分配给连接到DSU的特定CPU或外部加速器。任何未特别分配给缓存组的处理器共享剩余的L3缓存。分区是动态的,可以在运行时由操作系统或管理程序创建/调整。DynamIQ支持的功能之一是错误报告,允许系统将检测到的错误(可纠正和不可校正)报告给软件。L3支持ECC /奇偶校验(实际上所有级别的缓存和snoop过滤器都可以使用SECDED,缓存上可以保存脏数据和SED奇偶校验,只能保存清除数据),以符合ASIL-D标准。L3还具有持续的错误纠正,可以支持从单个硬错误中恢复(64位粒度支持数据中毒)。另一个新功能是高速缓存存储,这允许GPU或其他专门的加速器和I / O代理通过ACP或AMBA 5 CHI端口将数据读取/写入共享L3缓存或直接进入特定CPU的L2缓存。一个具体的例子是使用TCP / IP卸载引擎来加速数据包处理的网络设备。加速器可以使用高速缓存存储将数据直接写入CPU的L2,从而提高性能并降低功耗,而不是将其数据写入系统内存以使CPU获取或依赖某些其他高速缓存一致性机制。为了使用高速缓存存储,在内核空间中运行的软件驱动程序需要注意处理器和缓存拓扑,这将需要自定义代码来使集群外的硬件能够访问共享L3或单个CPU的L2。虽然对上市时间的消费电子产品的限制是关键,但并不是商业应用中的一个严重问题。虽然缓存冻结可能是与位于群集外部的处理器共享数据的有用功能,但DynamIQ还可以更轻松地在集群内的CPU之间共享数据。这就是为什么ARM想将大而小的CPU带入同一个集群的原因之一。移动DynamIQ集群中的高速缓存行比在bL之间的集群之间移动更快,从而在大型和小型内核之间迁移线程时减少延迟。DynamIQ还包括改进的电源管理。使用DSU在硬件而不是软件中执行所有高速缓存和一致性管理,在更改CPU电源状态时可节省多个步骤,从而使CPU内核能够比以前快速上电或更快地启动bL。DSU还可以通过自动监视高速缓存使用情况并在完全开启,关闭和关闭状态之间进行切换,从而降低L3缓存的部分以降低泄漏功率。DSU包括一个带有集成监听过滤器的侦听控制单元(SCU),用于处理新的缓存拓扑。与L3缓存和其他控制逻辑一起,DSU与其最大配置中的A55内核大致相同,也就是A55最小配置的一半。这些只是粗略的估计,因为大多数DSU区域被L3缓存使用,并且DSU逻辑的大小与CPU核心数量相比较。一些ARM的合作伙伴可能从bL迁移到DynamIQ可能很慢,选择坚持使用他们熟悉的技术和CPU核心,而不是花费额外的时间和金钱来开发新的解决方案。但是,对于需要访问ARM最新的CPU内核(如移动)的敏感市场而言,切换到DynamIQ应该会很快发生,第一个DynamIQ SoC可能会在2017年底或2018年初出现。
前排混脸熟
也就是同频同工艺功耗大3%吗那不是能效比提高了吗
1+7?感觉联发科x40要翻身----Sent From My Moto X Style Using PureTie
Cortex-A75微架构 (居然是A17 A73的后续产品
奥斯丁还在挤牙膏
是要让阿瑞斯搞个大新闻?)Cortex-A75是ARM索菲亚系列CPU的最新成员,也包括A73,A17和A12。那么A75和A73与A72和A57之前(这两个都属于Austin CPU系列)有很多共同之处,这并不奇怪。然而,ARM的重点已经从提高A73的功率效率和热裕量转向提高性能并为A75添加新功能。ARM通过对管道的重大更改和对DynamIQ的支持来解决其性能目标,而新功能则是从ARMv8.0架构转移到ARMv8.2的副产品。对于这篇文章,我主要关注A75的新功能,所以我建议您阅读我们对A73的介绍,以更全面地了解A75微架构。A75使用相对较短的11-13 +级(取决于指令类型)类似于A73的无序管道。指令提取仍然是4个阶段,解码器仍然能够在单个周期内对大部分指令进行解码,其中μops指向需要额外解码阶段的NEON / FP(浮点)流水线; 然而,移动到三维解码使A75比A73更广泛的机器,这是一个很大的变化,将在下面更详细地讨论。解码最多3个指令/周期的能力意味着A75现在可以为A73发送高达6μops/周期而不是4μops/周期。在整数方面,A75可以在每个发布队列中最多馈入2μops。A75中的每个管道代替两个ALU和2个AGU的共享问题队列,获得自己的具有更多条目的问题队列。这允许A75更具推测性,从而提高其执行指令的能力,例如在L2中遇到的L1 D缓存未命中时继续操作。峰值发生率增加到8μops/周期,每个管道增加1。如A73 / A75图所示,简单的分支μops可以绕过重命名和调度,有效地消除2个阶段的延迟; 然而,需要访问寄存器的更复杂的分支指令可以产生需要通过重命名/调度的附加分支,AGU和ALUμops,并在Rename阶段隐藏一些额外的复杂性。转到NEON / FP端,您会注意到A73 / A75没有Dispatch舞台。显然,μops仍然被推入问题队列,并且队列之间仍然有负载平衡,但它的处理方式不同,为什么问题队列比整数方式长1-2个阶段。NEON / FP端也有一些变化。A75现在可以“发送”高达3μops/周期,并且在每个发布队列中最多可以下载2μops,对于A73而言,A75可以增长到4个阶段而不是3个阶段。ARM还在增加问题队列中的条目数量,但是它发现这种增加的功能超过了性能,所以它混淆了这个想法。相反,它添加了一个专用的NEON / FP存储管道及其自己的问题队列。在A73上,FP乘法累加(MAC)的等待时间也减少到5个周期。当我们通过数据路径工作时,我将更详细地讨论执行流水线,但是先从指令端开始。A75仍然是一个“基于槽的微架构”,这是A73首次引入。除了去年的基本说明之外,ARM还没有公布任何其他细节,即有8个“插槽”用于消除冗余访问指令块中的资源,从而最终降低功耗。A73和A75都有一个非常简单的指令预取器,它提供一个固定的64KB L1 I缓存,它是4路组关联,并使用VIPT(实际索引的,物理标记的)访问方案,因为它们的灵敏度为L1缓存延迟。A73收到了一个全新的主要分支预测器,以及一个新的64入门微型BTAC,用于加速预测。除了主要的预测因素之外,还有一个静态分支预测器,当主要预测变量具有不足的历史时,它将被用作回退,还有一个包含嵌套子程序返回地址的返回栈。间接预测器,仅在必要时使用(由于间接分支出现频率较低而降低功率损失),则使用双向256输入BTAC(分支目标地址缓存)。在设计A75时,ARM发现A73的分支预测器仍然表现良好,提高性能进一步导致收益递减,电力攀升快于业绩; 因此,A73的预测指标被转交给A75。ARM对微循环微观预测器进行了微调,该预测器位于主要预测因素的上游,通过进一步降低管道气泡在紧张环路中的可能性来改善IPC。如上所述,A75移动到3宽指令解码阶段,从A73的2倍扩展到3级A72。ARM一直在寻找改进IPC(每周期指令)的方法,并注意到运行SPECint 2006时,A73实现了大约1.2个总体的IPC,在测试中的特定部分增加到1.6到1.8,并且下降到0.4到0.6在别人身上 甚至更大的CPU实现了刚刚超过2的平均IPC。这并不意味着您只需要一个2宽的解码器,因为有些情况需要更大的吞吐量。例如,在需要管道冲洗的分支错误预测之后,每1000个指令可能发生2-4次 - CPU需要尽可能快地重新填充问题队列,以便它可以开始提取ILP。所以当你需要突然的指令时,更广泛的帮助吞吐量。当然,对于更广泛的应用来说,这是一个权力和面积的惩罚,因为它会导致其他管道产生涟漪效应,但是很明显的是,ARM应该采用三向超标量来达到其IPC目标。A75的重命名和调度阶段与A73的类似。像A73和其他Sophia CPU一样,A75中没有重新排序缓冲区或架构寄存器文件。相反,它使用物理寄存器文件来存储μop操作数,通过限制CPU周围移动的数据量来减少功耗,并消除使用重新排序缓冲区引起的指令窗口瓶颈。A75在这里看到了一些优化,包括负载绕过写入的能力,提高了核心执行次序的能力,并更好地应对了L2缓存缺失。ARM还发现在解码阶段(因为在重命名期间需要访问寄存器文件)中的某些指令在A73的问题队列中使用太多的条目,所以A75在重命名后将它们重新组合成一个指令在其他μops的问题队列中释放空间移动到数据路径,我们找到一个改进的数据预取器。对于A73,L1和L2预取器已经进行了大修,但是步伐预取器已被重新调整,以更好地处理A75的订单执行。64KB L1 D缓存与A73几乎不变。这是像L1 I缓存那样的VIPT,其通过与TLB转换并行执行缓存索引查找来减少等待时间。A73 / A75处理别名问题,其中几个虚拟地址可能在硬件中引用相同的物理地址,使得4路组关联VIPT缓存看起来像编程器的PIPT 8路32位或16路64KB缓存。A75获得集成的二级缓存,以核心速度运行,与同一集群中的其他CPU共享二级缓存的A73相比,延迟时间减少了50%以上。对于提取指令,延迟从20-25个周期下降到11个周期(L1 miss,L2命中的10个周期)以及最低延迟情况(由于依赖的负载地址而转发到AGU的负载)延迟从19个周期到8个周期。可选的L2缓存可以是256KB或512KB。选择512KB选项只能将性能提高约2%,而单核的256KB可提高性能,但在使用DynamIQ的4个A75内核时,可提供更好的4-5%的提升。L1 D缓存和L2现在是完全排他的,而不是像A73那样的伪排他,它节省了区域,因为数据没有在二级缓存中重复。L1 I缓存是伪包容性的。ARM通过偏置L2缓存替换策略来提高整体L2命中率,使其对指令具有更高的亲和力。L2的更高的命中率和更低的延迟提高了性能,同时通过允许A75继续使用非常简单的指令预取器来节省功耗和面积。A75的主要TLB现在是无阻塞的,具有两个突出的提取功能,包括未命中(A73主要TLB是阻塞设计)。当有一个需要在主系统内存中的页表行走的TLB错误时,此更改会提高性能。使用非阻塞TLB,它可以继续处理翻译请求,同时等待页表行走完成,这需要相当长的时间,因为它需要多个内存访问。我们通过A75存储系统数据端的行程以AGU(地址生成单元)结束。两架AGU从A73进一步转移,能够同时执行负载和存储,为存储系统提供更大的灵活性和更高的发行速率。存储缓冲区(STB)的大小,其中所有存储在提交后被推送并且不再是推测性的,增加到7个128位插槽。现在是把重点转移到执行管道的时候了。A75的ALU / INT管与A73相同。两个ALU都可以执行添加和移位等基本操作,但只有一个ALU处理整数乘法和乘法累加运算,而另一个则以整数除法为重点。这意味着A73 / A75不能并行执行两个整数乘法或除法,而是可以将MUL / MAC与除法/加法/移位同时发布。虽然几乎所有指令在1或2个周期内完成,但整数除法需要3个周期,乘法需要4个周期。有趣的是,在进行3层解码后,ARM认为增加了第三个ALU / INT管道; 然而,业绩增长不足以证明权力的增加。2个64位NEON / Floating Point管道具有自己的专用重命名和128位寄存器文件,A73 / A75中的每个SIMD NEON管能够执行8位8位整数,4位16位整数,2位32位位整数或单精度浮点(FP),或每循环1位64位整数或双精度FP操作,使程序员能够灵活地选择精度和性能之间的正确平衡。通过更新到ARMv8.2架构,A75还获得对半精度FP16操作的本机支持。使用较不精确的数据类型(FP16与32位或64位的16位)可减少存储数据所需的内存/缓存量,并提高内存带宽,这对于某些应用程序(如机器学习和图像处理。A73和更早版本的大内核可以获取FP16值,但在执行之前需要转换为FP32,导致一些额外的开销。为了提高性能,许多神经网络算法正在降低到8位精度,特别是在训练完成后。为了加速这些算法,A75(由ARMv8.2架构提供)包括一个新的INT8点产品指令,它将需要执行的多个指令反复背对单个指令,大大提高延迟。从A73微架构入手,ARM致力于通过转向3层解码和改进内核的无序功能来改进IPC,而DynamIQ支持意味着由新的L3缓存支持的性能更高的集成式L2缓存。ARMv8.2架构还提供了新功能和新的NEON指令,用于加速神经网络和图像处理。
wp手机-亚马逊海外购提供逾万种国际品牌,超百万全球精品,英亚直邮,纯正海外货!专业全球购物网站,全中文购物体验,正品价优,纯正海外购物,尽在Z.cn!
太长看不懂
新一代神U预定?安纳海姆议事堂,戊戌君子尸身凉。
a55有看头,a75没看头
Cortex-A55微架构Cortex-A55是ARM剑桥的低功耗,小尺寸内核系列的下一个CPU微架构,其中还包括A5,A7和A53。这个新的核心是A53的演变,所以两个核心的共同点是共同的。使用A53作为起点是有道理的 - 它已经被证明是一个成功的设计 - 但是随着时间的推移,大核心发展,大型核心和A53之间的性能差距在不断增长,从而改变了ARM的big.LITTLE方案的平衡。随着ARM继续推进移动以外的新市场,它需要A53缺乏的新功能。A55解决了性能问题,改进了内存系统和其他微架构更改,并通过从ARMv8.0架构转移到ARMv8.2,增加了关键特性。在高水平上,A55仍然是一个双重问题,按顺序排列8位CPU。据ARM公司介绍,8个阶段仍然是最佳选择,因为从16 / 14nm到10nm到7nm的转换并没有发现显着的频率改善(大多数工艺增益都是面积缩小,动态/漏电功率降低)。具有8个阶段,A55应达到与A53类似的峰值频率。移动到较短的管道将降低最大频率,而不会对功率或面积进行显着改善,而较长的管道将仅增加小的频率增益而增加面积和功耗。当检查上述图表时,两个核心之间的相似之处是显而易见的。仍然有一个2宽的解码阶段,可以在单个周期中解码大多数指令。从A53继承的另一个特征是大多数指令的对称双重问题,这意味着两个问题的插槽都可以向任何管道提供指令。我们将在下面详细介绍执行流水线,但这里的重大变化是A55转向独立负载和存储可以并行执行负载和存储的AGU,而不是像A53这样的单一组合AGU。从指令侧开始,L1 I缓存现在是A53的4路组关联与2路。它仍然是VIPT(几何索引,物理标记),它通常用于L1高速缓存,因为它可以减少延迟,但是还有一个更大的15个入口L1 TLB,支持多个页面大小。这个简单的变化实际上需要大量的工作来缓解计时压力的问题。L1 I缓存的大小可配置16KB,32KB或64KB的选项,类似于A53,提供8KB到64KB的范围。看来每个新的CPU微架构都带有一个新的分支预测器,而A55也不例外。新的条件预测器通过使用基于神经网络的算法来提高预测精度。它还增加了循环终止预测,避免了在循环结束时发生的错误预测。在主要条件预测器之前还有新的0周期微观预测。这些不如主要预测因素那么精确,但是即使在紧密环路中,通过减少管道气泡也能够反复进行预测,从而提供显着的性能提升。还有一个间接预测因子只在必要时才使用,减少功率损失,因为间接分支不会频繁发生。这包括256条目BTAC(分支目标地址缓存)。切换到数据路径,A55包括一个改进的数据预取器,提供更高的带宽。它能够检测更复杂的高速缓存未命中模式,并可以预取到L1或L3高速缓存。ARM预计这些改进将对移动设备UI性能产生显着的影响。L1 D缓存仍然是像A53那样的4路组关联,但是现在是完全排他的,而不是伪独占的,这样可以节省区域,因为数据在二级缓存中不被重复。L1 D缓存的大小也可配置为16KB,32KB或64KB选项,这也与A53的范围从8KB到64KB相似。L1 D缓存的另一个重大变化是从PIPT(物理索引,物理标记)转移到VIPT访问方案。这降低了缓存延迟,因为高速缓存索引查找与TLB转换并行,而且还会创建别名问题,其中几个虚拟地址可能引用相同的物理地址。然而,A55处理硬件中的别名,使得VIPT缓存显示为程序员的PIPT缓存。进一步的增强包括用于L1 D缓存的更大的16进入微型TLB,比A53的10入门微型TLB大幅增加,而在L1中具有较高带宽的较大的存储缓冲器可以更好地处理生成很多商店。ARM还将L1指针从A53中的3个周期追溯到A55中的2个周期,从而在使用某些类型的数据结构时提供了小的性能突破。与DynamIQ兼容意味着A55获得了以核心速度运行的集成二级缓存。与A53及其共享L2相比,这将L2延迟减少了50%(12个周期至6个周期)。L2缓存大小选项包括0KB,64KB,128KB和256KB。ARM预计128KB是移动应用程序中最常见的,但也应该有合理数量的256KB配置。较小的尺寸将吸引希望降低面积/成本或需要更多确定性记忆行为的网络和嵌入式市场。随着L2现在是核心部分,A55的L2 TLB从A53的512个条目增长到1024个条目。A55的集成L2使用PIPT,与VIPT相比,它实现起来更简单,功耗更低。与VIPT L1不同,使用PIPT作为L2不会导致性能损失,因为其自然更高的延迟意味着在执行标签比较之前有足够的时间从TLB获取物理地址。L2是像L1这样的4路设置关联,这是一种旨在最大限度地减少缓存延迟的设计选择,这对于减少停顿对有序内核的影响很重要。使用较少关联缓存的缺点是更大的机会错过,但是ARM感到很舒服,这种妥协与L3缓存位于合理靠近核心。访问(潜在的)大型L3缓存,A53没有,也将有助于提高性能。如前所述,按顺序核心对高速缓存未命中敏感,导致内核停顿,因此它们对缓存大小的增加和内存访问延迟的减少特别有反应。ARM表示,A53 / A55的高速缓存大小取决于工作负载,性能提升了5%。我们将通过数据路径和我们关于AG55(地址生成单元)对A55内存系统改进的讨论结束本次巡视。根据ARM的内部基准测试,CPU可以花费大量时间进行负载和存储,因此提高性能至关重要。A55不是坚持使用单一的AGU,而是使用独立的负载和存储AGU来并行执行负载和存储,从而使存储系统的发布速率更高。请注意,A55的AGU不能像A73 / A75中的AGU一样执行负载和存储(只有一个或另一个),在性能和复杂性之间进行折衷。将我们的焦点转移到执行管道上,我们发现2个与A53功能相同的ALU / INT单元。两个ALU都可以执行基本操作,例如加法和移位,但只有一个ALU处理整数乘法和乘法累加运算,而另一个则使用Radix-16分频器来进行整数除法。因此,虽然A53 / A55不能并行执行2个整数乘法或除法,但它可以与分频/加法/移位一起双重发出MUL / MAC。ALU仍然是两个阶段,但几乎所有的指令都在1个周期内完成。还内置了多个转发路径,包括同一管道或交叉管道中的路径,以减少执行延迟。2个64位NEON /浮点管道仍然是可选的(一些市场不需要它们),并由专用的128位寄存器文件(如A53)提供。A53 / A55中的每个SIMD NEON管可以执行8个8位整数,4个16位整数,2个32位整数或单精度浮点(FP)或1个64位整数或双精度FP每个周期的操作,使程序员能够灵活地选择精度和性能之间的平衡。作为对ARMv8.2架构的支持的一部分,A55也获得了对半精度FP16操作的本地支持。A53可以获取FP16值,但在执行前需要转换为FP32。这不再是A55的情况,A55还包括一个新的INT8点产品指令,是机器学习的另一个有用的补充,它比A53提供了4倍的性能改进(在考虑到内存系统改进时,它增加到5倍)。A55代替像A53一样背靠背执行多个指令,只需要通过管道推一个指令。最后一个值得注意的改进是能够在单次通过中进行融合乘法加法(FMA),而不是对A53进行融合乘法(FMA),从而将延迟从8个周期减少到4个。A55与A53有很多共同点,这并不奇怪,因为A53已经提供了良好的核心吞吐量。虽然A55对NEON / FP管道进行了一些改进,主要是由ARMv8.2提供的附加说明,其大部分性能提升来自内存系统的变化,意味着减少核心档位数量及其延迟影响确实发生
ARM一直在忙,为下一代SoC提供了几项关键技术。DynamIQ可能不像新的CPU那么华丽,但作为big.LITTLE的替代品,这一点也是重要的。看看ARM的合作伙伴如何利用其灵活性将是有趣的。我们会继续看到高端大小核心的4 + 4组合,低端到中端的8个小核心?或者我们会看到A55包围的单个A75的新7 + 1或3 + 1组合?目前只有A75 / A55与DynamIQ兼容,新的CPU不能与使用big.LITTLE的旧内核混合使用。这意味着我们不会在联发科的Helio X30外面看到A35中使用的A35。DynamIQ也是以其他方式升级到bL。将大核心和小核心放置在同一个集群内部带来了几个好处:使L2缓存本地到每个CPU,并添加可选的L3缓存可提高总体内存性能,减少线程迁移延迟,并且CPU可以更快地上电/下电,这可能导致更好的电池寿命。A55的额外表现是值得欢迎的变化。这应该对移动应用程序的用户体验产生实际的改进,当然也可以使用专门使用A55内核的设备。即使具有A75内核的设备,如果线程花费大部分时间运行在小核心上,仍然会看到一些好处。ARM已经通过A53的2宽排序核心推动了吞吐量,尽可能的。鉴于A53 / A55的电力和区域目标,在这个阶段不可能进行更广泛或不合乎规定。相反,ARM专注于改进内存系统,减少延迟并提高排序核心的利用率,同时保持数据的供应。增加的性能带来了小功率的冲击,但整体效率更好。对于A75,移动到3层解码,整个缓存层次结构中的改进,以及改进其无序功能的调整应该能够在整数和浮点工作负载中比A73高出明显的性能提升。在同一频率下,A72在某些情况下实际表现优于A73。我期望A75不会这样。根据ARM的数据,A75的性能提升有助于它保持与A73相同的效率,但功耗更高,这对我来说有一点。ARM有一个优化其参考设计的实施团队,因此其功率数量是SoC供应商的目标。由于缩短上市时间的压力,供应商并不总是有相同的时间来优化设计,导致更高的功耗和更低的效率。希望供应商能够配合或接近ARM的数字。ARM的A72的主要目标是降低功耗,A73正在提高功率效率,而A75的性能正在提高。下一个核心的目标是什么,这将来自ARM的奥斯汀生产A72的团队?它会像A75一样吗,还是会像A72到A73一样看待哲学的重大转变?团队之间有交流和交叉授粉的想法,所以一定要有一些相似之处,特别是执行管道。最大的变化应该在前面,我不会惊讶地看到一个额外的ALU管道移动到7nm。如果都按计划进行,我们应该在10nm的Q1 2018(也许Q4 2017)中看到第一个使用DynamIQ和A75 / A55的SoC。
提升8%的性能,功耗提升2.6倍,A75高频血崩
机翻不出关键词。。
机翻么。。。
一看就是google翻译
所以a75比a72优秀多少?,朕的酷安都亡了,说这些还有什么用
一股子机翻的味道,不过基本能看明白话的意思了
前面那个a55和a53的柱状图,超个百分之几百分之十几图片上也差的太远了吧,不注意还以为翻倍了
这机翻没法看啊……还是看原文了
机翻的感觉
a55的艹频能力有没有提高啊如果像a53一样,2ghz以上艹频收益很低,那么就没意思了
问下,是Google翻译的么
所以,A75很容易翻车咯?
登录百度帐号推荐应用

我要回帖

更多关于 拉达克人如何看待中国 的文章

 

随机推荐