16岁的人打一拳多少力多少牛能那动120斤算力大吗

现在的位置:
AI时代,花一美元或一瓦电能买到多强的算力?
当真正需要在嵌入式终端设备中使用AI技术时,客户的诉求更多的集中在功耗、响应时间、成本等方面,对性能的无尽追求反而不是重点,这和很多人之前的预想并不一致。花一美元或一瓦电能买到多强的算力?
算法、数据和算力,并称为新AI时代三大驱动力。如何在追求更好性能的同时实现低功耗、低延迟和低成本,逐渐成为摆在所有AI从业者面前的艰巨挑战之一。日前,深鉴科技ASIC副总裁陈忠民应邀在“2018人工智能与半导体技术国际论坛”发表演讲就指出:当真正需要在嵌入式终端设备中使用AI技术时,客户的诉求更多的集中在功耗、响应时间、成本等方面,对性能的无尽追求反而不是重点,这和很多人之前的预想并不一致。”他提出客户最切实的需求是:花一美元或一瓦电能买到多强的算力?
如何解决当下面临的算力与功耗比的困境,深鉴科技本次演讲主题《人工智能芯片设计与应用:软硬件协同》提出新的思路。而会后陈忠民与《电子工程专辑》就如何突破AI芯片的算力与功耗的限制进行更加深入的对谈。表明这是两种很难调和的矛盾。深鉴科技研发团队为此进行了深入分析,试图解开困扰当前AI运算的谜团。
算力与功耗,真的难以兼得?
在接受《电子工程专辑》的电话采访时,陈忠民提及:随着海量数据的爆炸式增长与摩尔定律的逐渐放缓,可以看到像英伟达、英特尔、微软、谷歌这样的行业巨头纷纷推出了定制化专用AI芯片。尽管实现方式不同,但无论是选择FPGA还是ASIC,都在向业界传递一个明确的信号:即整个AI运算今后将会从通用计算平台走向定制化计算平台。追求更好性能,兼顾低功耗、低延迟和低成本将会是未来的主流趋势。
图1中,很多硬件平台都展示了自身所具备的强大算力,然而当用户在真正运行一个应用时,却发现由于内存带宽的限制和架构的限制,依然不能将所有的AI运算单元填满,从而导致计算硬件的计算效率低下。以谷歌第一代TPU为例,其平均硬件乘法阵列使用率只有28%,这意味着72%的硬件在大部分时间内是没有任何事情可以做的。
另一方面,在设计AI平台的时候,大量运算引擎所带来的能量消耗是不可忽视的。
图2表明,如果将完成16位整数加法能量消耗定义为1,那么将32比特的数据从DDR内存传输到芯片中,就将花费1万倍的能量消耗。因此,过大的访问带宽将会直接导致AI芯片功耗高居不下。
问题找到了,接下来该如何提升计算效率、降低功耗?陈忠民表示深鉴经过多次研究,总结出三条路径:首先,优化计算引擎,增加计算并行度;其次,优化访存系统;第三,利用神经网络稀疏性,实现软硬件协同设计。
Yann LeCun教授在IBM 45nm芯片上采用NeuFlow新架构为例,新架构使得芯片性能直接上升到了1.2T,这比传统CPU高出约100倍,比V6 FPGA实现的NeuFlow高出8倍,说明当架构设计得到改进后,更多的并行运算单元的确能够提升性能,让所有的硬件数据得到充分的运算。
“如果我打算构建一个8位乘法器,或是一个浮点16位乘法器,在每一代工艺节点下,是不是就一定会有天然的物理极限?要消耗多少晶体管才能实现一个16比特的乘法是一个定数”陈忠民说。一个有趣的事实是,早期之所以要在硬件和算法之间画出一道明显的界限,是因为处理器设计人员永远不知道将来要运行一个怎样的程序,是一个数据库应用还是一个网页显示?所以最简单的方法就是把接口标准化,这样,软件工程师透过编译器就可以将程序变成标准的硬件指令去执行。然而到了AI时代,每一个神经网络要做什么,设计人员都非常清楚,那么硬件就可以想办法实现与软件的配合,突破摩尔定律限制,做出兼具高性能与低功耗的产品。
软硬件协同优化
作为一家专注于提供从算法压缩、到软件/硬件、再到系统的完整解决方案的新锐AI公司,深鉴科技一直试图通过核心的深度压缩技术优化算法,结合自有深度学习底层架构—亚里士多德架构和笛卡尔架构,实现算法和硬件的协同优化,促进嵌入式端与云端的推理平台更加高效、便捷、经济。
深鉴科技联合创始人韩松博士是世界上首位提出利用稀疏性和模型量化来压缩运算量的科学家。简单来说,就是当拿到一个浮点32位或者浮点16位的模型之后,由于稀疏性的存在,完全可以将那些对结果没有影响的运算从神经网络中剪除,这样就能在减少运算量的同时保持整个网络的精度。对于现在的卷积神经网络来说,也没有必要通过运行浮点16/32位才能保证足够的精度,很多整数运算在某些网络层上已经可以实现。因此通过量化的方法,将一些浮点数转化为定点数运算,比如将16位浮点加运算转化为16位整数加运算时,能量消耗就会下降87.5%。
采访中,陈忠民将深鉴科技软硬件协同优化思路归结为“一句话”:软件定义硬件架构,而高效的硬件架构定义软件的组织方式。这种优化需要实现“三个目标”:第一,要在有限的资源下实现尽可能高的峰值性能;第二,需要优化硬件的微结构和编译工具来提升整体计算效率;第三,所有工作都不能破坏模型的精度。
然而“知易行难”,要做到这三点并不容易。
图3是他向记者展示的不同计算特质的硬件架构,可以看到,一个标准的CNN网络里会包括一些共通的层,比如卷积层和全连接层。卷积层进行的是密集型计算,消耗的带宽有限,如果并行化能力突出,就可以用更多的计算单元来获得更好的卷积层性能;对全连接层而言,计算能力会被访存的带宽所限制,因此设计者需要思考为FC层所付出的硬件代价是什么?要怎样去构建硬件结构?等关键问题。
此外,一个众所周知的事实是,AI算法始终处于持续进化状态,即便是在同一个算法内部,仍然存在多种不同的算子。这势必要求设计者在硬件设计结构上时刻保持前瞻性分析,了解最新的算法趋势,平衡不同算子间的效率,深刻剖析整个网络里每一层的硬件需求,并借此设计出一个合理的、高效的硬件架构。
“针对这些不同的方法论,我们采取了很多应对策略。”陈忠民解释说,在整个硬件设计中,深鉴科技一直在追寻低比特量化的运算,同时要把运算单元整体充分调动起来,继而在编译器层面对神经网络数据结构做了很多优化,开发了自己的编译工具。在保持在模型精度不变的情况下将网络压缩降低运算量。
揭开“听涛”SoC的神秘面纱
今年上半年,深鉴科技将落实芯片计划,正式发布基于自主研发的人工智能处理器核心DPU 的“听涛”系列 SoC。资料显示,该DPU属于卷积神经网络加速器,能够实现高效地图像检测、识别、分类等AI应用。早前在该架构基础之上,深鉴科技做出了第一代FPGA产品,已经在摄像头市场实现了批量出货。
DPU计算核心采用全流水设计结构设计,内部集成了大量的卷积运算器、加法器、非线性等运算单元。高效率的架构设计会确保每一个运算单元都能够被充分的调动起来。像VGG16比较重的应用中,深鉴科技DPU的运算器利用率可以达到85%,对主流算法可以达到50%以上,功耗方面则大大低于竞争对手的产品。
陈忠民对记者说,在实际的客户拜访中,他注意到这样一个现象,即某些行业客户有自己偏爱的算法。深鉴科技就在自己开发的DNNDK工具链中毫无保留地加入了自动网络压缩和自动编译,任何一家客户的算法在DNNDK编译的过程中将自动完成网络的压缩,将浮点32位网络压缩成定点8位的运算网络,从而实现网络运算量的降低。客户甚至只用了50行代码就可以实现了一个Resnet 50的算法结构,极为便捷。
在论坛现场,陈忠民展示了DNNDK在SSD算法上的结果。如图4,蓝色表示运算量,灰色表示运算精度。可以看到,在SSD算法上经过了若干轮迭代的压缩之后,整个运算量压缩从120降到了11.5,只有原来网络的1/10,同时基本保持了整个运算模型的精度没有变化。据此,陈忠民认为深度压缩可以使网络计算量变的更少,实现轻量化AI的运算。
相比现有FPGA产品的较高功耗,将于年中交付的“听涛”SoC产品的预期功耗约为3瓦,峰值算力4TOPS。考虑到网络压缩部分,等效的算力应该再扩大5-10倍。当下嵌入式领域的AI芯片中,无论是FPGA还是GPU,都很难越过每瓦1TOPs能效比,而听涛将会超过这条能效比的红线。
“我们希望通过自身在神经网络压缩以及先进芯片设计技术方面的经验,能够帮助客户得到更好的AI应用体验。他们完全不必关心使用何种硬件,只需要根据自己的性能和功耗需求选择适合的硬件平台即可。”这是陈忠民,也是深鉴科技对客户,也是对AI芯片未来的期望。
原文地址:http://www.eeboard.com/news/ai-191/
搜索爱板网加关注,每日最新的开发板、智能硬件、硬件、活动等信息可以让你一手全掌握。推荐关注!
【微信扫描下图可直接关注】
【上篇】【下篇】
接下来的实验中,立命馆大学教授北岗明佳(认知心理学)做出了调整。他向AI展示了“盘蛇错视图”——一种花纹犹如卷曲着的蛇的静态图片,随后,AI判断图片中的圆是在动态转动,并预测了它们的转速...
人工智能的竞争已经进入了深水区,早些年人们探索图片识别、语音识别等各种算法,随后人们又开拓各种使用场景,从汽车到家庭,再到手机,AI无处不在;而现在,AI领域的竞争已经进入了深水区—...
谷歌公司CEO桑达尔·皮查伊和其他高管曾反复强调,谷歌是一家“人工智能第一”的公司,谷歌不仅为开发者们提供人工智能服务,其旗下的Waymo公司还凭借自主研发的人工智能技术在自动驾驶领域拥有...
据国内媒体报导,3 月 19 日,在香港 Linaro 开发者大会上,华为发布全球领先的人工智能开发平台「HiKey 970」。
近日,《自然》杂志再出人工智能重磅成果。
您必须才能发表留言!AI时代,一美元能够买到多强的算力? - 电子工程专辑
当真正需要在嵌入式终端设备中使用AI技术时,客户的诉求更多的集中在功耗、响应时间、成本等方面,对性能的无尽追求反而不是重点,这和很多人之前的预想并不一致。花一美元或一瓦电能买到多强的算力?
算法、数据和算力,并称为新AI时代三大驱动力。如何在追求更好性能的同时实现低功耗、低延迟和低成本,逐渐成为摆在所有AI从业者面前的艰巨挑战之一。日前,深鉴科技ASIC副总裁陈忠民应邀在“2018人工智能与半导体技术国际论坛”发表演讲就指出:当真正需要在嵌入式终端设备中使用AI技术时,客户的诉求更多的集中在功耗、响应时间、成本等方面,对性能的无尽追求反而不是重点,这和很多人之前的预想并不一致。”他提出客户最切实的需求是:花一美元或一瓦电能买到多强的算力?
【广告植入】
点击右边链接即可报名参加:
如何解决当下面临的算力与功耗比的困境,深鉴科技本次演讲主题《人工智能芯片设计与应用:软硬件协同》提出新的思路。而会后陈忠民与《电子工程专辑》就如何突破AI芯片的算力与功耗的限制进行更加深入的对谈。表明这是两种很难调和的矛盾。深鉴科技研发团队为此进行了深入分析,试图解开困扰当前AI运算的谜团。
算力与功耗,真的难以兼得?
在接受《电子工程专辑》的电话采访时,陈忠民提及:随着海量数据的爆炸式增长与摩尔定律的逐渐放缓,可以看到像英伟达、英特尔、微软、谷歌这样的行业巨头纷纷推出了定制化专用AI芯片。尽管实现方式不同,但无论是选择FPGA还是ASIC,都在向业界传递一个明确的信号:即整个AI运算今后将会从通用计算平台走向定制化计算平台。追求更好性能,兼顾低功耗、低延迟和低成本将会是未来的主流趋势。
图1中,很多硬件平台都展示了自身所具备的强大算力,然而当用户在真正运行一个应用时,却发现由于内存带宽的限制和架构的限制,依然不能将所有的AI运算单元填满,从而导致计算硬件的计算效率低下。以谷歌第一代TPU为例,其平均硬件乘法阵列使用率只有28%,这意味着72%的硬件在大部分时间内是没有任何事情可以做的。
另一方面,在设计AI平台的时候,大量运算引擎所带来的能量消耗是不可忽视的。
图2表明,如果将完成16位整数加法能量消耗定义为1,那么将32比特的数据从DDR内存传输到芯片中,就将花费1万倍的能量消耗。因此,过大的访问带宽将会直接导致AI芯片功耗高居不下。
问题找到了,接下来该如何提升计算效率、降低功耗?陈忠民表示深鉴经过多次研究,总结出三条路径:首先,优化计算引擎,增加计算并行度;其次,优化访存系统;第三,利用神经网络稀疏性,实现软硬件协同设计。
Yann LeCun教授在IBM 45nm芯片上采用NeuFlow新架构为例,新架构使得芯片性能直接上升到了1.2T,这比传统CPU高出约100倍,比V6 FPGA实现的NeuFlow高出8倍,说明当架构设计得到改进后,更多的并行运算单元的确能够提升性能,让所有的硬件数据得到充分的运算。
“如果我打算构建一个8位乘法器,或是一个浮点16位乘法器,在每一代工艺节点下,是不是就一定会有天然的物理极限?要消耗多少晶体管才能实现一个16比特的乘法是一个定数”陈忠民说。一个有趣的事实是,早期之所以要在硬件和算法之间画出一道明显的界限,是因为处理器设计人员永远不知道将来要运行一个怎样的程序,是一个数据库应用还是一个网页显示?所以最简单的方法就是把接口标准化,这样,软件工程师透过编译器就可以将程序变成标准的硬件指令去执行。然而到了AI时代,每一个神经网络要做什么,设计人员都非常清楚,那么硬件就可以想办法实现与软件的配合,突破摩尔定律限制,做出兼具高性能与低功耗的产品。
软硬件协同优化
作为一家专注于提供从算法压缩、到软件/硬件、再到系统的完整解决方案的新锐AI公司,深鉴科技一直试图通过核心的深度压缩技术优化算法,结合自有深度学习底层架构—亚里士多德架构和笛卡尔架构,实现算法和硬件的协同优化,促进嵌入式端与云端的推理平台更加高效、便捷、经济。
深鉴科技联合创始人韩松博士是世界上首位提出利用稀疏性和模型量化来压缩运算量的科学家。简单来说,就是当拿到一个浮点32位或者浮点16位的模型之后,由于稀疏性的存在,完全可以将那些对结果没有影响的运算从神经网络中剪除,这样就能在减少运算量的同时保持整个网络的精度。对于现在的卷积神经网络来说,也没有必要通过运行浮点16/32位才能保证足够的精度,很多整数运算在某些网络层上已经可以实现。因此通过量化的方法,将一些浮点数转化为定点数运算,比如将16位浮点加运算转化为16位整数加运算时,能量消耗就会下降87.5%。
采访中,陈忠民将深鉴科技软硬件协同优化思路归结为“一句话”:软件定义硬件架构,而高效的硬件架构定义软件的组织方式。这种优化需要实现“三个目标”:第一,要在有限的资源下实现尽可能高的峰值性能;第二,需要优化硬件的微结构和编译工具来提升整体计算效率;第三,所有工作都不能破坏模型的精度。
然而“知易行难”,要做到这三点并不容易。
图3是他向记者展示的不同计算特质的硬件架构,可以看到,一个标准的CNN网络里会包括一些共通的层,比如卷积层和全连接层。卷积层进行的是密集型计算,消耗的带宽有限,如果并行化能力突出,就可以用更多的计算单元来获得更好的卷积层性能;对全连接层而言,计算能力会被访存的带宽所限制,因此设计者需要思考为FC层所付出的硬件代价是什么?要怎样去构建硬件结构?等关键问题。
此外,一个众所周知的事实是,AI算法始终处于持续进化状态,即便是在同一个算法内部,仍然存在多种不同的算子。这势必要求设计者在硬件设计结构上时刻保持前瞻性分析,了解最新的算法趋势,平衡不同算子间的效率,深刻剖析整个网络里每一层的硬件需求,并借此设计出一个合理的、高效的硬件架构。
“针对这些不同的方法论,我们采取了很多应对策略。”陈忠民解释说,在整个硬件设计中,深鉴科技一直在追寻低比特量化的运算,同时要把运算单元整体充分调动起来,继而在编译器层面对神经网络数据结构做了很多优化,开发了自己的编译工具。在保持在模型精度不变的情况下将网络压缩降低运算量。
揭开“听涛”SoC的神秘面纱
今年上半年,深鉴科技将落实芯片计划,正式发布基于自主研发的人工智能处理器核心DPU 的“听涛”系列 SoC。资料显示,该DPU属于卷积神经网络加速器,能够实现高效地图像检测、识别、分类等AI应用。早前在该架构基础之上,深鉴科技做出了第一代FPGA产品,已经在摄像头市场实现了批量出货。
DPU计算核心采用全流水设计结构设计,内部集成了大量的卷积运算器、加法器、非线性等运算单元。高效率的架构设计会确保每一个运算单元都能够被充分的调动起来。像VGG16比较重的应用中,深鉴科技DPU的运算器利用率可以达到85%,对主流算法可以达到50%以上,功耗方面则大大低于竞争对手的产品。
陈忠民对记者说,在实际的客户拜访中,他注意到这样一个现象,即某些行业客户有自己偏爱的算法。深鉴科技就在自己开发的DNNDK工具链中毫无保留地加入了自动网络压缩和自动编译,任何一家客户的算法在DNNDK编译的过程中将自动完成网络的压缩,将浮点32位网络压缩成定点8位的运算网络,从而实现网络运算量的降低。客户甚至只用了50行代码就可以实现了一个Resnet 50的算法结构,极为便捷。
在论坛现场,陈忠民展示了DNNDK在SSD算法上的结果。如图4,蓝色表示运算量,灰色表示运算精度。可以看到,在SSD算法上经过了若干轮迭代的压缩之后,整个运算量压缩从120降到了11.5,只有原来网络的1/10,同时基本保持了整个运算模型的精度没有变化。据此,陈忠民认为深度压缩可以使网络计算量变的更少,实现轻量化AI的运算。
相比现有FPGA产品的较高功耗,将于年中交付的“听涛”SoC产品的预期功耗约为3瓦,峰值算力4TOPS。考虑到网络压缩部分,等效的算力应该再扩大5-10倍。当下嵌入式领域的AI芯片中,无论是FPGA还是GPU,都很难越过每瓦1TOPs能效比,而听涛将会超过这条能效比的红线。
“我们希望通过自身在神经网络压缩以及先进芯片设计技术方面的经验,能够帮助客户得到更好的AI应用体验。他们完全不必关心使用何种硬件,只需要根据自己的性能和功耗需求选择适合的硬件平台即可。”这是陈忠民,也是深鉴科技对客户,也是对AI芯片未来的期望。
最后做个跟人工智能相关的重要活动的宣传:
对于人工智能IC设计和市场感兴趣的朋友,可以点击图片或右边的链接报名参加:
本文为《电子工程专辑》原创,版权所有,谢绝转载摘要:新智元报道来源:GTC作者:闻菲、张乾、肖琴【新智元导读】今天在刚刚结束的GTC2018上,英伟达CEO黄仁勋发布了迄今最大的GPU:NvidiaDGX-2。由16块各32GB的TeslaV100GP
新智元报道来源:GTC作者:闻菲、张乾、肖琴【新智元导读】今天在刚刚结束的 GTC 2018 上,英伟达 CEO 黄仁勋发布了迄今最大的 GPU:Nvidia DGX-2。由16块各32GB的Tesla V100 GPU组成,提供超算级算力,售价约250万元。黄仁勋在熟悉的背景音乐中上场,GTC今年已经是第十年了。称不上激昂,但显然迫不及待要分享。不是首先揭幕万众期待的新品,而是回归初心——黄仁勋说,图形技术是GPU的核心驱动力,是虚拟现实的根本,在各种各样的领域,我们想将信息和数据可视化,形成了R&D预算,由此也构建了巨大的市场。重现逼真图像是计算机图形学一直以来的追求,要呈现一幅美丽的图像,40年来,GPU渲染一幅图的时间,从几小时降到了几秒,而且图像的清晰度增加到了4K。接着,黄仁勋回顾了各种技术,光的反射、散射、漫射、阴影……以及要渲染出种种质感相应的技术。接着,展示了一段《星球大战》视频的演示,重点是逼真效果的实时Ray Tracing,各种表面的光线反射,每当一束光线遇到一个表面,都要决定要反射还是被吸收,什么角度反射,被吸收多少程度,整个环境中到处都是表面,每一个都需要渲染……这些需要庞大的计算量,因此动画公司才需要超级计算机来计算这些效果。十年技术成果,首次将实时光线跟踪技术推向商业市场而英伟达一台DGX-Station就够了。于是,第一个宣布——RTX Technolgy,这是英伟达十年技术成果,也是Ray Tracing首次在这种规格上,全部实时实现。黄仁勋说,这是首次将实时Ray Tracing带向商业市场。感谢GPU,感谢深度学习。英伟达推出的Quadro GV100 GPU将该公司最近发布的RTX光线跟踪技术引入工作站。英伟达的RTX光线追踪技术是软件和硬件的组合,允许应用程序生成实时光线追踪效果。Quadro GV100配备32GB内存,与Tesla V100有相同的底层设计。GV100可以提供高达7.4 TeraFLOPS的双精度和14.8 TeraFLOPS的单精度计算。英伟达表示这个显卡还可以提供高达118.5 TeraFLOPS的深度学习性能。Quadro GV100还支持NVLink 2互连技术,可以将这两个设备配对在一起。总共64GB的HBM2内存,10,240个CUDA内核和236个张量内核整合到一个工作站中。电影大片完成后,要得到逼真效果,“CPU渲染一帧10小时,”黄仁勋说:“使用GPU要快很多,而且更重要的是,能省钱——大家都知道了,你买的GPU越多,你省的钱越多。”现在这已经是常识了。全球最大GPU,核弹轰炸!!!接着,也是全场最重要揭幕了全球最大GPU——Quadro GV100,这是一个GPU工作站,2个GV100,使用NVLink相连,形成一个完整的工作站,软件感觉不到切换。VIDIA TESLA V100 32GB,SXM3双板总计16块GPU,总计512GB HBM2 存储每块GPU板由8块NVIDIA Tesla V100组成总计12 NVSwitch 连接高速互连,2.4 TB/秒对分带宽。8 EDR 无线带宽 / 100 GbE 以太网1600 Gb/秒双向带宽和低延迟。PCIE Switch Complex2个英特尔Xeon Platinum CPUs1.5 TB系统内存双10/25 GbE 以太网30 TB NVME SSDS内部存储这个全球最大的GPU有多大?感受一下:普通GPU(你能看出型号吗?是N粉就说!)这是最大GPU:相比庞大繁重的CPU机架,使用英伟达RTX Quadro GV100,14-Quad-GPU服务器,“省下成千万上亿美元”。新系统旨在允许开发人员扩大其神经网络的规模。DGX-2具有12个NVSwitch,每个NVSwitch的特点是在台积电12nm FinFET工艺上制造了120亿个晶体管。每个交换机都具有18个8位NVLink连接。IBM已经宣布将于2019年推出采用NVLink 3.0的Power9系统,因此我们预计NVSwitch将利用这种互补互连。太美了,太性感了,太美了。黄仁勋掩饰不住沉醉。DGX-2专门为深度学习,而生一天半就完成了。如今AI研究员使用AI设计/发现AI,实验的规模和数量都不断增长。更多的实验、更多的数据,DGX-2推出的时机不能在好了。价格?39.9万美元。加倍Tesla V100内存下面简单介绍其他宣布。特斯拉V100采用了迄今为止生产量最大的单模芯片。采用台积电12纳米FFN工艺制造的815毫米2 伏特晶体管,使用了210亿个晶体管,几乎是全分划板的尺寸。GPU包装了5120个用于AI工作负载的CUDA核心,虽然它具有足够的处理能力,但英伟达已经使用额外的16GB HBM2内存支持该卡。英伟达表示,更强大的32GB内存可以在内存受限的HPC工作负载中实现双倍的性能。NVSwitch拓扑将16个GPU连接在一起,形成一个具有统一内存空间的统一内核单元,从而创建Jensen吹捧为“世界上最大的GPU”的内容。该系统共有512GB HBM2内存,可提供高达14.4TB / s的吞吐量。它共有81,920个CUDA内核。GPU接受程度前所未有,形成全球计算范式接着,黄仁勋表示,英伟达做的最好决定之一,是这些年来,让GPU越来越通用,在不损失计算机图形学性能的前提下,将GPU导向深度学习。然后,引爆点到来,现在,GPU已经成为广为接受的一种计算范式,全世界有100万GPU工程师,GTC成为全球会议,cuDNN 800万次下载,一大半都发生在去年一年,而英伟达10年前就开始提供。GPU接受程度前所未有,然而,这还不够。我们还需要更大的计算机,更快的计算机。加州理工大学要模拟一个项目,需要7天;要模拟一个艾滋病模型,需要3个月。过去5年,GPU增速25倍,远远超出摩尔定律。我们正处于超级摩尔定律时代,而这一趋势也将持续。接着是教主的自豪/自傲时间,英伟达基本上每年都推出新架构,与软件工程师合作保持套件更新。总之,说道这里,教主表示,祝贺John Hennessy和David Patterson获得2017年的图灵奖,“John的体系结构演讲精彩非凡——但是,我的演讲很简单,”黄仁勋说,没错,英伟达在高性能计算(HPC)方面,也(买越多越)省钱!要让医生/医院更换现有基础设施,需要30年。等不了这么久,怎么办?有没有办法利用现有技术,在改动不大的前提下,给予医生更大的智能能力。英伟达医疗图像超级计算机Clara应运而生。接入现有的医疗设备,比如超声波检测仪,就能将整套流程全部升级——使用深度学习,在原来的黑白图像上实时渲染出颜色,分层、分区域,并且变为3D图像,后期各种计算机技术,提升图像质量,医生的检测能够变得更加敏锐清晰。目前,英伟达的Clara计划已经与数十家公司,初创企业为主,构建了生态。可以想象,将英伟达的超级医疗图像计算机部署到医院,又打开了一大市场。推理很难:公布TensorRT 4.0,以及Kubernetes on GPU讲到这里,黄教主已经一个人说了1个多小时。“Plaster。”说完这个词,他停了一会,歇一口气。这也是教主自己发明的词,希望向世人传达的GTC第二大要点。这个词是关于推理(inference)。推理很难,精度、通量……各种变量要考虑。如何让推理变得更好?这里,当然是英伟达的高性能神经网络推理引擎TensorRT的更新——TensorRT 4.0发布,用于在生产环境中部署深度学习应用程序,应用有图像分类、分割和目标检测等,可提供最大的推理吞吐量和效率。TensorRT是第一款可编程推理加速器,能加速现有和未来的网络架。TensorRT 4.0实现全栈连接。与CPU相比,NVIDIA TensorRT 4 现在可以将AI任务的参数加速200倍,适用于图像分类、分割、物体检测、语音识别、机器翻译等应用。此外,还有英伟达GPU Kubernets。Kubernetes借助NVIDIA GPU,开发人员现在可以即时地将GPU加速的深度学习和HPC应用程序部署到multi-cloud GPU群集中。“人生完整了。”黄仁勋说。暂停无人车研发,英伟达股价下跌3.8%一口气发布这么多款产品,黄教主可谓是蛮拼的,但其实这样做也是英伟达不得不为之的事情。值得一提,在黄仁勋演讲接近尾声的时候,英伟达股票下跌了3.8%。“我们要暂定无人驾驶的研发。”黄仁勋说。Uber自动驾驶致死事故显然对英伟达造成了巨大的影响。根据公开资料,Uber从2016年首次部署沃尔沃SC90 SUVS测试车队以来,一直使用英伟达的计算技术。这让人想起了当年特斯拉车祸时,与特斯拉分手的Moibleye——但不同的是,Mobileye并没有要停止研发,而是迅速搭上了其他公司,而后被英特尔以153亿美元的高价收归旗下。英伟达目前没有表示具体研发计划暂定的时间。虽然现实世界中停止路测,但英伟达还推出了一个测试自动驾驶汽车的新系统DRIVE Con stellation,这是一款基于云计算的平台,将使用逼真模拟测试驾驶场景。系统在两台服务器上运行。第一台服务器支持Nvidia DRIVE Sim,它一款模拟自动驾驶汽车各种传感器(包括其摄像头,激光雷达和雷达)的软件。第二台服务器包含Nvidia DRIVE Pegasus AI,它将处理收集的数据,就好像它来自道路上自驾车的传感器。前压后赶,英伟达衰相已现?其次,也不要忘记英伟达面临的众多对手。首先是英特尔。英特尔去年宣布发布Nervana神经网络处理器(NNP)系列芯片,代号为Lake Crest。这款芯片的强大之处在于,它由“处理集群”阵列构成,处理“活动点(flexpoint)”的简化数学运算。这种运算相对于浮点运算所需的数据量更少,性能号称提升10倍。不过,Nervana系列芯片宣称2017年年底量产,但直到现在还一直跳票;而且,英伟达已经在游戏、深度学习、自动驾驶等领域建立起自己的芯片生态圈,“护城河”相当宽。但是,就像黄教主经常揶揄CPU的摩尔定律一样,反过来看,GPU并没有本质上的突破,GPU的现在优势可能很容易就被性能一日千里的神经网络芯片超越,英伟达的护城河很快就会被攻破。跟英特尔一起攻城的还有赛灵思。今年3月20日,赛灵思推出ACAP(Adaptive Compute Acceleration Platform,自适应计算加速平台),ACAP是一个高度集成的多核异构计算平台,它的核心是新一代FPGA架构,能根据各种应用与工作负载的需求从硬件层对其进行灵活变化。ACAP的灵活应变能力可在工作过程中进行动态调节,它的功能将远超FPGA的极限。赛灵思新任CEO Victor Peng在接受新智元采访时表示,GPU虽然在某些方面比CPU能处理的更好,但也不能适应所有的情况,因此现在更多需要的是异构计算。尤其是在人工智能时代,赛灵思也想通过自身在异构计算方面优势来实现对英伟达以及英特尔的赶超。除了前面两个大块头,AI芯片创业公司也让这片市场从蓝海变成红海。中国有寒武纪、地平线、深鉴科技,英国有哈萨比斯投资的Graphcore,美国也有多家AI芯片初创公司。这些公司针对的是不同的应用场景,每一家都有可能抢走英伟达的细分市场。不过,最能给英伟达造成威胁的,还应当是带头大哥谷歌。虽然谷歌的TPU只是用在谷歌内部,但单从硬件性能看,TPU已经超越英伟达GPU。黄教主,你压力大吗?
本文仅代表作者观点,不代表百度立场。本文系作者授权百度百家发表,未经许可,不得转载。
分享到微信朋友圈
打开微信,点击 “ 发现 ”
使用 “ 扫一扫 ” 即可将网页分享至朋友圈。
扫一扫在手机阅读、分享本文
百家号作者平台APP
扫码下载安卓客户端
便捷管理文章信息
随时查看文章收益

我要回帖

更多关于 16岁的人打一拳多少力多少牛 的文章

 

随机推荐