英伟达开发了可以自动将矩阵运算法则转移到gpu中吗

业界 | 深度学习硬件对比评测:英特尔FPGA和英伟达GPU哪个更好?
选自Nextplatform
作者:Linda Barney
参与:李泽南、晏奇、黄小天、吴攀
FPGA 会随着深度学习的发展占领 GPU 的市场吗?英特尔的研究人员对目前最好的两种芯片做了对比。
社交媒体和物联网正持续不断地以指数级方式产出语音、视频、图像等数字数据,这带动了对于数据分析(让数据变得可理解与可执行)的需求。数据分析经常依赖于机器学习(ML)算法。在众多机器学习算法中,深度卷积神经网络在重要的图像分类任务中具有当前最高的精确度,因而被广泛采用。
在最近的「2017 现场可编程门阵列国际大会(ISFPGA)」上,来自英特尔加速器架构实验室(AAL)的 Eriko Nurvitadhi 博士展示了有关「在加速新一代深度神经网络方面,FPGA 可否击败 GPU」的研究,其研究使用最新的 DNN 算法在两代英特尔 FPGA(Arria10 与 Stratix 10)与目前最高性能的英伟达 Titan X Pascal GPU 之间做了对比评估。
论文地址:http://dl.acm.org/citation.cfm?id=3021740
英特尔 Programmable Solutions Group 的 FPGA 架构师以及论文的联合作者之一 Randy Huang 博士说:
深度学习是人工智能之中一个最激奋人心的领域,其取得了人工智能领域的最大进展,并催生出了最多的应用。尽管人工智能和 DNN 研究者喜欢使用 GPU,但我们发现英特尔新一代 FPGA 架构与应用领域之间存在着一个完美的契合。我们关注着即将来临的 FPGA 技术进步,DNN 算法的快速进展,并考虑着未来的高性能 FPGA 在新一代 DNN 算法的表现上能否胜过 GPU。通过研究我们发现在 DNN 研究中 FPGA 表现很好,并可用在人工智能、大数据或机器学习等需要分析大量数据的研究领域。当使用剪枝过的或紧密的数据类型 VS 全 32 位浮点数(FP32)时,被测试的英特尔 Stratix 10 的表现胜过了 GPU。除了性能之外,FPGA 同样很强大,因为其适应性强,并且可通过复用一个现存的芯片而容易地实现变化——一块芯片就可帮助一个团队在 6 个月内把一个想法做成原型,而打造一个 ASIC 则需要 18 个月。
测试中使用的神经网络机器学习
神经网络可以被表示为由加权边(weighted edges)互连起来的神经元图。每个神经元(neuron)和边(edge)都分别与一个激活值与权重相关联。神经网络结构由多层神经元组成。如下图 1 所示:
图 1:深度神经网络概观。该图由 Intel 提供。
神经网络的计算在网络中逐层传递。对于一个给定的层,每个神经元的值由前一层神经元的值与边权重(edge weight)累加相乘计算而成。计算在很大程度上基于乘积-累加操作。DNN 计算由正向与反向通过组成。正向通过在输入层获取一个样本,然后遍历隐藏层,在输出层产生一个预测。对于推理而言,只需要正向通过就能获得一个给定样本的预测结果。对训练而言,从正向通过中得到的错误预测接下来会在反向通过过程中被返回,以此来更新网络的权重——这被称为「反向传播算法(back-propagation algorithm)」。训练会反复进行正向与反向通过操作,从而以此来修正神经网络的权重直到模型可以产生理想精度的结果。
使 FPGA 成为可选项的改变
硬件:尽管和高端 GPU 相比,FPGA 的能量效率(性能/功率)会更好,但是大多数人不知道它们还可以提供顶级的浮点运算性能(floating-point performance)。FPGA 技术正在快速发展。即将上市的 Intel Stratix 10 FPGA 能提供超过 5000 个硬浮点单元(DSP),超过 28MB 的片上内存(M20K),同时整合了高带宽内存(最高可达 4x250GB/s/stack 或 1TB/s),以及由新的 HyperFlex 技术的改善了的频率。英特尔 FPGA 能提供全面的从软件生态系统——从低级硬件描述语言到 OpenCL、C 和 C++的高级软件开发环境。使用 MKL-DNN 库,英特尔将进一步将 FPGA 与英特尔机器学习生态系统和诸如 Caffe 这样的传统架构结合起来。Intel Stratix 10 基于英特尔的 14 纳米技术开发,拥有 FP32 吞吐量上 9.2TFLOP/s 的峰值速度。相比之下,最新的 Titan X Pascal GPU 提供 FP32 吞吐量 11TLOP/s 的速度。
新兴的 DNN 算法:更深的网络可提升精确度,但需要极大地增加参数数量,模型也随之变大;而这一切将对计算力、内存带宽和存储提出更苛刻的要求。如此,人们开始转向更高效的 DNN。采用比 32 位更少的紧密低精度数据类型成为了一个新兴趋势;由 DNN 软件框架(即 TensorFlow)支持的 16 位和 8 位的数据类型正在成为新标准。此外,研究者已经在极低精度 2 位三进制与 1 位二进制 DNN(其值分别地被限制为 (0,+1,-1) 或 (+1,-1))中取得了连续的精度提升。最近 Nurvitadhi 博士合写的一篇论文首次表明,三进制 DNN 能在众所周知的 ImageNet 数据集中取得当前最高的(即,ResNet)精确度。稀疏性(零的存在)是另一个新兴趋势,其可以通过剪枝、ReLU 和 ternarization 等技术被引入到 DNN 的神经元和权重之中,并产生带有 50% 至 90% 零的 DNN。因为没必要在这样的零值上计算,所以如果执行稀疏 DNN 的硬件可以有效地跳过零值计算,那么性能势必提升。
新兴的低精度和稀疏 DNN 算法相比于传统的密集 FP32 DNN 能更大地提升巨型算法的效率,但也带来了 GPU 难以应对的不规律并行和自定义数据类型。相反,FPGA 专为极端的自定义性设计,并在运行不规律并行和自定义数据类型时表现出众。这些趋势将使未来的 FPGA 在运行 DNN、人工智能和机器学习应用方面成为一个可行的平台。Huang 说,FPGA 专用机器学习算法还有更多的峰值储备。
图 2 表示 FPGA 的极端自定义性 (2A),使新兴 DNN (2B) 的高效实现成为可能。
图 3. 矩阵乘法(GEMM)测试的结果,GEMM 是 DNN 中的关键部分
测试 1:矩阵乘法(GEMM)
DNN 严重依赖于矩阵乘法运算(GEMM),常规 DNN 依赖于 FP32 密集 GEMM。而更低精度和稀疏的新 DNN 方法则依赖于低精度(或)稀疏的 GEMM。英特尔的团队评估了两种类型的 GEMM。
FP32 密集 GEMM:团队对比了 FPGA 和 GPU 的数据峰值。结果显示:Stratix 10 和 Titan X Pascal 的峰值理论性能为 11 TFLOPs 和 9.2 TFLOPs。如图 3A 显示,英特尔 Stratix 10 相比 Arria 10 具有更多数量的 DSP,这大大提升了它的 FP32 性能,使其达到了狙击 Titan X 的实力。
低精度 INT6 GEMM:为了展示 FPGA 可定制性带来的优势,实验小组研究了将四个 Int6 封装到 DSP 模块中用于 FPGA 的 6 位(Int6)GEMM 的方式。GPU 并没有对 Int6 的原生支持,在实验中它们使用峰值 Int8 进行比较。图 3B 中的数据显示英特尔 Stratix 10 的表现优于 GPU。同时 FPGA 的能效也占据优势。
超低精度 1 位二进制 GEMM:二进制 DNN 提出了非常紧凑的 1 位数据类型,可通过 xnor 和位计数操作替代乘法,非常适合 FPGA。图 3C 展示了二进制 GEMM 的测试结果,FPGA 的表现优于 GPU(在不同频率目标中可达后者 2 倍-10 倍表现)。
稀疏 GEMM:新出现的稀疏 DNN 包含了大量的零。研究小组测试了稀疏 GEMM 在包含 85% 零的矩阵中的表现(基于剪枝 AlexNet)。团队测试了 FPGA 的灵活性设计——细粒度的方式跳过零计算。该团队还在 GPU 上测试了稀疏 GEMM,但发现性能比在 GPU(相同矩阵大小)上执行密集 GEMM 要差。英特尔的稀疏 GEMM 测试(图 3D)表明,FPGA 的表现优于 GPU,这取决于目标 FPGA 频率。
图 4. FPGA 与 GPU 在三元 ResNet DNN 测试中的精度趋势和结果
测试 2:使用三元 ResNet DNNs
三元 DNN 提出了将神经网络权重约束为+1、0 或-1。这允许稀疏的 2 位权重,并用符号位操作替换了乘法。在测试中,研究小组使用了零跳过、2 位权重和无乘法器的 FPGA 设计来优化三元 ResNet DNN 的运行。
与其他很多种低精度稀疏 DNN 不同,三元 DNN 提供了与现有最强 DNN(如 ResNet)相近的准确率,正如图 4 所示。「目前存在的 GPU 和 FPGA 研究注重在 ImageNet 上'能做到多好?',这些研究基于 2012 年的 AlexNet。在 2015 年,最好的方法是 ResNet,图像识别准确率比前者提升了 10%。在 2016 年下半年的另一个研究中,我们第一次展示了 ResNet 的低精度和稀疏三元版本 DNN 算法可以达到和全精度 ResNet 相差大约 1% 的表现。三元 ResNet 是我们在 FPGA 研究中希望达到的目标。我们的实验结果第一次证明 FPGA 可以提供一流的(ResNet)ImageNet 精度,而且它可以做得比 GPU 更好。」Nurvitadhi 指出。
图 4 显示了英特尔 Stratix 10 FPGA 和 Titan X Pascal 在 ResNet-50 任务中的性能和性能/功耗比。即使保守地估计,英特尔 Stratix 10 FPGA 也已经比实现比 Titan X GPU 高出 60%的表现。中性或乐观的估计则更加亮眼(2.1 倍和 3.5 倍速度提升)。有趣的是,英特尔 Stratix 10 在最高 750MHz 的频率上可以比英伟达 Titan X Pascal(1531 MHz)提供多出 35% 的 性能。在性能/功耗方面,英特尔 Stratix 10 比 Titan X 高出 2.3 到 4.3 倍。
FPGA 在测试中的表现
测试结果显示,英特尔 Stratix 10 FPGA 在 GEMM 稀疏、Int6 和二值化 DNN 中的表现(TOP/sec)比英伟达 Titan X Pasacal GPU 分别要好 10%、50% 和 5.4 倍。在 Ternary-ResNet 中,Stratix 10 FPGA 可以输出超过 Titan X Pascal 60% 的表现,而功耗效率则比对手好上 2.3 倍。实验结果表明:FPGA 可以成为下一代 DNN 的最佳计算平台之选。
FPGA 在深度神经网络的未来
FPGA 在下一代深度神经网络出现时能否击败 GPU 成为主流?英特尔对两代 FPGA(英特尔 Arria 10 和英特尔 Stratix 10)与英伟达 Titan X Pascal 在不同最新 DNN 上的评估表明:DNN 算法的发展趋势或许有利于 FPGA,这种架构在某些任务上的表现大幅超越对手。尽管这些测试是在 2016 年进行的,英特尔的团队已经开始对自家 FPGA 在最新 DNN 算法上的运行和优化开始了研究(如 FFT/winograd 数学变换,主动量化(aggressive quantization)和压缩)。英特尔的团队同时指出,除 DNN 以外,FPGA 在各种对延迟敏感的应用(如自动驾驶辅助系统和工业系统)中也有广泛的前景。
Huang 说道:「目前的机器学习任务都在使用 32 位密度矩阵乘法,这是 GPU 占优势的领域。我们正在鼓励开发者和研究人员加入我们重构机器学习的行列,这样才能让 FPGA 的优势发挥出来,因为 FPGA 可以适应向低精度的转变。」
原文地址://can-fpgas-beat-gpus-accelerating-next-generation-deep-learning/
本文为机器之心编译,转载请联系本公众号获得授权。
?------------------------------------------------
加入机器之心(全职记者/实习生):
投稿或寻求报道:
广告&商务合作:
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点矢量化编程与GPU运算
传统的计算机设计语言,例如C语言,是针对标量的,虽然也提供诸如数组、二维数组的数据结构,但这些结构的赋值、加法、数乘、转置、矩阵相乘还是要通过循环语句完成,十分麻烦,导致程序设计的复杂度也比较高。
mylist = [1,2,3,4,5]
length = len(mylist)
for indx in xrange(length):
mylist[indx] = a*mylist[indx]
print mylist
输出结果:
[10, 20, 30, 40, 50]
而基于矩阵的算法都是针对向量的,这里也称为矢量。为了简化程序的逻辑,就需要一种新的方法,处理基于矩阵的基本运算,这就是所谓的矢量化。
随着程序设计的发展,使用计算机实现矩阵运算越来越方便。最早实现矢量化编程的语言是Matlab的脚本语言,它极大的降低了数学领域程序设计的复杂度。因此大量的人工智能算法最早都是用Matlab语言写的。
自带的List结构,提供切片的功能可以部分实现矢量化编程。其扩展包Numpy提供了专门的矩阵数据结构和线性代数库,完全实现了矢量化编程。
import numpy as np
mylist = [1,2,3,4,5]
mymatrix = np.mat(mylist)
print a*mymatrix
输出结果:
[[10 20 30 40 50]]
矢量化编程的一个重要特点就是可以直接将数学公式转换为相应的程序代码,极大方便了程序的和调试,使复杂数学公式的实现变得简单和方便,本节和下一节所用的矢量化程序的代码一般只有一两行,即可完成复杂的数学运算。
无论是Matlab还是的矢量化编程都可以无缝的调用底层的C函数,还可以提高算法速度。为了提升特定数值运算操作,例如矩阵相乘、矩阵相加、矩阵-向量乘法、浮点运算的速度,数值计算和并行计算的研究人员已经努力了几十年。这个领域最出色的技术就是使用图形处理器的GPU运算。
英伟达(nVidia)公司在1999年发布GeForce256图形处理芯片时首先提出了GPU运算的概念。十几年的发展使单个GPU芯片在浮点运算、大规模并行计算方面,可以提供数十倍乃至上百倍于CPU的性能。GPU的流处理器也由几十个增加到最新的三千多个,浮点运算TFlops值也达到5以上。本书的第十章的深度学习部分专门讲解了GPU运算的Python框架 Theano。
对GPU运算比较熟悉的读者也可以将本书中较大规模的矩阵运算交由GPU完成。
您对本文章有什么意见或着疑问吗?请到您的关注和建议是我们前行的参考和动力&&
您的浏览器不支持嵌入式框架,或者当前配置为不显示嵌入式框架。AI芯片之争只剩三国杀?英伟达GPU/谷歌TPU谁才是任重道远-控制器/处理器-与非网
谷歌的无人车在美国开了几十万公里,通过训练练出一个自动驾驶的模型。这个模型训练出来之后,未来可以部署到每一台量产的谷歌无人车,实现自动驾驶。在自动驾驶中,这个AI模型就必须实时进行推断。
Q1的财报发布后几小时,股价就暴涨14%。
老黄的Keynote还没讲完,英伟达市值就被推高20%,突破700亿美元。
华尔街疯狂的背后,是人工智能的大潮,与推动这一大潮的全新技术。
英伟达最新的GPU芯片&&TeslaV100及其TensorCore,必将让这科技的大潮又起一层浪。
眼看着英伟达在这人工智能的浪潮中一骑绝尘,它的技术到底能有多厉害?难道其他芯片巨头就真的在吃干饭吗?
今天,我们特意邀请到两位芯片领域的专家,专门来聊聊英伟达的新技术,以及这场AI芯片大战的关键看点。
英伟达领先多少
昨天以前,英伟达在深度学习芯片领域已经非常领先了,但是还不是遥不可及。
但在一口气发布的7个产品和计划后,特别是其中的TeslaV100,确实震撼。可以说,大大拉开了它与竞争对手的距离。
这不由得让人想起90年代,思科成为互联网第一波红利的最大获益者。现在AI时代的到来,尽管我们还不知道它这一轮到底能冲多高,但大家都还在摩拳擦掌、买枪买炮。
而英伟达却第一时间成为一家独大的军火商,肯定是AI第一波红利的最大获益者。
英伟达在GTC大会推出的全新GPU,确实在技术上划了时代,吊打所有对手。
通用的GPU单元,专门的Tensor加速器,矩阵运算绝对性能爆炸,同时还兼顾其他算法。不愧是英伟达凭借多年在深度学习领域的积累、对需求深刻洞察之后推出的心血大作,比上一代强大十倍的性能,既适合训练又适合部署。
就此,老黄已直接对绝大多数做深度学习芯片的创业项目宣判了死刑。
为什么GPU就适合AI?
我们来科普一下。深度学习是机器学习的一种技术,基于深度神经网络,这一轮AI主要就是深度学习技术突破引领的。
而深度学习里面绝大多数的运算都是矩阵运算,矩阵运算天生就容易并行,而GPU最擅长的就是做并行数学计算,所以特别适合做深度学习。
2012年的时候,Geoffrey Hinton的学生Alex Krizhevsky用GPU来做深度学习,并且取得了ImageNet大赛冠军。经过他们的评测,用GPU比CPU快60倍。
人工智能研究者一找上GPU,英伟达立马抓住机会,短时间内动用数千工程师、投入20亿美元,研发出第一台专门为深度学习优化的Pascal GPU。所以,在深度学习大行其道的今天,英伟达就成了大赢家了。而深度学习中GPU的应用,有这两个场景:一个是训练,一个是部署。所谓训练,就是AI的构建过程,研究员在线下通过喂给AI算法大量的数据,产生出一个模型。而部署,就是把训练好的这个模型拿到应用现场去用,去做推断。
比如说,谷歌的无人车在美国开了几十万公里,通过训练练出一个自动驾驶的AI模型。这个模型训练出来之后,未来可以部署到每一台量产的谷歌无人车,实现自动驾驶。在自动驾驶中,这个AI模型就必须实时进行推断。
训练阶段,我们主要关心的是大规模的计算吞吐率,而到了部署中,更强调的是绝对的计算能力、低延迟、高性能功耗比、高稳定性。
现在在AI界,训练模型普遍采用英伟达的GPU,但是到了部署领域呢,有人用GPU,有人用谷歌的TPU,有人用,还有一大批嵌入式芯片开发商正在开发专用的前端深度学习芯片。
但是,刚刚发布的V100,既适合做训练,又适合做推断,除了功耗较大以外,在能力方面实现了左右通杀,所以确实厉害。
另外,英伟达还有一个专门用来部署的运行时环境叫TeslaRT。所以英伟达在AI芯片领域真有点一骑绝尘的架势了。
难道无人能挡英伟达?
AI芯片这么大的一块蛋糕,总得多有几个人来分才热闹,就算英伟达现在的优势不容置疑,那接下来的疑问就是,它的优势究竟能持续多久?
几天前,在谷歌TPU团队出走半数后,计算机体系架构的宗师DavidPatterson宣布他要加入谷歌,正式参与TPU项目。
上个月,谷歌关于TPU性能的论文披露说,TPU运行速度是英伟达和英特尔相关处理器的15-30倍,能效高出30-80倍。
谷歌的TPU适用于部署,能跟谷歌自家的TensorFlow紧密结合。可惜它是闭源的,谷歌视它为核心竞争力,应该不会开放给别人用。
TPU的第一版很惊艳,不过缺点也很多。现在从谷歌的论文来看,这个架构有点过时,实践当中也会有很大局限性。虽说这次DavidPatterson加入谷歌TPU团队的动静很大,但我们还是应当保持冷静、继续观察。
另一个能跟英伟达叫板的,就是老牌芯片巨头英特尔,但它的CPU擅长高速处理数字,却不擅长处理音视频等非结构化数据。
于是在去年,英特尔耗资4亿美元收购深度学习初创企业Nervana,试图通过Nervana Systems在硅层实现机器学习。今年3月,这家土豪又怒砸153亿美元收购一家以色列芯片公司Mobileye,土豪要用自己家的高性能计算和网络连接能力,结合Mobileye的计算机视觉专业技术,打造从云端直达每辆汽车的无人驾驶解决方案,深化它在自动驾驶领域的布局。
收购Nervana,是英特尔非常厉害的一招。因为,这家公司前几年一直在帮英伟达优化GPU平台。他们是一群顶级黑客团队,hack了GPU的native指令集,写出了比当时的cudnn(NVIDIA自己的深度学习数学库)还要快若干倍的数学库。他们的成果都开源给了社区,cudnn后面的进步很大程度是因为吸收了这些成果。这家公司被英特尔收购后,就断了继续为英伟达提供服务的可能,同时也极大增强了英特尔的实力。
英特尔现在是allinAI,它的几大产品线,都会重点针对深度学习进行专门定制,比如之前作为HPC平台的XeonPhi加速计算卡,收购的AlteraFPGA,包括NervanaSystem,都是各自独立的深度学习产品线。其他还包括IoT部门,还有收购的Movidius公司,这些是提供嵌入式和端的解决方案。
小编听完,真是眼界大开。
这样来看,在深度学习芯片上,英伟达一马当先,英特尔黄雀在后,而谷歌的TPU,还真是任重而道远啊。
更多最新行业资讯,欢迎点击与非网!
与非网专栏作者招募
你也许是工程师甲,每天默默画电路板、写代码;
你也许是高校老师乙,每天站在三尺讲台,传授知识;
你也许是项目经理丙,每天为得到客户认可而赶工、奔忙;
不管你身处何地是何种身份,只要你是电子领域的从业者,就一定有对这一行业的一些感受和看法。
可能你已修炼成资深行业观察家,如老师那样真知灼见;
可能你善于分析行业趋势,如侃侃而谈;
可能你精通某一项技术,如那样精讲技术而不失幽默;
可能你善于发现身边的工程师故事,如般娓娓道来。
也可能你和他们都不同,有自己想发表的观点,这样的你都是我们在等的人,只要你准备好了,&与非网专栏作者&就会成为你的一个标签。你不再是普通的路人&甲、乙、丙&,而是工程师和电子产业的发言人。
我们给专栏作者的展示机会:
1. 与非网主站【与非原创】栏目的集中展示:
2. 与非网主页:首页焦点、行业发现的重点推荐
3. 与非网微信:原创推送,直达核心行业读者
4. 如果专栏内容热度很高,我们还可以帮助联系相关出版社洽谈集结出版。
成功取决于行动力,赶紧将你的职场态度和行业观点进行整理、提炼成专栏大纲吧,以&专栏作者+大纲名称&为主题,发送到:(请将#替换为@)即可,或者你还有些疑惑想更多了解专栏作者的情况,也可以加小编的微信+qq:详谈。
与非网专栏作者,我们等你!
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
最近科技圈刮起一股收购风,前面博通收购高通还在如火如荼的进行,这周苹果就宣布收购音乐识别软件Shazam。Shazam这个软件,通过手机麦克风收录音频片段,能够识别音乐、电影、电视节目甚至是广告。那么苹果公司整合这项技术做什么?很大可能是为了其人工智能助理软件Siri。
发表于: 15:57:58
新兴技术所引发的爆炸式创新,带来了一场席卷全球的社会大变革,开启了第四次工业革命时代。
发表于: 15:55:59
经过多年信息化建设,中国的数字政务已经迈入了新阶段。在去年国务院办公厅印发的《国家信息化发展战略纲要》明确强调,要持续深化电子政务应用,着力解决信息碎片化、服务割裂化等问题,以信息化推进国家治理体系和治理能力现代化。
发表于: 11:11:03
2007年乔布斯发布iPhone,开创了智能手机的新时代,同时也拉开了手机行业改朝换代的序幕。十年之后,在经历了高速更新迭代之后,手机市场又将迎来新的变革窗口期,而人工智能(AI)毫无疑问会给手机市场带来新的焦点。
发表于: 10:54:47
许朝军25岁当上了人人网的副总裁,李一男27岁时成为华为史上最年轻的副总裁;当年29岁的李明远是百度最年轻的副总裁。如今这三人一个在监狱,一个刚出来,一个差点进去。
发表于: 10:27:28
近日,中国半导体协会设计分会理事长、清华大学微电子学研究所所长魏少军教授在中国集成电路设计业2017年会上发布了集成电路设计行业2017年发展状况的预统计结果。
发表于: 08:43:00
两年,一个行业从“热”走到了“非常火热”,这是AI。两年,一个创业方向从不为所知走到了广受期待,这是AI芯片。两年前,人工智能的领军创业公司地平线率先提出要做AI芯片;现在,地平线要在12月20日发布第一代人工智能芯片。这也是他们两年来的第一次正式产品发布。
发表于: 15:57:47
恩智浦半导体近日宣布与天津大学建立战略伙伴关系,双方将围绕新工科建设和人工智能最核心的两项关键技术——“高性能处理器”与“人工智能算法”开展校企合作,共同推进人工智能领域的科研创新与人才培养。恩智浦大中华区总裁郑力与天津大学副校长王树新代表双方签署了合作备忘录。
发表于: 15:50:41
随着航天技术的不断发展和研究的不断深入,星载数据总线作为航天器中各个设备和子系统之间的“骨架”和“神经”,其对数据传输的处理能力直接影响着整个系统的性能,为此需要一种高速、可扩展、低功耗、低成本的通用通信链路接口来满足星载数据传输要求。
发表于: 15:41:04
手机的带宽吞吐性能是影响手机总体性能的一个重要指标,目前几乎所有第三方的手机评测软件都有对这一项指标的单独测试。但这些测试基本上都存在一些问题,并不能全面真实地反映手机的带宽吞吐性能。
发表于: 15:38:11
又到一年招聘季,考研or工作让你实现了怎样的逆袭?……
与非门科技(北京)有限公司 All Rights Reserved.
京ICP证:070212号
北京市公安局备案编号: 京ICP备:号相关文章推荐
本文主要讲解了cuda并行加速的一个小例子,对图像缩放的最近邻插值算法做加速。
二、代码实现
由于进行缩放时,每个新像素点的计算方法均一致,故可使用并行计算,opencv中的resize也是...
本博客主要讲述了《GPU高性能编程CUDA实战》这本书中关于点积运算中难懂的部分。...
深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题。这里主要记录自己的GPU自学历程。目录
《GPU编程自学1 —— 引言》
《GPU编程自学2 —— CUDA环境配置》
第9章 原子性
在某些情况下,对于单线程应用程序来说非常简单的任务,或许使用大规模的并行架构实现却会变成一个复杂的问题。这里我们将在这些情况中使用特殊的原语从而确保安全地完成传统单线程应用程序中的简单...
GPU及GPU通用计算编程模型简介
硬件T&L单元催生GPU诞生前言:从世界上第一款GPU横空出世到今天,显卡已经走过了10年历史。GPU在这10年演变过程中,我们看到GPU从最初帮助CPU分担几何吞吐量,到Shader单元初具规模,然...
矩阵乘法非常适合在GPU上并行运行,但是使用GPU并行后能获得多大的性能提升?本文将通过一些实验分析CUDA程序的性能。本文主要记录了本人测试CUDA程序性能的结果,并对结果进行了分析,从测试结果和分...
CUDA性能优化----kernel调优(nvprof工具的使用)
HPC&CUDA优化 |
他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)扫码下载APP
您是个人用户,您可以认领企业号
账号密码登录
一周内自动登录
免密码登录
获取验证码
第三方账号登录
Hello,新朋友
在发表评论的时候你至少需要一个响亮的昵称
&>&&>&北大AI公开课第13讲 英伟达董方亮:《GPU助力的人工智能时代》
北大AI公开课第13讲 英伟达董方亮:《GPU助力的人工智能时代》
时间:05-25 13:25
阅读:4278次
来源:Xtecher
“北大AI公开课”系统第13讲于本周二晚结束,英伟达自动驾驶业务中国区负责人董方亮为我们做了题为《GPU助力的人工智能时代》。以下由Xtecher整理,为不能亲临现场的读者带来本次课程最完整实录。
以下是Xtecher为您整理的本期演讲内容干货:
首先很感谢北大,感谢雷鸣老师组织了这么好一次机会,能让我站在这里给大家分享和交流一下英伟达在GPU以及GPU和Deep Learning方面的一些积累和我们已经做的一些工作。
今天的交流大概分成四个部分,第一部分,我会跟大家对GPU进行简单介绍;第二部分,我会把GPU和Deep Learning两个联系在一起;第三部分,我们会探讨一下当今这个时代的AI,以及今后的AI会朝什么样的情况去发展,这只是一个探讨。第四部分,我会分享给大家一些英伟达GDC2017年大会和会后我自己的一些收获。
第一部分,先讲一下GPU,基本上打游戏的人都知道GPU,用GPU的人很多都听过英伟达,英伟达其实最早是做视觉计算的公司,我们公司的创始人最早要做一个不同于GPU的产品,当时是这样的一个出发点,也就是我们做一款GPU,做一个gaming的市场。因为大家有很多是打游戏的,所以大家对这方面应该是比较了解。
我下面再说一个话题,可能大家不一定知道,就是大家知道北大对GPU的贡献在哪里吗?如果大家买了英伟达的GPU,我在这里代表英伟达很感谢大家,为什么我说北大对GPU的贡献呢?其实在座的各位北大的天之骄子应该感到很自豪,因为GPU的技术的发展,有一个很重要的技术,叫Pixel Shader像素的着色器,像素着色器是决定了我们今天能够做gaming、做video很多东西呈现在大家面前的核心技术之一。Pixel Shader核心发明人是北大一个同学,本科87或是88年北大物理系的一个同学,所以北大人应该非常骄傲,北大对GPU的技术发展起到了很关键的作用,我相信很多同学可能不知道,但今天可以分享给大家。
我们现在开始做GPU的介绍,介绍的时候顺便讲下英伟达,英伟达是一家以GPU技术为核心的公司,英伟达公司从成立那天起就做GPU,到今天也是在做GPU,那我们公司的变化体现在哪些方面呢?我们公司是从一个视觉计算转变到今天的AI计算的公司,当然有时代的原因:第一个方面,每年数据量会成倍成倍的增长,而且中间很多的数据都是丰富的云图象数据。第二个方面,在人工智能方面,我们的一些基础研究有了比较长足的发展,在基于DNN,也就是深度神经网络的这种架构上也有不错的发展。
为什么我们说GPU非常合适于今天的AI的计算,也就是说Deep Learning,我们可以来看一看。这一页展示的是一个GPU计算的年谱,我们把它简单理解为一个年谱,我们可以看到英伟达在2006年的时候,做了一件事情,我们做了一个CUDA的东西,CUDA是computing unifieddevice architecture,核心意思是说当GPU它是一个多核的计算体,这样一个多核的计算体,我们如果能用一套架构,能够把这样的计算,通过一个统一的架构完整的调动起来,这就是形成了一个并行计算的基础,所以英伟达在2006年的时候推出了CUDA,CUDA这个是从底层的CUDA一直到上层的应用,都是一个比较完整的SDK,也就是说我们的CUDA是一个最早为了并行计算之前就做了很多充分的准备。
其实从2006年到现在,英伟达每一代的GPU产品,都是原生的支持CUDA,也就是说英伟达的产品,你可以通过CUDA的SDK去调用GPU资源的时候,是原生去支持的。从这个年谱中,还有一个比较重要的时间点可以分享给大家,就是2012年的时候,AlexNet创新的用GPU去做当时的叫DNN网络架构,是九层的网络,去做图像识别,取得了非常好的效果。所以2012年可以说是GPU用作Deep Learning一个爆发的元年。随着时间的发展,在DNN网络不断演进,这些framework在不断演进的今天,我们发现GPU和Deep Learning是紧紧的绑在了一起。
现在的摩尔定律还能不能适应今天崭新的计算架构,我们知道摩尔定律是这条蓝线来表示在一个平台期很难突破,这个主要突破的难点之一在于线程做的比较小会有很大的挑战,但是Deep Learning还在往前发展,所以它一定是需要全新的架构去支持,还有它必须能够沿着比摩尔定律更高的这种计算力的发展方向去发展,才能够匹配今天的全新的计算模式,在Deep Learning和AI的时代,体现一种比较好的计算能力。
所以我们可以看一下,当GPU发展到今天,我们可以预计到2025年,这种计算力的增长,有一个非常高的需求,GPU计算为什么会兴起?原因就在这里,GPU它提供了一个跟之前的,我们叫general purpose computing(通用计算)不一样的模式,也就是说基于GPU,我们可以图中的左边,底层是CUDA,上面是系统,然后是算法,再到上面的应用,这样的一套架构。那么GPU来支撑这样一套全新的架构的情况下,能够完成现有的计算力。
我们可以对CPU和GPU做一个简单的比较,左边是CPU,右边是GPU,我们可以看一下,GPU的特点和CPU的特点是不一样的,GPU是一个多核,是一个简单的多核的处理器,它在结合CUDA之后,非常有利于做并行运算。当然,GPU还有一些它自己比较有特色的东西,比如说GPU里面会包括多个streaming multiprocessor,也就是说流的多处理器,上面会包int F16、F32、F64的处理核,这是GPU的特点,所以我们可以看到,GPU它其实是非常做并行运算。
并行运算其实这种应用场景,Deep Learning是一个非常好的应用场景,这是一个简单的神经网络,在这里,我们可以跟大家简单交流一下Deep Learning这个网络为什么去设计这样的网络?最早的时候,这种设计的网络其实是一个对人脑的叫“假说性”的一个理论,也就是说在70年代的时候,有两位德国的医生和生物学家,他们对解剖猫的时候,他们觉得从猫的大脑来看,他觉得神经元是一层一层的,神经元和神经元之间有反射弧,他们讲如果当神经元和神经元连接的时候,有反射弧,有电流的时候,他就认为这是一个激活状态,这套理论从他们的角度来讲是非常切合人脑的识别的模式,所以他们当年提出了这样一个架构。当年提出这个架构以后,在后面深度神经网络的架构慢慢出来以后,我们发现用深度神经网络去做具有pattern和具有特征的数据的分类识别的时有非常好的效果,比如说这种有pattern的数据,代表像语音数据,像图像数据,它有非常好的鉴别效果。前层的神经元或者说我们叫前层的layer,它是后层浅层的表现,所以图像识别和云识别这种带有pattern和特征从输入到输出能分类,这样其实就是深度神经网络一个比较简单的理论模型。深度神经网络的每一个节点可以模拟成一个计算核,这样一个计算核用GPU去做,也就是说GPU承担了这样一个深度神经网络里面每一个节点的计算,这是GPU符合DNN架构的原因,所以GPU在今天,是线下训练的唯一的选择。
其实Deep Learning是一个新的计算的模式,它包括了两个部分,一个部分我们把它理解成线下的训练,就像刚才那页图里面讲到的线下训练,那线下的训练就包括,我们叫在云端,或者在服务器端,加在GPU的服务器去做训练。还有一端是说去做线上的推理,也就是说从线下到线上,完成了整个新的基于GPU的计算模式,就是从线下训练好的模型放到线上去做推理,这是现在Deep Learning的一个比较普适的模式。
刚才也有讲到Deep Learning的计算模式比较适合于三类数据,一类数据是图像数据,还有一种是语音数据,第三个是自然语言处理。自然语言处理也包括文字,也包括对语义的理解,都包括进去。这张PPT主要跟大家展示的是从底层(GPU的硬件平台),就包括上面的SDK一直到framework,这是一种比较完整的端到端的架构,大家可以看一下。
我们说GPU带来的Deep Learning创造力的全新计算的时代,一定是有很多很多的机会给这种初创的公司,我们可以去看一下Deep Learning引导的时代有哪些机会,我们现在列出的一个比较有代表性的AI的startup,第一个是健康医疗,这是一个非常大的途径。这里面有很多公司,有做乳腺癌的识别,有做医疗影像识别,还有做皮肤癌识别的公司;第二个是零售。这个零售里面,我们可以看它解决了什么问题?其实很多公司在解决,一个是商品选择,第二个是支付问题。这里面比较有意思的公司,Focal公司,它解决的现在老式的食品店,在网络的时代是不是会落后,从技术的角度来讲,它核心技术之一是对物体的识别,也就是说它的方案会让顾客进入一个实体店,它有一个类似于pad这样的装置,每个人会有一个手推车进行购物,购物了东西以后,它会自动识别这是什么东西,然后把这个东西拿下架,当你不断去挑选产品的时候,到走出门的时候,其实它的最终理念是你不用再结账,因为它上面都有识别,它就直接帮助你看你拿了什么东西,直接去结账。同时,什么东西从货架上拿下来以后,它自动回去补货,它做了一个非常好的切入点,是针对零售店的新市场。第三个是金融,这里面有很多很有意思的公司,美国有一家投资公司,他们用卫星图片,他们买了无人机和卫星图片,天天在美国上空去扫描庄稼地,很多人刚开始不理解,说跟庄稼地有什么关系?它就是利用DNN网络去做图片的识别,它识别的是某一种或某几种庄稼今年的长势如何,它要这个信息干什么?他们在期货交易所做对冲,这样的话,它能够通过它的物理识别,它可以估算一下全国,比如说我的产量,农作物的产量是多少,它分析数据得出今年庄稼是欠收了还是多收的结论,它拿这样的信息去做对冲。第四个是安全。现在也有公司它会去做基于安全的解决方案,有在做。底下的IOT就比较多了,比如说像一些机械公司,包括像无人机公司,他们都在做很多很有意思的事儿,比如像陪伴机器人、服务机器人、无人机,无人机结合Deep Learning去撒农药,是很好的针对特出场景的应用。第六个是无人驾驶。无人驾驶现在非常非常火的一个领域,也是英伟达非常关注的一个领域,无人驾驶这个领域代表的是Deep Learning技术,AI的技术,以及跟未来的交通行业的结合,所以是一个非常火的市场。第七个是网络安全,比如说现在有些公司,他们用Deep Learning去做针对病毒,包括网上的恶意攻击模式的判断,他们做的这种方案的好吃在哪里?就是说它的这些好处在于这些方案是可以做到实时的升级,跟以前的基于你去做标识库或者病毒库的机制不大一样,它是本身已经训练Deep Learning,然后它去不停的判断,这个新来的攻击归到哪一类?这是一个比较有意思的应用。所以从这页,大家可以看到,其实AI相关的领域的应用,从startup这个角度来讲,其实包括了行业的方方面面。其实AI的机会是很多的,单一的技术和一种组合式的技术和产品,都会很好的市场。
这一页跟大家主要交流一下一些比较典型的应用,像第一个,很类似于大家用苹果手机,在车里面用语音和车进行交互。第二种是现在在网络购物上,这种主要是一种基于图像和物体识别,它能在和后台的数据库里,帮你找到很近似的,你心仪的物品,这是一个很比较典型的应用。同时,现在在数据库里,我们想基于图片的应用,其实都很有意思,比如说像SAP,它就有一个非常好的应用,它做DNN的时候,它会训练DNN,它训练DNN的目的在哪里呢?它会在它的客户里面,比如说有一个广告视频,它在广告视频里面,去把这个客户,比如说这个客户是耐克,它会把耐克的图标都抓出来,它会拿出一个报告,这个报告就是说你看你在这个数据里面,你的图标出现了多少次,出现在什么位置,它有一个判断,然后通过这个来判断你的品牌暴光度是否合理,你的投资回报是否合理,所以这个特性给SAP带来了非常好的客户的反馈。第三个是基于用户行为去做的判断,用户喜欢哪种类型的电影。
这页是一些比较典型的,比如说第一个,比如说我的祖母,我跟她在交流上有一些困难,我怎么样基于NPR的方式,能够跟她进行交互,理解她的意思,增强人和人之间的沟通。第二个还是医疗和健康诊断。第三点很有意思,第三点是微软自己做的,这一位在图片中的,是微软的工程师,这位微软的工程师,因为他是天生的盲人,所以他生活上有很多不便,但是没有关系,微软现在有一项技术,他戴的这个眼镜,有一个类似于物体识别的功能,比如他在路上走的时候,比如他前面过来一个人,眼镜会给他发一个消息,用听力的方式告诉他“你前面正好有一个人走过去”,它会分析,它不是说“前面有物体”,它不是告诉你前面有物体,它会告诉你前面有一个人从你身边飞跃而过”,所以它是里面比较有意思的,第一是对物体有识别,第二,会去做基本的分析,看这个人在做什么,所以相当于是基于Deep Learning做了一些基于图形的很好的应用,所以应用在这个场景。
这张图大家可能见的比较多,第一个是像平安城市,很多应用场景里面,我们会用到,比如说去看一下这里面的综合监控,包括人脸识别,包括同比去抓某一些特征点,都可以去抓,在平安城市里面。第二个是机器人,这是现在很流行的机器人,比如银行开户,比如说这种服务型的机器人,比如说现在去坐飞机,很多航空公司都有这样的机器人,包括现在去银行开户,很多都有这种机器人。我觉得可能咱们中国用这种机器人会用的比较多,没想到美国用这个也不比我们少,现在美国的shopping mall里面,也有这种导购式机器人,大概有一米高的样子,挺可爱。第三个是在农业上的应用。
所以大家看了这么多,主要想跟大家交流一下,现在AI其实大家可以想很多很好的主意,如果有很好的机会可以去做,这是一个基于AI和Deep Learning的时代。
这张主要是想给大家分享一下英伟达在自动驾驶方面的一些应用。因为英伟达的自动驾驶方面的应用,我们把自动驾驶变成一个AI的任务,它首先是模拟人去驾驶。第一,人坐在车里面,我肯定是眼睛会去看,我先看一下,我就知道我周围的情况是怎么样。第二,如果坐在车里,所以我精确的知道车的位置在哪里,意味着我可以基于现在的场景和我的位置,去做我的驾驶策略。这就是我们去把一个自动驾驶的过程,变成了一个AI的任务。
如果从这张图上去分解,第一个,我们把它叫做感知,就是像人眼一样,我们会用多样的传感器,去把周围的环境的情况,首先是通过这种传感器了解。第二个,我们叫reasoning,判断我是否是安全。第三个就是驾驶。这个自动驾驶它是依托于高精度地图。高精度地图牵扯到两个层面,一个层面是高精度地图会给你丰富的环境屏障,环境信息。另一个层面,结合高精度地图,能够提供精确的定位。这些是自动驾驶比较重要的一些方面。
这页是一个总结页,是说现在人工智能时代,大家可以从这里面去看,有很多很多新的技术,包括一些新的创新,大家可以感受一下,现在的人工智能时代,其实它一直在往前发展,不管是软件还是硬件,不管是应用、架构、还是算法,都在不断地进步。
下面我会跟大家分享一下在英伟达的GTC17中的一些比较好的收获。第一个是英伟达其实这次GTC我们发布了新一代的GPU VOLTA100。这代GPU对我们来说有几方面的提高,第一,有210亿个晶体管,它是12纳米的线程,核心板的面积在815毫米,所以这是一个非常大的进步,整个架构上有非常大的进步。非常值得提的是,我们的架构上有一个很好的提升,我们会在这代架构里面放入我们的Tensor核,它完成了以前同步的矩阵式相乘,也就是把以前这种矩阵相乘用非常高速的运转,这样的结果会让我们产生120 Tensor TFLOPS 的计算能力,这种计算能力无论是针对Training端或者是针对Inference端都是一个非常好的结构。
这页跟大家讲的是蛮有意思的一个场景,其实这是机器人或者说我们叫智能体的产品已经出了挺长时间,但是这种机器人的产品有一个问题,就是说机器人这种场景你真正去训练它的时候,其实是挺困难的,包括各种场景去模拟有比较大的困难。第一是时间长,第二,你不会去造很多机器人一块儿去学一些东西,这样的话,你的研发包括开发的周期长。
这次我们叫ISAAC 的SIMULATOR,它其实是把Deep Learning的technology和模拟结合在一起,它能做什么?它其实是用模拟的平台去训练。比如说我训练一个机器人做一个打高尔夫球的动作,它去做模拟,这样的话,针对一个机器人的公司,它可以使用这样的模拟器可以同步做多个,或者是做多个机器人的模拟,或者是多个场景的模拟,甚至是一个场景多个机器人的模拟,这样的话,会极大的提升模拟以后开发的效率。
那么这页是这次的startup的颁奖,我们把这1.5亿的美金给了这6个公司。我们的评委是来自高尚、微软这些公司,我们其实发现很有意思,这里面有三家公司都是做医疗和健康器官,有一家是做针对心脏病的快速检测,就是说我这个人如果心脏很不舒服的时候,你真正送到急诊或送到医院的话,很难很快就定他的心脏有什么样的问题,但是这个技术可以让他去做一个相对来说比较简单的检测,他通过这种检测会判断他的心脏大部分概率是哪种病,这样它水平很高,第二,很快速,所以对病人的很快诊断起到了很大的作用。还有一家公司是在做针对皮肤癌的健康检测。另外一个公司做的是针对血液的检测。它这个主要是看血液里面的白细胞,看你的免疫力。这三家都在用Deep Learning用于他们核心技术的检测。第四家Deep instinct是做计算机安全的公司,它也是利用现在的网上,比如说它会把现在网上攻击的样本,包括病毒的样本,在它的DNN里面做训练,去看,到底是哪种类型的病毒或者攻击。然后底下这家叫Smartvid的这家公司,其实很有意思,这家公司做了大家都没有去做的市场,它在做建筑工地的市场,它们发现建筑工地有一个问题,建筑工地里面的一些基础人员,它去拍建筑工地外形照的时候,你说我实地拍了,你很难把这些照片快速的分类,因为这些建筑工地没有很好的办公条件,所以很难提供分类。那很难分类带来的问题是什么呢?第一,你的工作效率会降低,第二,它的信息上传不及时,所以这家公司是拿了一个类似于Pad的设备,对建筑上的工地,需要检测的照片实时拍摄,然后自动做分分类,这样是提供了一个针对建筑工地的智能的解决方案。这个focal刚才有跟大家讲过,就是针对传统商业的解决方案。
这页是一段视频,其实是想跟大家分享一下英伟达在自动驾驶方面的一些应用。其实自动驾驶和是强相关的,不管是从技术还是从商业,还是从前景上,都是非常好的。
从这段视频,它是简单的讲了一个自动驾驶的我们的路测。这个路测看起来好像很简单,从一个地方起步,然后去转弯,从普通道路到高速,然后再下高速,这样一个动作,里面用到的AI的技术是非常多的,在路上跑的时候,对物体的识别,包括车道线检测,包括移动物体的检测,包括怎样做驾驶的策略,所以这里面其实包含了很多AI的技术。所以可以看自动驾驶其实跟AI是一个非常具备挑战的行业,视频中的这个人其实是我的同事,英伟达自己的同事在自动驾驶上自己要去做路测,所以什么事儿都要讲奉献,这就要看你的车靠不靠谱。
今天我有个视频一直很想跟大家分享(视频地址:/features/2016-hello-world-new-zealand/),刚才有一个同学提了很好的问题,说现在AI是AI,VR是VR,会不会有一个结合的过程?其实我想说AI和VR的结合,其实有非常好的场景,也就是说我在VR里面,我会去模拟一个人,我们把这个人定义成一个智慧体,这个跟机器人是完全不同的场景,为什么这么说呢?因为你机器人如果是一个智慧体的话,比如我这个地方有一个机器人,那它就简单是一个机器人,它永远不会变,它长什么样就是什么样,但是如果是在一个虚拟世界里面,比如通过VR技术,它跟VR技术结合,比如说他自己会成长,他会学东西,他是一个智慧体,这个最早来自哪里呢?这个应用最早来自于电影里面会有这样的需求,比如电影里面我设一个人物,这个人物本身可以交互,可以学习,是一个类人体,但是它是计算机模拟出来的,电影行业其实刚开始有这样的需求。但是我们发现这个需求它有一个破绽,比如说我可以训练一个,我在电脑中模拟一个孩子,这个天真无邪的小孩儿随着年龄的增长,他会变老,他是一个智慧体,智慧体说明什么呢?你可以跟他进行互动,你教他英语,他会英语,你教他说爸爸妈妈,他会叫爸爸妈妈,所以这样一个智慧体的商业应用价值我不知道,但是我觉得对人类带来的价值很大。比如说有些人,比如有些失幼家庭,这个孩子没有了,或者找不到了,或者说父母很长时间没见小孩儿,非常想小孩儿,那我怎么办呢?通过这种技术,因为小孩儿他会学啊,你从视觉上的感觉,就跟真人一模一样,所以我想把这个视频分享给大家。因为效果的原因,可能这段视频不一定有声音。所以下面这段视频,其实是虚拟现实和AI相结合的这么一个案例,这个名字叫做“BBX”,最早是澳门大学的一个工作组做的研究的主题,它主要是通过模拟的技术,首先是在虚拟屏幕上构建一个智慧体,它其实是用深度神经网络去训练的智慧体,因为是一个孩子嘛,他可以理解你的话,他可以学英语。我第一次看到这个视频时觉得非常震撼,所以想分享给大家。
声明:该文章版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。
24小时热文
1.2万次阅读
7962次阅读
7053次阅读
6834次阅读
6577次阅读
6350次阅读
6287次阅读
6264次阅读
5您已经赞过了
阅读下一篇
金字火腿遇成长烦恼:营收利润双降 双主业欲突围

我要回帖

更多关于 矩阵运算法则 的文章

 

随机推荐