导数公式相关问题

时通过查阅导数公式表和运用开頭的

在推导的过程中有这几个常见的公式需要用到:

而g'(x) 中把x看作变量)

①显而易见,y=c是一条平行于x轴的直线所以处处的

的定义做也是┅样的:y=c,

④、⑤、⑥如果根据导数公式的定义来推导的话就不能推广到n为任意实数的一般情况但

的求导规则可以推导,同理有的导函数为和的导函数为。

  • 主编.复变函数.北京:2016年06月第1版清华大学出版社:40

这篇文章的内容更多的是一些可能要用到的数学公式的导数公式公式和推导是一种理论基础,感兴趣的同学可以仔细瞅瞅想直接上手的同学也可以直接跳过这一篇~
大镓可以mark一下,以便以后用到时过来查一下当成字典。

则Z对x的偏导可以理解为当y是个常数时Z单独对x求导:

则Z对y的偏导可以理解为当x是个瑺数时,Z单独对y求导:

在二元函数中偏导的何意义,就是对任意的\(y=y_0\)的取值在二元函数曲面上做一个\(y=y_0\)切片,得到\(Z = f(x, y_0)\)的曲线这条曲线的一階导数公式就是Z对x的偏导。对\(x=x_0\)同样就是Z对y的偏导。

著名的反向传播四大公式是:

下面我们用一个简单的两个神经元的全连接神經网络来直观解释一下这四个公式

每个结点的输入输出标记如图上所示,使用MSE作为计算loss的函数那么可以得到这张计算图中的计算过公式如下所示:

我们按照反向传播中梯度下降的原理来对损失求梯度,计算过程如下:

从上面的推导过程中我们可以得出\(\delta\)矩阵的递推公式:

所以在反向传播过程中只需要逐层利用上一层的\(\delta^l\)进行递推即可。

相对而言这是一个非常直观的结果,这份推导过程也是不严谨的下媔,我们会从比较严格的数学定义角度进行推导首先要补充一些定义。

下面我们引入矩阵迹的概念所谓矩陣的迹,就是矩阵对角线元素之和也就是说:

引入迹的概念后,我们来看上面的梯度计算是不是可以用迹来表达呢

我们来看矩阵\((90)\)的转置和矩阵\((91)\)乘积的对角线元素

上式的最后一个等号是因为\(df\)是一个标量,标量的迹就等于其本身

矩阵迹和导数公式的部分性质

这里将会给出部分矩阵的迹和导数公式的性质,作为后面推导过程的参考性子急的同学可以姑且默认这是一些结论。

以仩各性质的证明方法类似我们选取式(94)作为证明的示例:

神经网络有关公式证明:

  • 由于\(df\)是一个标量,标量的迹等于本身同时利用公式(99):

  • 我们来看全连接层的情况

    取全连接层其中一个元素

    这里的\(w\)是权重矩阵的一行,尺寸是\(1 \times M\)X是一个大小为\(M \times 1\)的矢量,y是一个标量若添加一个大小是1的单位阵,上式整体保持不变:

    利用式(92)可以得到

    因此在误差传递的四大公式中,在根据上层传递回来的误差\(\delta\)继续傳递的过程中利用链式法则,有

    那么利用式(92),可以得到:

  • 使用softmax和交叉熵来计算损失的情况下

    下面来化简式(102)的后半部分,利用式(98):

    利用式(100)可鉯得到

    将式(103)代入式(102)并两边取迹,可以得到:

    这也就是在损失函数中计算反向传播的误差的公式

编辑点评: 导数公式定义为:当洎变量的增量趋于零时因变量的增量与自变量的增量之商的极限。在一个函数存在导数公式时称这个函数可导或者可微分。可导的函數一定连续不连续的函数一定不可导。

我要回帖

更多关于 导数 的文章

 

随机推荐