ShowMeAI研究中心

作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/37
本文地址：http://www.showmeai.tech/article-detail/263
声明：所有版权，请联系平台和作者，注明来源
收藏ShowMeAI查看更多精彩内容

本系列为斯坦福CS231n 计算机视觉深度学习(Deep Learning for Computer Vision)》全套学习笔记，相应的课程视频可以在这里查看。获取更多信息的方法见文末。

引言

在上一篇深度学习与CV教程(3) | 损失函数和优化内容中，我们给大家介绍了线性模型的损失函数构建与梯度下降等优化算法，【本篇内容】ShowMeAI切入神经网络，讲解神经网络计算图、反向传播、神经网络结构等相关知识。

1.反向传播算法

神经网络训练、梯度下降等方法需要计算损失函数的梯度，核心知识之一是反向传播，它利用数学链式法则复杂函数梯度的递归求解方法。tensorflow、pytorch等主流AI工具库的核心智能也可以自动微分，在本节中ShowMeAI就结合cs231n第释神经网络的计算图和反向传播。

神经网络反向传播的解释也可以参考ShowMeAI的深度学习教程 | 吴恩达专项课程 · 解读全套笔记中的文章神经网络基础、浅层神经网络、深层神经网络解释不同深度的网络前向计算和反向传播

以下图为例，在整个计算线路图中，会给每个门单元（也就是 f f f 结点）一些输入值 x x x , y y y 并立即计算这个门单元的输出值 z z z ，和当前节点输出值关于输入值的局部梯度（local gradient） ∂ z ∂ x \frac{\partial z}{\partial x} ∂x∂z 和 ∂ z ∂ y \frac{\partial z}{\partial y} ∂y∂z 。

门单元的这两个计算在前向传播中是完全独立的，它无需知道计算线路中的其他单元的计算细节。但在反向传播的过程中，门单元将获得整个网络的最终输出值在自己的输出值上的梯度 ∂ L ∂ z \frac{\partial L}{\partial z} ∂z∂L 。

根据链式法则，整个网络的输出对该门单元的每个输入值的梯度，要用回传梯度乘以它的输出对输入的局部梯度，得到 ∂ L ∂ x \frac{\partial L}{\partial x} ∂x∂L 和 ∂ L ∂ y \frac{\partial L}{\partial y} ∂y∂L 。这两个值又可以作为前面门单元的回传梯度。

因此，反向传播可以看做是门单元之间在通过梯度信号相互通信，只要让它们的输入沿着梯度方向变化，无论它们自己的输出值在何种程度上升或降低，都是为了让整个网络的输出值更高。

比如引例中 x , y x,y x,y 梯度都是 − 4 -4 −4，所以让 x , y x,y x,y 减小后， q q q 的值虽然也会减小，但最终的输出值 f f f 会增大（当然损失函数要的是最小）。

3) 加法门、乘法门和max门

引例中用到了两种门单元：加法和乘法。

加法求偏导： f ( x , y ) = x + y → ∂ f ∂ x = 1 ∂ f ∂ y = 1 f(x,y) = x + y \rightarrow \frac{\partial f}{\partial x} = 1 \frac{\partial f}{\partial y} = 1 f(x,y)=x+y→∂x∂f=1∂y∂f=1
乘法求偏导： f ( x , y ) = x y → ∂ f ∂ x = y ∂ f ∂ y = x f(x,y) = x y \rightarrow \frac{\partial f}{\partial x} = y \frac{\partial f}{\partial y} = x f(x,y)=xy→∂x∂f=y∂y∂f=x

除此之外，常用的操作还包括取最大值：

f ( x , y ) = max ⁡ ( x , y ) → ∂ f ∂ x = 1 ( x ≥ y ) ∂ f ∂ y 1 ( y ≥ x ) \begin{aligned} f(x,y) &= \max(x, y) \\ \rightarrow \frac{\partial f}{\partial x} &= \mathbb{1}(x \ge y)\\ \frac{\partial f}{\partial y} &\mathbb{1}(y \ge x) \end{aligned} f(x,y)→∂x∂f∂y∂f=max(x,y)=1(x≥y)1(y≥x)

上式含义为：若该变量比另一个变量大，那么梯度是 1 1 1，反之为 0 0 0。

加法门单元是梯度分配器，输入的梯度都等于输出的梯度，这一行为与输入值在前向传播时的值无关；
乘法门单元是梯度转换器，输入的梯度等于输出梯度乘以另一个输入的值，或者乘以倍数 a a a（ a x ax ax 的形式乘法门单元）；max 门单元是梯度路由器，输入值大的梯度等于输出梯度，小的为 0 0 0。

乘法门单元的局部梯度就是输入值，但是是相互交换之后的，然后根据链式法则乘以输出值的梯度。基于此，如果乘法门单元的其中一个输入非常小，而另一个输入非常大，那么乘法门会把大的梯度分配给小的输入，把小的梯度分配给大的输入。

以我们之前讲到的线性分类器为例，权重和输入进行点积 w T x i w^Tx_i wTxi ，这说明输入数据的大小对于权重梯度的大小有影响。具体的，如在计算过程中对所有输入数据样本 x i x_i xi 乘以 100，那么权重的梯度将会增大 100 倍，这样就必须降低学习率来弥补。

也说明了数据预处理有很重要的作用，它即使只是有微小变化，也会产生巨大影响。

对于梯度在计算线路中是如何流动的有一个直观的理解，可以帮助调试神经网络。

4) 复杂示例

我们来看一个复杂一点的例子：

f ( w , x ) = 1 1 + e − ( w 0 x 0 + w 1 x 1 + w 2 ) f(w,x) = \frac{1}{1+e^{-(w_0x_0 + w_1x_1 + w_2)}} f(w,x)=1+e−(w 标签： eak系列连接器的分类 1fa0连接器撕裂传感器限位开关zwn j95组合式连接器

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

资讯详情

深度学习与计算机视觉教程(4) | 神经网络与反向传播（CV通关指南·完结）

引言

本篇重点

1.反向传播算法

1.1 反向传播的标量形式

1) 引例

2) 直观理解反向传播

3) 加法门、乘法门和max门

4) 复杂示例

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

深度学习与计算机视觉教程(4) | 神经网络与反向传播（CV通关指南·完结）

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录