深度学习常用损失函数总览：基本形式、原理、特点-锐单电子商城

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者王桂波

机器学习中的监督学习本质上是一系列训练样本，尝试学习映射关系使得给定一个，即便这个在训练样本中，你也可以尽可能接近现实的输出。而损失函数（Loss Function）它是这个过程中的关键组成部分测量模型的输出与真实的之间的差距，指出模型优化的方向。

本文将介绍机器学习和深度学习中常用的几种损失函数，包括均方差损失 Mean Squared Loss、平均绝对误差损失 Mean Absolute Error Loss、Huber Loss、分位数损失 Quantile Loss、交叉熵损失函数 Cross Entropy Loss、Hinge 损失 Hinge Loss。主要介绍各种损失函数的基本形式、原理、特点等方面。

前言
均方差损失 Mean Squared Error Loss
平均绝对误差损失 Mean Absolute Error Loss
Huber Loss
分位数损失 Quantile Loss
交叉熵损失 Cross Entropy Loss
合页损失 Hinge Loss
总结

前言

在文本开始之前，让我们先谈谈 Loss Function、Cost Function 和 Objective Function 区别与联系。这三个术语在机器学习的背景下经常交叉使用。

- 损失函数 Loss Function 通常是单个训练样本，给定模型输出和一个真实，输出实值损失函数
- 代价函数 Cost Function 通常是整个训练集(或使用 mini-batch gradient descent 时一个 mini-batch）的总损失
- 目标函数 Objective Function 它是一个更通用的术语，表示任何想要优化的函数，用于机器学习和非机器学习(如运筹优化)

三者之间的关系总结A loss function is a part of a cost function which is a type of an objective function.

由于损失函数和成本函数在样本集中只有区别，损失函数术语在本文中被统一使用，但以下相关公式实际上使用了成本函数 Cost Function 请注意形式。

均方差损失 Mean Squared Error Loss

基本形式和原理

均方差 Mean Squared Error (MSE) 损失是机器学习和深度学习回归任务中最常用的损失函数，也称为损失函数 L2 Loss。其基本形式如下

从直觉上理解均方差损失，该损失函数的最小值为 0(当预测等于真实值时)，最大值为无限大。下图是真实值，不同的预测值均方差损失变化图。横轴是不同的预测值，纵轴是均方差损失，可以看到预测和真实值的绝对误差均方差损失增加为二次方地损失。

背后的假设

事实上，在某种假设下，我们可以使用平均方差损失的最大化。模型预测与真实值之间的误差服从标准高斯分布（），则给定一个模型输出真实值的概率为

进一步假设数据集中 N 样本点相互独立，给出一切输出所有真实值概率，即似然 Likelihood，为所有的累乘

通常，为了方便计算，我们通常最大化对数 Log-Likelihood

去掉与无关的第一项，然后转化为最小化负对数，似乎很明显 Negative Log-Likelihood

可以看到这个实际上就是均方差损失的形式。也就是说在模型输出和真实值误差服从高斯分布的假设下，最小平均差损失函数本质上与最大估计一致，因此，在这个假设可以满足的场景（如回归）中，平均方差损失是一个很好的损失函数选择；当这个假设不满足的场景（如分类）时，平均方差损失不是一个很好的选择。

平均绝对误差损失 Mean Absolute Error Loss

基本形式和原理

平均绝对误差 Mean Absolute Error (MAE) 另一种常用的损失函数，又称 L1 Loss。其基本形式如下

同样，我们可以将损失函数视化如下图所示，MAE 最小损失值为 0(当预测等于真实值时)，最大值是无限的。可以看出，随着预测和真实值的绝对误差的增加，MAE 损失呈线性增长

背后的假设

同样，我们可以在一定的假设下通过最大化似乎得到 MAE 假设损失的形式模型预测与真实值之间的误差服从拉普拉斯分布 Laplace distribution（），则给定一个模型输出真实值的概率为

与上面推导 MSE 类似地，我们能得到的负对数实际上是 MAE 损失的形式

MAE 与 MSE 区别

MAE 和 MSE 损失函数的主要区别是：MSE 损失相比 MAE 收敛通常更快，但是 MAE 损失对于 outlier 更强壮，也就是说，更难受 outlier 影响。

MSE 通常比 MAE 收敛速度更快。使用梯度下降算法时，MSE 损失梯度为，而 MAE 损失梯度为，即 MSE 的梯度的 scale 会随误差大小而变化， MAE 的梯度的 scale 一直保持为 1，即使在绝对误差中很小的时候 MAE 的梯度 scale 也同样为 1.这实际上对模型训练非常不利。当然，你可以通过在训练过程中动态调整学习率来缓解这个问题，但总的来说，功能梯度的差异导致了 MSE 大多数时候比较 MAE 收敛更快。当然，你可以通过在训练过程中动态调整学习率来缓解这个问题，但总的来说，功能梯度的差异导致了 MSE 大多数时候比较 MAE 收敛更快。这也是。 MSE 更受欢迎的原因。

MAE 对于 outlier 更加 robust。我们可以从两个角度来理解这一点：

第一个角度是直观的理解，下图是 MAE 和 MSE 损失画在同一张图中，因为MAE 损失与绝对误差是线性的，MSE 当误差很大时，损失与误差是平方关系，MSE 损失将远远大于 MAE 损失。因此，当数据中出现非常大的误差时 outlier时，MSE 会产生一个非常大的损失，对模型的训练会产生较大的影响。

第二个角度是从两个损失函数的假设出发，MSE 假设了误差服从高斯分布，MAE 假设了误差服从拉普拉斯分布。拉普拉斯分布本身对于 outlier 更加 robust。参考下图（来源：Machine Learning: A Probabilistic Perspective 2.4.3 The Laplace distribution Figure 2.8），当右图右侧出现了 outliers 时，拉普拉斯分布相比高斯分布受到的影响要小很多。因此以拉普拉斯分布为假设的 MAE 对 outlier 比高斯分布为假设的 MSE 更加 robust。

Huber Loss

上文我们分别介绍了 MSE 和 MAE 损失以及各自的优缺点，MSE 损失收敛快但容易受 outlier 影响，MAE 对 outlier 更加健壮但是收敛慢，Huber Loss 则是一种将 MSE 与 MAE 结合起来，取两者优点的损失函数，也被称作 Smooth Mean Absolute Error Loss 。其原理很简单，就是在误差接近 0 时使用 MSE，误差较大时使用 MAE，公式为

上式中是 Huber Loss 的一个超参数，的值是 MSE 和 MAE 两个损失连接的位置。上式等号右边第一项是 MSE 的部分，第二项是 MAE 部分，在 MAE 的部分公式为是为了保证误差时 MAE 和 MSE 的取值一致，进而保证 Huber Loss 损失连续可导。

下图是时的 Huber Loss，可以看到在的区间内实际上就是 MSE 损失，在和区间内为 MAE损失。

Huber Loss 的特点

Huber Loss 结合了 MSE 和 MAE 损失，在误差接近 0 时使用 MSE，使损失函数可导并且梯度更加稳定；在误差较大时使用 MAE 可以降低 outlier 的影响，使训练对 outlier 更加健壮。缺点是需要额外地设置一个超参数。

分位数损失 Quantile Loss

分位数回归 Quantile Regression 是一类在实际应用中非常有用的回归算法，通常的回归算法是拟合目标值的期望或者中位数，而分位数回归可以通过给定不同的分位点，拟合目标值的不同分位数。例如我们可以分别拟合出多个分位点，得到一个置信区间，如下图所示（图片来自笔者的一个分位数回归代码 demo Quantile Regression Demo）

分位数回归是通过使用分位数损失 Quantile Loss 来实现这一点的，分位数损失形式如下，式中的 r 分位数系数。

我们如何理解这个损失函数呢？这个损失函数是一个分段的函数，将（高估）和（低估）两种情况分开来，并分别给予不同的系数。当时，低估的损失要比高估的损失更大，反过来当时，高估的损失比低估的损失大；分位数损失实现了分别用不同的系数控制高估和低估的损失，进而实现分位数回归。特别地，当时，分位数损失退化为 MAE 损失，从这里可以看出 MAE 损失实际上是分位数损失的一个特例 — 中位数回归（这也可以解释为什么 MAE 损失对 outlier 更鲁棒：MSE 回归期望值，MAE 回归中位数，通常 outlier 对中位数的影响比对期望值的影响小）。

下图是取不同的分位点 0.2、0.5、0.6 得到的三个不同的分位损失函数的可视化，可以看到 0.2 和 0.6 在高估和低估两种情况下损失是不同的，而 0.5 实际上就是 MAE。

交叉熵损失 Cross Entropy Loss

上文介绍的几种损失函数都是适用于回归问题损失函数，对于分类问题，最常用的损失函数是交叉熵损失函数 Cross Entropy Loss。

二分类

考虑二分类，在二分类中我们通常使用 Sigmoid 函数将模型的输出压缩到 (0, 1) 区间内，用来代表给定输入，模型判断为正类的概率。由于只有正负两类，因此同时也得到了负类的概率。

将两条式子合并成一条

假设数据点之间独立同分布，则似然可以表示为

对似然取对数，然后加负号变成最小化负对数似然，即为交叉熵损失函数的形式

下图是对二分类的交叉熵损失函数的可视化，蓝线是目标值为 0 时输出不同输出的损失，黄线是目标值为 1 时的损失。可以看到约接近目标值损失越小，随着误差变差，损失呈指数增长。

多分类

在多分类的任务中，交叉熵损失函数的推导思路和二分类是一样的，变化的地方是真实值现在是一个 One-hot 向量，同时模型输出的压缩由原来的 Sigmoid 函数换成 Softmax 函数。Softmax 函数将每个维度的输出范围都限定在之间，同时所有维度的输出和为 1，用于表示一个概率分布。

其中表示 K 个类别中的一类，同样的假设数据点之间独立同分布，可得到负对数似然为

由于是一个 one-hot 向量，除了目标类为 1 之外其他类别上的输出都为 0，因此上式也可以写为

其中是样本的目标类。通常这个应用于多分类的交叉熵损失函数也被称为 Softmax Loss 或者 Categorical Cross Entropy Loss。

Cross Entropy is good. But WHY？

分类中为什么不用均方差损失？上文在介绍均方差损失的时候讲到实际上均方差损失假设了误差服从高斯分布，在分类任务下这个假设没办法被满足，因此效果会很差。为什么是交叉熵损失呢？有两个角度可以解释这个事情，一个角度从最大似然的角度，也就是我们上面的推导；另一个角度是可以用信息论来解释交叉熵损失：

假设对于样本存在一个最优分布真实地表明了这个样本属于各个类别的概率，那么我们希望模型的输出尽可能地逼近这个最优分布，在信息论中，我们可以使用 KL 散度 Kullback–Leibler Divergence 来衡量两个分布的相似性。给定分布和分布，两者的 KL 散度公式如下

其中第一项为分布的信息熵，第二项为分布和的交叉熵。将最优分布和输出分布带入和得到

由于我们希望两个分布尽量相近，因此我们最小化 KL 散度。同时由于上式第一项信息熵仅与最优分布本身相关，因此我们在最小化的过程中可以忽略掉，变成最小化

我们并不知道最优分布，但训练数据里面的目标值可以看做是的一个近似分布

这个是针对单个训练样本的损失函数，如果考虑整个数据集，则

可以看到通过最小化交叉熵的角度推导出来的结果和使用最大化似然得到的结果是一致的。

合页损失 Hinge Loss

合页损失 Hinge Loss 是另外一种二分类损失函数，适用于 maximum-margin 的分类，支持向量机 Support Vector Machine (SVM) 模型的损失函数本质上就是 Hinge Loss + L2 正则化。合页损失的公式如下

下图是为正类，即时，不同输出的合页损失示意图

可以看到当为正类时，模型输出负值会有较大的惩罚，当模型输出为正值且在区间时还会有一个较小的惩罚。即合页损失不仅惩罚预测错的，并且对于预测对了但是置信度不高的也会给一个惩罚，只有置信度高的才会有零损失。使用合页损失直觉上理解是要找到一个决策边界，使得所有数据点被这个边界正确地、高置信地被分类。

总结

本文针对机器学习中最常用的几种损失函数进行相关介绍，首先是适用于回归的均方差损失 Mean Squared Loss、平均绝对误差损失 Mean Absolute Error Loss，两者的区别以及两者相结合得到的 Huber Loss，接着是应用于分位数回归的分位数损失 Quantile Loss，表明了平均绝对误差损失实际上是分位数损失的一种特例，在分类场景下，本文讨论了最常用的交叉熵损失函数 Cross Entropy Loss，包括二分类和多分类下的形式，并从信息论的角度解释了交叉熵损失函数，最后简单介绍了应用于 SVM 中的 Hinge 损失 Hinge Loss。本文相关的可视化代码在这里。

受限于时间，本文还有其他许多损失函数没有提及，比如应用于 Adaboost 模型中的指数损失 Exponential Loss，0-1 损失函数等。另外通常在损失函数中还会有正则项（L1/L2 正则），这些正则项作为损失函数的一部分，通过约束参数的绝对值大小以及增加参数稀疏性来降低模型的复杂度，防止模型过拟合，这部分内容在本文中也没有详细展开。读者有兴趣可以查阅相关的资料进一步了解。That’s all. Thanks for reading.

参考资料

Machine Learning: A Probabilistic Perspective
Picking Loss Functions - A comparison between MSE, Cross Entropy, and Hinge Loss
5 Regression Loss Functions All Machine Learners Should Know
Quantile Regression Demo

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

资讯详情

深度学习常用损失函数总览：基本形式、原理、特点

背后的假设

基本形式和原理

背后的假设

MAE 与 MSE 区别

Huber Loss 的特点

二分类

多分类

Cross Entropy is good. But WHY？

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

深度学习常用损失函数总览：基本形式、原理、特点

背后的假设

基本形式和原理

背后的假设

MAE 与 MSE 区别

Huber Loss 的特点

二分类

多分类

Cross Entropy is good. But WHY？

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录