资讯详情

ICML 2022 | 稀疏双下降:网络剪枝也能加剧模型过拟合?

bd63da2a46e20baeb3036fa9b67b19a9.gif

Zheng He

北京航空航天大学

深度学习

本文分享了我们在网络剪枝方面的新工作「Sparse Double Descent: Where Network Pruning Aggravates Overfitting」。本文主要受模型参数化的影响(over-parameterization)和彩票假说(lottery tickets)探索分析了剪枝后稀疏神经网络的泛化性能。

稀疏神经网络的泛化能力受稀疏度的影响。随着稀疏度的增加,模型的测试精度将首先下降,然后上升,最后再次下降。

Sparse Double Descent: Where Network Pruning Aggravates Overfitting

ICML 2022

https://arxiv.org/abs/2206.08684

https://github.com/hezheug/sparse-double-descent

根据传统机器学习的观点,模型很难同时最小化预测中的偏差和方差,因此通常需要权衡两者才能找到最合适的模型。这是广泛传播的偏差-方差平衡(bias-variance tradeoff)曲线:随着模型容量的增加,训练集中模型的误差会继续下降,但测试集中的误差会先下降后上升。

▲偏差-方差平衡 (bias-variance tradeoff) 曲线

虽然传统观点认为模型参数过多会导致过度拟合,但令人惊讶的是,大模型在深度学习实践中往往表现更好。

今年,一些学者发现,深度学习模型的测试误差与模型容量之间的关系 U 型曲线,但有的特点,即

▲双下降曲线 [2]

也就是说,过参数的神经网络不会有严重的过拟合,但可能具有更好的泛化性能!

这到底是为什么?

[5] 它为解释这一现象提供了新的思路。彩票假设认为,一个随机初始化的密集网络(未经修剪的初始网络)包含,子网络从当时,它可以达到与原始密集网络相当的准确性,甚至可能更快地收敛(如果子网络从新的初始化值开始训练,效果往往不如原始网络好)。

当一个网络参数越多它包含这样一个性能良好的子网络的可能性就越大,也就是说,中彩票的可能性就越高。从这个角度来看,在一个参数过多的神经网络中,,其余参数仅作为冗余备份存在,即使被切断,也不会对模型训练产生决定性影响。

彩票假设似乎表明,我们可以安全地切断模型中的冗余参数,而不用担心是否会产生不利影响。还有一些其他文献,基于简单最好的奥卡姆剃刀原则,我相信稀疏的网络会有更好的泛化能力 [4]。目前的剪枝文献也都强调自己的算法可以在剪去大量参数的情况下,仍保持与原模型相媲美的准确率。

但当我们想到双重下降时,我们不禁反思了一个基本问题:为了探索这个问题的答案,请参考 deep double descent [2] 在稀疏神经网络上进行了大量实验。

通过实验,我们惊讶地发现,所谓的网络"冗余"参数并不完全冗余。当参数量逐渐减少,稀疏度逐渐上升时,即使模型训练的准确性没有受到影响,测试的准确性也可能开始显著下降。此时,模型过拟合噪声越来越严重。

如果进一步的增加模型稀疏度,可以发现当经过某个拐点后,模型的训练准确率开始快速下降,测试准确率开始上升,此时模型对噪声的鲁棒性逐步提高。至于当测试准确率达到最高点后,若继续减少模型的参数,则会影响模型的学习能力。此时,模型的训练与测试准确率同时下降,开始变得难以学习。

▲稀疏双在不同数据集中的下降。CIAFR-10,中:CIFAR-100,右:Tiny ImageNet

此外,我们还发现,即使参数相同,模型的容量/复杂性也同,模型的容量/复杂性也会有所不同。例如,对于相同的拐点,基于权重的修剪模型稀疏度较高,而随机修剪则对应于较低的稀疏度。这表明随机修剪对模型的表达能力有更大的损害,只更少的参数才能达到相同的效果。

▲稀疏的双重下降现象在不同的剪枝标准下。左:基于重量的剪枝,中间:基于梯度的剪枝,右:随机剪枝

虽然我们的大部分实验都使用彩票假说 retrain 方法,但也尝试了其他几种不同的方法。有趣的是,即使剪枝后微调(Finetuning)也可以观察到明显的双重下降。可以看出,稀疏双重下降的现象并不局限于稀疏网络的初始训练,即使在修剪前训练的参数值也会有类似的结果。

▲不同retrain稀疏双下降现象的方法。Finetuning,中:Learning rate rewinding,右:Scratch retraining

我们还调整了标签噪声的比例我们还调整了标签噪声的比例。 deep double descent,提高标签噪声的比例将降低模型训练准确性的起点,并向更高的模型容量方向移动(即更低的稀疏度)。另一方面,标签噪声的比例越高,需要剪掉的参数就越多,以避免过度拟合。

▲稀疏双在不同标签噪声比下降。左:20%,中:40%,右:80%

在这里我们主要检验了两种可能的解释。其一是。有文章指出,剪枝可以增加模型的扰动,使模型更容易收敛到平坦的极小点 [5]。由于极小点越平坦,一般会有更好的泛化能力,所以 [5] 认为剪枝影响模型的泛化,影响极小点的平整度。

那么,极小平坦度的变化能解释稀疏双重下降吗?我们是对的 loss 可视化如图所示,间接比较了不同稀疏度下模型极小平整度的大小。

▲一维loss可视化

遗憾的是,随着稀疏度的提高,loss 曲线变得越来越陡(不平)。

另一是理论工作证明了深度学习模型的复杂性和参数的初始化 l2 距离(学习距离)密切相关 [6]。学习距离越小,模型就越接近初始化,就像早期停止时获得的模型参数,没有足够的复杂性记忆噪声;相反,参数空间中模型的变化越大,复杂性越高,容易过度拟合。

▲模型学习距离与测试准确率的变化曲线

如图可见,当准确率下降时,学习距离整体呈上升趋势,且最高点恰好对应准确率的最低点;而当准确率上升时,学习距离也相应下降。(尽管当测试准确率第二次下降时,由于可训练的参数过少,学习距离难以再次上升了)。

我们还进行了彩票假说中 winning ticket 与重新随机初始化的对比实验。有趣的是,在双下降情景下,彩票假说的初始化方式并不总是优于对网络重新初始化的效果。

▲与彩票假说初始化(Lottery)与重新随机初始化(Reinit)的对比

由图可以看出,Reinit 的结果相比于 Lottery 整体左移,也就是说 Reinit 方式在保留模型的表达能力方面是逊于 Lottery 的。这也从另一方面验证了彩票假说的思想: 即使模型的结构完全相同,从不同的初始化训练时,模型的性能也可能相差甚远。

在做这项研究的过程中,我们观察到了一些神奇的、反直觉的实验现象,并尝试进行了分析解释。然而,现有的理论工作还无法完全地解释这些现象存在的原因。比如说在训练准确率接近 100% 时,测试准确率会随着剪枝逐渐下降。为何此时模型没有遗忘数据中的复杂特征,反而对噪声更加严重的过拟合?

我们还观察到模型的学习距离会随着稀疏度增加先上升后下降,为何剪枝会导致模型学习距离发生这样的变化?以及深度学习模型的双下降现象往往需要对输入增加标签噪声才可以观察到 [2],决定双下降是否发生的背后机制是什么?

还有很多问题目前尚无答案。我们现在也在进行一个新的理论工作,以期能对其中的一个或几个问题进行解释。希望可以早日拨开迷雾,探明这一现象背后的本质原因。

[1] Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2018). Reconciling modern machine learning and the bias-variance trade-off.stat,1050, 28.

[2] Nakkiran, P., Kaplun, G., Bansal, Y., Yang, T., Barak, B., & Sutskever, I. Deep double descent: Where bigger models and more data hurt. ICLR 2020.

[3] Frankle J., & Carbin, M. The lottery ticket hypothesis: Finding sparse, trainable neural networks. ICLR 2019.

[4] Hoefler, T., Alistarh, D., Ben-Nun, T., Dryden, N., & Peste, A. Sparsity in deep learning: Pruning and growth for efficient inference and training in neural networks. arXiv preprint arXiv:2102.00554, 2021.

[5] Bartoldson, B., Morcos, A. S., Barbu, A., and Erlebacher, G. The generalization-stability tradeoff in neural network pruning. NIPS, 2020.

[6] Nagarajan, V. and Kolter, J. Z. Generalization in deep networks: The role of distance from initialization. arXiv preprint arXiv:1901.01672, 2019.

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是,也可以是等。我们的目的只有一个,让知识真正流动起来。

📝 

• 文章确系个人,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以  格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供,具体依据文章阅读量和文章质量阶梯制结算

📬 

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信()快速投稿,备注:姓名-投稿

🔍

现在,在也能找到我们了

进入知乎首页搜索

点击订阅我们的专栏吧

·

标签: 进口数字温湿度传感器hsu

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台