论文解读『Sparse Double Descent: Where Network Pruning Aggravates Overfitting』
- 1. 研究动机
- 2. 稀疏神经网络中的双下降
- 3. 如何解释稀疏神经网络的泛化性能与双下降现象?
- 4. 与彩票假说的区别与联系
- 5. 后记
- 连接论文和代码
- 参考文献:
「Sparse Double Descent: Where Network Pruning Aggravates Overfitting」是ICML一项关于网络剪枝、彩票假说、模型泛化的新工作。
本文主要受模型参数化的影响(over-parameterization)和彩票假说(lottery tickets)探索分析了剪枝后稀疏神经网络的泛化性能。 总之,稀疏神经网络的泛化能力受稀疏度的影响。随着稀疏度的增加,模型的测试精度将首先下降,然后上升,最后再次下降。
1. 研究动机
根据传统机器学习的观点,模型很难同时最小化预测中的偏差和方差,因此通常需要权衡两者才能找到最合适的模型。这是广泛传播的偏差-方差平衡(bias-variance tradeoff)曲线:随着模型容量的增加,训练集中模型的误差会继续下降,但测试集中的误差会先下降后上升。 虽然传统观点认为模型参数过多会导致过度拟合,但令人惊讶的是,大模型在深度学习实践中往往表现更好。
今年,一些学者发现,深度学习模型的测试误差与模型容量之间的关系不是U曲线,而是双(Double Descent)特点是随着模型参数的增加,测试误差先下降,再上升,再次下降1 2。
也就是说,过参数的神经网络不会有严重的过拟合,但可能具有更好的泛化性能!
这到底是为什么?
彩票假说(lottery tickets)3为解释这一现象提供了新的思路。
彩票假设认为,一个具有良好性能的随机初始化密集网络始网络)包含性能良好的稀疏子网络,从原始化开始(winning ticket)在训练过程中,它可以达到与原始密集网络相当的准确性,甚至可能更快地收敛(如果子网络从新的初始化值开始训练,效果往往不如原始网络好)。
网络参数越多,包含这样性能好的子网络的概率就越大,即中彩票的可能性就越高。 从这个角度来看,参数过多的神经网络可能只有一小部分参数真正起到优化和泛化的作用,而其他参数只作为冗余备份存在,即使被切断,也不会对模型训练产生决定性影响。
彩票假设似乎表明,我们可以安全地切断模型中的冗余参数,而不用担心是否会产生不利影响。还有一些其他文献,基于简单最好的奥卡姆剃刀原则,我相信稀疏的网络会有更好的泛化能量4。目前,剪枝文献还强调,当剪掉大量参数时,其算法仍能保持与原模型相当的准确性。
但当我们想到双重下降时,我们不禁反思了一个基本问题: 剪枝的参数真的是完全冗余的吗?稀疏神经网络上是否建立了参数较好的双降?
为了探索这个问题的答案,请参考deep double descent在稀疏神经网络上进行了大量的设置实验。
2. 稀疏神经网络中的双下降
通过实验,我们惊讶地发现,所谓的网络"冗余"其实参数并不完全冗余。
当参数逐渐减少,稀疏度逐渐上升时,即使模型训练的准确性没有受到影响,测试的准确性也可能开始显著下降。此时,模型过拟合噪声越来越严重。
稀疏双在不同数据集中的下降。CIAFR-10,中:CIFAR-100,右:Tiny ImageNet 如果模型稀疏度进一步增加,可以发现模型的训练精度在经过一定拐点后开始迅速下降,测试精度开始上升,模型对噪声的鲁棒性逐渐提高。 当测试精度达到最高点时,如果模型参数继续减少,模型的学习能力就会受到影响。此时,模型训练和测试精度同时下降,开始难以学习。
此外,我们还发现,即使参数相同,模型的容量/复杂性也同,模型的容量/复杂性也会有所不同。例如,对于相同的拐点,基于权重的修剪模型稀疏度较高,而随机修剪则对应于较低的稀疏度。这表明随机修剪对模型的表达能力有更大的损害,只更少的参数才能达到相同的效果。
不同剪枝标准下的稀疏双下降现象。左:基于权重的剪枝,中:基于梯度的剪枝,右:随机剪枝
虽然我们的大部分实验都采用了彩票假说的retrain方法,但也尝试了其他几种不同的方法。有趣的是,即使剪枝后微调(Finetuning)也可以观察到明显的双重下降。可以看出,稀疏双重下降的现象并不局限于稀疏网络的初始训练,即使在修剪前训练的参数值也会有类似的结果。 不同retrain稀疏双下降现象的方法。Finetuning,中:Learning rate rewinding,右:Scratch retraining
我们还调整了标签噪声的比例我们还调整了标签噪声的比例。deep double descent,提高标签噪声的比例将降低模型训练准确性的起点,并向更高的模型容量方向移动(即更低的稀疏度)。另一方面,标签噪声的比例越高,需要剪掉的参数就越多,以避免过度拟合。 稀疏双在不同标签噪声比下降。左:20%,中:40%,右:80%
3. 稀疏神经网络的泛化性能和双下降现象如何解释?
我们主要测试了两种可能的解释。
一是极小平坦度假(Minima Flatness Hypothesis)。 有文章指出,剪枝可以增加模型的扰动,使模型更容易收敛到平坦的极小点5。由于极小点越平坦,一般具有更好的泛化能力,本文认为剪枝影响模型的泛化 5。 那么,稀疏双下降能解释极小平坦度的变化吗? 我们对loss可视化如图所示,间接比较了不同稀疏度下模型极小平整度的大小。
一维loss可视化
遗憾的是,随着稀疏度的提高,loss曲线变得越来越陡峭(不均匀)。极小的平整度与测试精度没有关系。
另一种是学习距离假说(Learning Distance Hypothesis) 理论工作证明了深度学习模型的复杂性和参数的初始化l2距离(学习距离)密切相关6。学习距离越小,模型就越接近初始化,就像早期停止时获得的模型参数一样,没有足够的复杂性来记忆噪声;相反,参数空间中模型的变化越大,复杂性越高,容易过度拟合。 那么,学习距离的变化能反映双下降的趋势吗?
模型学习距离和测试精度的变化曲线
如图所示,当准确性下降时,学习距离整体呈上升趋势,最高点恰好对应准确性的最低点;当准确性上升时,学习距离也相应下降。学习距离的变化与稀疏双下降的变化趋势基本一致(尽管当测试准确性第二次下降时,由于训练参数太少,学习距离难以再次上升)。
4. 与彩票假说的区别与联系
我们还进行了彩票假说winning ticket与重新随机初始化的对比实验。有趣的是,在双重下降的情况下,彩票假设的初始化并不总是优于网络的初始化。 彩票假说初始化(Lottery)重新随机初始化(Reinit)的对比
从图中可以看出,Reinit与结果相比Lottery整体左移,也就是说Reinit保留模型的表达能力不如保留模型Lottery是的。另一方面,这也证实了彩票假说的想法: 即使模型的结构完全相同,模型的性能也可能远远不同于不同的初始训练。
5. 后记
在这项研究中,我们观察到了一些神奇的、反直觉的实验现象,并试图进行分析和解释。然而,现有的理论工作并不能完全解释这些现象的原因。 例如,当训练精度接近100%时,测试精度会随着剪枝而逐渐下降。为什么模型没有忘记数据中的复杂特征,而是过拟合了更严重的噪音? 我们还观察到,随着稀疏度的增加,模型的学习距离会先上升后下降。为什么剪枝会导致模型学习距离的变化? 深度学习模型的双下降现象往往需要增加标签噪声才能观察到2,背后的机制背后的机制是什么? 目前还有很多问题没有答案。为了解释其中一个或多个问题,我们也在做一项新的理论工作。我希望尽快摆脱雾,找出这一现象背后的根本原因。
连接论文和代码
论文链接:https://arxiv.org/abs/2206.08684 代码链接:https://githu.com/hezheug/sparse-double-descent
参考文献:
Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2018). Reconciling modern machine learning and the bias-variance trade-off.stat,1050, 28. ↩︎
Nakkiran, P., Kaplun, G., Bansal, Y., Yang, T., Barak, B., & Sutskever, I. Deep double descent: Where bigger models and more data hurt. ICLR 2020. ↩︎ ↩︎ ↩︎
Frankle J., & Carbin, M. The lottery ticket hypothesis: Finding sparse, trainable neural networks. ICLR 2019. ↩︎
Hoefler, T., Alistarh, D., Ben-Nun, T., Dryden, N., & Peste, A. Sparsity in deep learning: Pruning and growth for efficient inference and training in neural networks. arXiv preprint arXiv:2102.00554, 2021. ↩︎
Bartoldson, B., Morcos, A. S., Barbu, A., and Erlebacher, G. The generalization-stability tradeoff in neural network pruning. NIPS, 2020. ↩︎ ↩︎
Nagarajan, V. and Kolter, J. Z. Generalization in deep networks: The role of distance from initialization. arXiv preprint arXiv:1901.01672, 2019. ↩︎