资讯详情

机器学习与数据挖掘(上)——期末复习

机器学习与数据挖掘(上)-期末复习

机器学习与数据挖掘(下)-期末复习

预备概念

过拟合与欠拟合

正则化

简单地说,在使用神经网络时,为了提高模型的泛化能力,防止模型仅在训练集和测试集中有效,我们使用正则化。

  • L 0 L_0 L0范数是指向量中非零元素的数量: ∥ X ∥ 0 = ∑ i = 0 n x i 0 \Vert X\Vert_0=\sum^{n}_{i=0}x_i^0 ∥X∥0=i=0∑n​xi0​ 若用 L 0 L_0 L0​范数来规则化参数矩阵,就是希望参数矩阵大部分元素都为0,使特征矩阵稀疏。但是很难优化求解。

  • L 1 L_1 L1​范数是指向量中各个绝对值元素之和: ∥ X ∥ 1 = ∑ i = 0 n ∣ x i ∣ \Vert X\Vert_1=\sum^{n}_{i=0}\vert x_i\vert ∥X∥1​=i=0∑n​∣xi​∣ 因为参数的大小与模型的复杂度成正比,所以模型越复杂,范数就越大。使用范数也可以实现特征稀疏。正则化是正则化的最优凸近似,相对范数的优点是容易求解,因此通常都是用范数进行正则化,而不是范数。

  • L 2 L_2 L2​范数是各参数的平方和再求平方根: ∥ X ∥ 2 = ∑ i = 0 n ∣ x i ∣ 2 \Vert X\Vert_2=\sqrt{\sum^{n}_{i=0}\vert x_i\vert^2} ∥X∥2​=i=0∑n​∣xi​∣2 ​ 让 L 2 L_2 L2​范数的正则化项 ∥ W ∥ 2 \Vert W\Vert_2 ∥W∥2​最小,可以使W的每个元素都很小,都接近于零。但是与范数 L 1 L_1 L1​不同,它不使每个元素都为0,而是接近于零。越小的参数模型越简单,越简单的模型越不容易产生过拟合现象。

    L 2 L_2 L2​范数不仅可以防止过拟合,而且还使优化求解变得稳定与迅速。

    L_2范数解决在用正规方程进行最小化代价函数时矩阵可能会不可逆的问题: ∂ ∂ θ j J ( θ ) ⟼ s e t 0 : θ = ( X T X ) − 1 X T y \frac{\partial}{\partial\theta_j}J(\theta)\overset{set}{\longmapsto}0:\theta=(X^TX)^{-1}X^Ty ∂θj​∂​J(θ)⟼set​0:θ=(XTX)−1XTy 但是如果样本的数目 m m m比特征参数 n n n要小的时候,也就是方程组的个数小于未知数的个数,那么 X T X X^T X XTX将会是不满秩的,也就是 X T X X^T X XTX不可逆,那么就无法求出最优解。在加上正则项后: θ = ( X T X + λ I ) − 1 X T y \theta=(X^TX+\lambda I)^{-1}X^Ty θ=(XTX+λI)−1XTy 就会保证 ( X T X + λ I ) (X^TX+\lambda I) (XTX+λI)是可逆的。

  • L 1 、 L 2 L_1、L_2 L1​、L2​正则化是通过修改损失函数来实现的,而Dropout则是通过修改神经网络本身来实现的,它是在训练网络时用的一种技巧(trick)。每一次训练神经网络时,随机丢弃一部分神经元,下一次训练时,再随机丢掉一部分神经元,那么这样我们也可以有效降低过拟合效应。

机器学习中的目标函数

几乎所有的机器学习算法最后都归结为求解最优化问题,以达到我们想让算法达到的目标。为了完成某一目标,需要构造出一个“目标函数”来,然后让该函数取极大值或极小值,从而得到机器学习算法的模型参数。

锐单商城 - 一站式电子元器件采购平台