作者马东什么@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/391954665

极市平台编辑

最近参加社会招聘，面试基本上是问项目，然后问项目算法，所以这里或根据实际面试过程总结，因为项目涉及不同的领域，所以统一整理以免忘记，当然，主营业务仍在machine learning因此，传统的机器学习算法主要是时间序列预测，nlp,Graph这些涉及的部分只会总结相关知识点，所以不会系统总结。没有必要，也很麻烦.

之前整理的材料主要是19年10月之前。这一次，几乎所有19年后可以找到的面经都扩大了范围，包括cv,推荐、语音等面经知识点，同时增加了三本面经书的内容github对于一些热门项目，大部分问题都是重复的。去重之后，其实大概就是百道题了。.

无监督相关(聚类、异常检测等):

问:熟悉哪些距离测量方法？写距离计算公式？

1.连续数据距离计算：

闵可夫斯基离家：

当p=1:00是曼哈顿的距离；

当p=2.欧氏距离；

当p→∞切比雪夫距离。

余弦距离：

当向量模长归一化为1时，余弦距离和欧式距离可以相互转换。余弦距离不是

2.离散数据的距离计算：

杰卡尔德距离：A，B集合的交集/A,B集合的并集

汉明距离：在相应位置表示两个等长字符串不同字符的数量

我在单独研究距离计算，因为它也是一个非常大的内容。上述距离计算公式基于样本-样本简单的距离计算，当引入核方法映射时，会有一些相应的更复杂的距离计算方法，此外，迁移学习样本组，即不同数据集之间的分布距离计算也是一个大内容，面试不应该问太复杂，这里暂时不深入。

问:你知道哪些常见的聚类算法？你对聚类了解多少？

https://zhuanlan.zhihu.com/p/394909171

简单回答，基于分类、密度、网格和层次聚类，此外，聚类和其他领域也有许多交叉领域，如半监督聚类、深度聚类、集成聚类等等；

问：kmeans原理是什么？

kmeans是一种基于划分的聚类，中心思想很简单，类内距离尽可能小，类间距尽可能大，算法过程如下：

1.初始化k个质心，作为初始k个簇的中心点，k人工设置的超参数；

2.所有样本点n分别计算与k纹理之间的距离。这里的距离也可以手动定义为不同的距离计算方法。每个样本点和k纹理中最近的纹理分为1类；

3.重新计算质心的方法是聚合计算簇，kmeans采用简单平均的方法进行聚合计算，也可采用中位数等方法进行计算；

4.重复上述过程，直到达到预定的迭代次数或纹理不再发生明显变化

问：kmeans什么是损失函数？

其中，K是聚类数，p是样本，是第k聚类的中心点。SSE样本聚合程度越小，越高。

问：kmeans如何选择初始点？选择不同初始点的策略有哪些缺陷？如何解决？

1.随机初始化：随机选择k样本点作为初始纹理。缺点是，如果选择的纹理距离非常接近并落在同一个系列中，迭代结果可能相对较差，因为最终迭代的纹理点将落在系列之间，

最理想的状态是k纹理正好对应于k簇。由于随机初始化的随机性，可以多次考虑随机初始化，选择最佳的聚合结果(这里涉及聚类评价方法)；

2.随机分为初始化：如果所有样本点随机给出一个簇，则所有样本点最终将有K个数字，然后进行组平均，即同一组的样本平均得到初始纹理。与随机初始化相比，初始纹理将更好，但仍存在随机初始化的缺陷，只是缓解；

3.kmeans

kmeans 是一种启发式的初始化策略：

Kmeans 聚类算法的原理与实现：https://zhuanlan.zhihu.com/p/152286357

①从数据集中随机(均匀分布)中选择样本点作为第一个初始聚类中心；

②然后计算每个样本与现有聚类中心之间的计算最短距离，用表示；然后计算每个样本点被选为下一个聚类中心的概率，最后选择最大概率值所对应的样本点作为下一个簇中心；

事实上，选择最短距离最大的样本点作为下一个初始化聚类中心点

③重复第②直到选择聚类中心；

kmeans 这是一种没有严格理论证明的启发性初始化策略sklearn中kmeans默认初始化策略；

4.其它聚类算法的初始化策略：

使用其他聚类算法计算k个质心点kmeans初始质感，我挺傻的，好像有亿点麻烦。

4.kmeans是特征还是样本？如何计算特征的距离？

一般来说，样本聚类，如果特征聚类处理简单，原始输入.T ，也就是。其目的与相关系数相似，如果两个特征高度相关，如收入和资产水平，两个特征之间的距离相对较小，但一般不可行，因为转移后，维度往往很高，如100万样本有100万维度，计算不现实，高维数据距离测量无效，最好直接计算相关系数；

5.为什么欧式距离的测量在高维空间中逐渐失效？

《When Is “Nearest Neighbor” Meaningful?》

当维度d趋于无限时，高维空间中任何两个样本点的最大距离和最小距离往往相等，距离测量失效；

问.聚类数量如何确定？K（聚类如果不清楚有多少类，有什么方法？）

选择某种方式，就像评估分类或回归一样metric或某些metrics下最好的k，例如sse（其实就是kmeans损失函数)、轮廓系数、兰德指数、互信息等；

如果聚类本身服务于监督任务(如聚类产生)features用于下游任务)，可直接根据下游任务metrics更好的评估；

问：k-means如何调优

1.初始化始化策略；

2.k大小参考，手工方法，肘法为代表；

3.数据归一化和异常样本处理；

问：介绍肘法（gap statistic计算很麻烦，这里就不写了)？

肘法没什么特别的。纵轴是聚类效果的评价指标。根据具体问题，如果存在聚类作为单独的任务，则使用它sse或轮廓系数等非监督系数metric作为纵坐标，然后找到metric与k最小结果相对应的k是最终选择；

肘部也很容易自动化，我们计算metric可以计算变化的斜率。k=n和k=n 1之间的斜率，当斜n和斜率n-1，斜率n 1和斜率n，斜率n 2和斜率n 当差值小于固定阈值时，可以停止，代码实现的思路与早停基本一致；

问：k-means如何解决缺点？

1.对异常样本非常敏感，簇心会因为异常样本被拉得很远

注意，这里的异常样本指的仅仅是在某些特征维度上取值特别大或者特别小的样本，是异常检测中定义的异常样本的一个子集，因为欧式距离的计算不考虑不同变量之间的联合分布，默认所有特征是相互独立的，所以kmeans对结果产生影响的异常样本特别是简单的异常样本，即某些特征维度存在异常值的样本，通过简单的统计可以得到这种异常样本；

解决办法是做好预处理，清除或纠正异常样本；

2.k值需要提前指定，有时很难确定；

解决方法为k调参；

3.只能拟合球形簇，对于流形簇等不规则簇或簇重叠问题的复杂情况，效果较差

解决方案，转换算法；

4.离散特征无法处理，特征缺失，

5.不能保证全局最优

解决方案:矮子中挑高个子，跑多次，取不同局部最优中最优的

问：dbscan和optics如何解决这些缺点？

dbscan和optics以密度为基础的聚类

1.kmeans对异常样本非常敏感，簇心会因为异常样本被拉得很远

dbscan和optics定义密度的计算方法不涉及任何平均鲁棒性差的计算方法，对异常样本不敏感，可以检测异常样本；

2.k值需要提前指定，有时很难确定；

dbscan和optics无需指定簇的数量；算法迭代过程中自然会产生最好的k聚类簇；

3.只能拟合球形簇，对于流形簇等不规则簇或簇重叠问题的复杂情况，效果较差

由于密度的计算方法，基于密度的聚类本身并不假设聚类簇的形状；

4.不能处理离散特征，缺失特征：缺失特征应补充，离散特征可以改变离散特征的距离测量方法，基于密度的聚类算法可以灵活匹配各种不同的distance测量方法；

5.无法保证全局最优：未解决

问：讲一下dbscan和optics一般思路？

dbscan：单个超球体，病毒式扩散；

optics：两个嵌套的超球一大一小，先映射成直方图，再从方图上生成聚类结果

dbscan和optics：https://zhuanlan.zhihu.com/p/395088759

问：kmeans是否一定可以收敛，为什么？kmeans为什么无法保证全局最优？

收敛性证明就算了吧。。.这也太超纲了。.。

kmeans的损失函数是一个非凸函数，所以无法保证全局最优；

from K Means为什么不能收敛到全局最优点？-SofaSofa：http://sofasofa.io/forum_main_post.php?postid=1002942

kmeans的损失函数，需要记忆一下

这里μk是第k个簇的质心，

为了方便描述，假设x是2维的，取k=1，则我们令：

uk是待求解变量，画出：z=

的函数图像：

可以看到，优化目标z存在(1,1),(-1,1)两个最优解，所以kmeans的损失函数不是一个凸函数而是一个非凸函数，难以保证收敛到全局最优。

问：为什么在一些场景中要使用余弦相似度而不是欧氏距离？

如果A，B两个向量e 的模场均为1，则欧式距离和余弦距离之间满足：

总体来说，欧氏距离体现数值上的绝对差异，而余弦距离体现方向上的相对差异。例如，统计两部剧的用户观看行为，用户A的观看向量为(0,1)，用户B为 (1,0)；此时二者的余弦距离很大，而欧氏距离很小；我们分析两个用户对于不同视频的偏好，更关注相对差异，显然应当使用余弦距离。而当我们分析用户活跃度，以登陆次数(单位：次)和平均观看时长(单位：分钟)作为特征时，余弦距离会认为(1,10)、(10,100)两个用户距离很近；但显然这两个用户活跃度是有着极大差异的。

因此，我们关注向量数值绝对差异，应当使用欧氏距离，如果关心的是向量方向上的相对差异，则应当使用余弦距离。

问：余弦距离是否是一个严格定义的距离? （一个度量标准要满足什么要求才能算是距离）

该题主要考察面试者对距离的定义的理解，以及简单的反证和推导。首先看距离的定义：在一个集合中，如果每一对元素均可唯一确定一个实数，使得三条距离公理（正定性，对称性，三角不等式）成立，则该实数可称为这对元素之间的距离。

余弦距离满足正定性和对称性，但是不满足三角不等式，因此它并不是严格定义的距离。

问：K-means 中我想聚成100类结果发现只能聚成98类，为什么？

迭代的过程中出现空簇，原因在于k太大，实际的簇数量小于k；

初始化策略不会导致空簇的问题，因为即使最简单的随机初始化也是从原始的样本点里选择部分样本作为质心，如果初始质心中存在异常样本，则最终聚类的结果，这个异常点会自成一个簇而不会出现空簇的问题；

https://datascience.stackexchange.com/questions/44897/k-means-clustering-what-to-do-if-a-cluster-has-0-elements

空簇对应的中心点和任意一个样本点的距离都不是该样本点距离其它质心点的距离的最小值。

问：kmeans，GMM，EM之间有什么关系？

kmeans是基于划分的聚类算法，GMM是基于模型的聚类算法，EM是估计GMM的参数使用的优化算法；

1. kmeans可以看作是GMM的一种特例，于协方差为单位矩阵，故kmeans聚类的形状是球形的，而GMM是椭球型的；

2. kmeans使用hard EM求解，GMM使用soft EM求解（kmeans感觉还是从直观上的计算过程上理解比较舒服，通过hard em也是一个解释就是了）;

关于上述的原因，在下一个问题里说明

问：高斯混合模型的核心思想是什么？（GMM和多元高斯有什么区别？，多元高斯函数的期望是什么）

GMM就是多个相关多元高斯分布的加权求和；

理解GMM之前，先回归基本概念：

1.一元高斯分布：

现在我们将高斯分布扩展到多维空间，简单说就是有x1，x2，x3。。。xn等多个维度。当我们假设多维空间的每一个空间之间完全独立，则独立的n元高斯分布为：

可以看到，是非常类似的，根号2pi部分取n次方，方差用协方差矩阵代替，代数的乘法转化为矩阵乘法；多元高斯分布的期望就是观测样本的（样本向量-所有特征向量的均值构成的均值向量）进行和自身的向量乘计算；

协方差矩阵：

协方差矩阵是一个nXn的矩阵，n代表了多元的大小，对于协方差矩阵中的每一个元素，计算公式如下：

具体展开来看就是：

协方差矩阵和相关系数的关系：

可以看到，相关系数的计算过程中，已经对变量做了均值方差的标准化处理了，所以对两个特征计算相关系数不需要考虑量纲大小的问题；

现实世界中，不同的特征（多个特征=多元）很难完全独立，因此我们也会使用非独立的多元高斯分布，公式写作：

402 Payment Required

可以看到，公式层面上，独立多元高斯分布和非独立（相关）多元高斯分布的形式是一样的，只不过协方差矩阵不同：

独立多元高斯分布除对角线之外其它元素的值均为0，相关多元高斯分布则其它元素的值为特征之间的协方差的计算结果；

高斯混合模型：

高斯混合模型GMM是多元高斯分布之上的概念，他认为现实世界的数据是由多个不同参数的相关多元高斯模型以不同的权重累积求和构成的（单元，独立多元高斯模型可以看作相关多元高斯模型的特例）；

其中：

是第个子模型的相关多元高斯分布，是观测数据属于第个子模型的概率；因此对于GMM而言，其参数，即每个子模型的均值向量、协方差矩阵以及在GMM中该子模型的权重；

对于相关多元高斯混合模型，其参数仅包含均值向量和协方差矩阵，可以直接通过极大似然法写出极大似然函数，然后通过求导进行参数估计，具体的通过极大似然法可以直接推导出均值向量和协方差矩阵关于输入向量X的计算公式，带入数据集X可以直接求解；

而GMM的极大似然函数较为复杂：

由于存在（观测数据属于第个子模型的概率）这个隐变量，无法直接求导得到参数的估计结果，因此通过EM算法来进行迭代式的求解；

问：GMM是如何迭代计算的？为什么kmeans，GMM，EM满足上面描述的方式？（EM算法数学原理）

首先需要了解em算法，em算法和梯度下降法一样，都可以用来优化极大似然函数，当极大似然函数中存在隐变量时，EM算法是一种常用的优化算法；

EM算法是一种迭代优化策略，由于它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），所以EM算法被称为EM算法（Expectation-Maximization Algorithm）

jensen不等式：

如果f是凸函数，X是随机变量，那么：。当且仅当X是常量时，该式取等号。其中，E(X)表示X的数学期望。Jensen不等式应用于凹函数时，不等号方向反向。当且仅当x是常量时，该不等式取等号。

如上图，实线f表示凸函数，X是随机变量，有0.5的概率是a，有0.5的概率是b。X的期望值就是a和b的中值，从图中可以看到成立。

问：GMM的损失函数？增大数据量是否会更好？

问：层次聚类原理

问：为什么选择孤立森林？介绍一下iforest？

优点：基于集成异常检测的思路，鲁棒性强；不涉及距离和密度计算，计算速度很快；每棵树独立生成可并行或分布式；

iforest的算法流程：

（1）底层是极限随机树，随机选择一个特征，随机选择部分样本（bagging），每次分裂随机选择一个分裂节点，最大深度是 log2（bagging的样本数量）

（2）整合所有极限随机树的结果，使用score function打分：

h(x) 为样本x 在每棵树的高度（其实就是x在这棵树上分裂了几次），对样本x在所有树上的分裂次数进行平均得到分子项目，c(Ψ) 为给定样本数 Ψ 时路径长度的平均值，用来对样本 x 的路径长度 h(x) 进行标准化处理。

（3）score function的计算结果在0~1之间，

如果异常得分接近 1，那么一定是异常点；

如果异常得分远小于 0.5，那么一定不是异常点；

如果异常得分所有点的得分都在 0.5 左右，那么样本中很可能不存在异常点。

详细的可见：

isolation forest：https://zhuanlan.zhihu.com/p/181378482

isolation forest的score function公式到底是个啥？：https://zhuanlan.zhihu.com/p/181650438

追问：为什么高度为log2（bagging的样本数量）？为什么每次随机仅选择一小部分的样本（默认是min(bagging的样本数量，256)）？

直观上来看，m个特征，我们用m个极限随机树分别进行完全分裂，分裂到叶子节点的样本特征值完全相同，得到n个样本在m个极限随机树上的分裂次数，即得到n个样本在m个特征上的分裂次数，然后取平均就可以满足我们的预测目标了。本质上通过分裂次数代替聚类或密度的计算，分裂越少，则样本在这个特征上的异常程度越高，然后综合考虑样本在多个特征上的异常程度；

但是这么做的问题有：

1.计算复杂度太高了，树的完全分裂的时间复杂度为O(n)，上述做法的总的时间复杂度为O(mn);

2.本质上做的是基于集成学习的无监督学习，鲁棒性强，但是单纯用1个极限随机树分裂1个特征，随机因素影响太大，重新训练的结果差异可能会很大。解决的方法是每个特征用多个极限随机树来拟合，则计算复杂度进一步扩大为O(mnk)，k为树的数量；

3.无监督的核心缺陷，无法自动特征选择，所有特征的重要性一视同仁，则如果存在大量无用特征或者噪声特征，会严重影响计算结果；

iforest针对上述问题做了改进：

1.针对问题1，树的最大深度限制为log2（bagging的样本数量），之所以对树的高度做限制，是因为我们只关心路径长度较短的点，它们更可能是异常点，而并不关心那些路径很长的正常点。之所以使用log2的底数，是为了和score function的公式对应起来，为了计算score fuction上的便利性：

2-log2(2)=1/2,2log2(2)=2（指数和log计算公式）

总结一下， log2（bagging的样本数量）和服务于score function的设计的，计算上提供了便利性，；

2.仍旧是针对问题1，树每次使用的样本默认为 min(采样的样本数，256)，这么做主要避免了太大数量的样本上分裂次数过多计算复杂度高的问题，然后通过集成提高整个模型的鲁棒性。（精度和效率之间的一种折衷，根据论文和实际的应用结果，效果还ok）；

3.针对问题2，仍旧是精度和效率上的折衷，k个极限随机树通过采样，最终一共使用k个特征，每一轮随机选择一个特征生成一棵树；

4.针对问题1和2的不精确分裂的问题（实质上也没有办法做精确分裂），tree分裂上的不精确在实践中可以被认为提高了算法的鲁棒性，类似于lgb直方图；

5.针对问题3，特征的随机采样某些情况下缓解了无效特征的问题（大部分特征有效少部分特征无效的情况），但是本质上没有解决（大部分特征无效，少部分特征有效的情况），最终的特征工程还是要基于业务经验来进行；

追问：iforest的score function，为什么这么设计？

一步一步拆解来看：

1.指数函数形式的设计

我们希望iforest输出的结果能够在一个有限的范围内，例如像auc的取值范围为0.5~1一般，有界的评估指标便于比较（高度必然为正数，因此分子部分可以保证为负数，2**-x必然是大于0小于1的）；

2.分子的设计：

h(x)部分，并不是简单的直接计算样本在tree上的分裂次数，观察上述公式，其中e表示的才是样本在tree上的分裂次数，后面额外多了一项c(T.size)的修正项，T.size表示的样本所在叶子节点中所有样本的数量。

c(n)表示样本数量为n的情况下，生成随机二叉树的期望高度：

3.分母部分的设计：

分母部分使用的仍旧是上述的C(n)的公式，只不过分母部分的n指的是每一棵极限随机树使用的全部样本数量，即bagging得到的样本数量，默认是256个样本。这里的分母也是作为修正项存在的。

追问：为什么这里要引入分子和分母部分的修正项？

1.分子部分的修正项：

主要目的在于将样本落在的叶子节点中的样本数量大小这一因素考虑进来，假设某个样本A落入了叶子节点1，叶子节点1中有5个样本；某个样本B落入了叶子节点2，叶子节点2中有5000个样本，并且假设A和B的树的深度e都是3，则如果我们不引入修正项c(T.size)，计算结果是完全相同的。但实际上很明显，A的异常程度是要高于B的，因为B所在的叶子节点的样本数量很大，其实是可以继续分裂很多次，然而考虑到性能的问题，我们对树的高度做了限制，因此会引发这样的误差。

修正项的引入可以很好的解决这个问题，C(n)代表了给定n个叶子节点，所能生成的随机二叉树的平均高度，显然，叶子节点数量越多，则平均高度越大，则score function的计算结果越小，从而巧妙地缓解了上述存在的问题；

2.分母部分的修正项：

主要目的在于将每个tree所训练的bagging的样本数大小这一因素考虑进来，假设bagging的样本大小为64和256，则根据iforest的设计，max_depth分别为5和8，显然，bagging的样本数量越大则树可以生成的树的深度大概率越深，因此在分母部分引入给定bagging样本数量下，所能生成的随机二叉树的平均高度，显然，bagging样本数越多，平均高度越大，则score function计算的结果越大。

问：KNN算法是否存在损失函数？

无，knn是一种懒惰学习（lazy learning）的算法，对应的有eager learning：

lazy learning：

只存储数据集而不从中学习，不需要模型训练
收到测试数据后开始根据存储数据集对数据进行分类或回归；

eager learning：

1.从收集到的数据中学习，需要模型训练；

2.受到测试数据后直接完成分类或回归

不均衡学习:

问：数据不均衡如何解决，抽样得到的分类准确率如何转换为原准确率？

将采样后的预测的类别按照采样比例进行相应的增大或减少，例如对类别A下采样了50%，则预测结果中类别A的预测数量为m，令m=m/0.5=2m，然后计算分类准确率；

这种处理方式是不准确的，合理的方式应该是直接对原始数据进行评估指标的计算；

问：解决难样本问题的方法（hard sample problem），ohem与focal loss的相同点和不同点

问：如果把不平衡的训练集（正负样本1：3）通过降采样平衡后，那么对于平衡后的AUC值和预测概率值有怎样的变化？

roc曲线对类别数量的变化不敏感，因此auc的计算结果整体不会发生明显变化；

通过下采样平衡后，变相增大了正样本数量，分类决策边界远离正样本，预测概率整体变大；

问：class_weight的思想是什么？

class_weight对应的简单加权法是代价敏感学习最简单的一种方法，思想就是小类样本加权，使其在loss中比重变大；

问：不均衡学习原理？

目前主流的不均衡学习主要是关于分类问题的不均衡。所谓不均衡分类，指的是样本不同类别的数量差异越来越大的情况下，模型越来越偏向于预测大类样本的现象，因此，模型分类性能越来越差。

单纯从样本不均衡的角度出发（不考虑分布变化，小样本学习，分类问题的困难程度等其它问题），不均衡的类别对模型造成影响的原因：

1.目标函数优化的方法，使用梯度下降法优化目标函数的模型对于不均衡问题更敏感；而tree模型纯粹基于贪心策略进行分裂的方法则对此并不敏感；

2.目标函数的使用，hinge loss和交叉熵对于不均衡的敏感度不同；

不均衡是一个现象，是分类模型效果差的潜在原因之一；

问：了解哪些不均衡学习的处理方法？讲讲smote算法的原理？为什么平常很少使用smote这类基于样本生成的方法？

问：过采样（上采样）和生成样本的区别？

上采样不一定是生成样本，例如简单的repeat式的上采样，通过repeat不涉及样本生成的过程，但生成样本一定是一种上采样；

模型的loss function，metrics和optimizers

无监督metrics：

问：如何评价聚类结果的好坏（知道哪些聚类的评估指标）？轮廓系数有没有用过

sse很简单

轮廓系数：

轮廓系数是为每个样本定义的，由两个分数组成：

a：样本与同一cluster中所有其他点之间的平均距离。
b：样本与_下一个最近cluster_中的所有其他点之间的平均距离。

对于单个样本而言，轮廓系数的计算公式如下：

对于模型评估而言，取所有样本的轮廓系数的均值作为模型聚类效果的评估指标；

其它评估方式可见：

https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation

有监督metrics：

问：准确率的局限性是什么？

1.不同分类阈值下准确率会发生变化，评估起来比较麻烦；

2.对样本不均衡问题特别敏感，例如当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率；

公式：分类正确的样本数/总样本数

问：ROC曲线如何绘制，ROC和PRC的异同点；准确率（accuracy）、精确率（precision）、召回率（recall），各自的定义，各自的缺陷；PR曲线的绘制；使用PR曲线判断模型好坏；ROC曲线的横坐标、纵坐标意义；

TP，FP，TN，FN，都是英文缩写很好记忆

准确率=(tp+tn)/total

精确率=tp/(tp+fp) 分子为正确预测的正样本的样本数量，分母为预测为正样本的样本数量

召回率=tp/(tp+fn) 分子为正确预测的正样本的样本数量，分母为所有正样本的样本数量

误杀率=fp/(fp+tn) 分子为错误预测的正样本数量，分母为所有负样本的样本数量

极度不均衡情况下，模型将所有样本预测为大类则准确率就能很高了；

分类阈值接近0，则模型将所有样本预测为正样本则召回率接近100%；

分类阈值接近1，则模型将极少样本预测为正样本则精确率接近100%（例如就预测一个样本为正样本并且这个样本恰好为正样本则精确率为1）；

召回和精确率都受到分类阈值的影响较大；

pr曲线，以召回率为横坐标，精确率为纵坐标

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可认为后者的性能优于前者，例如上面的A和B优于学习器C；

一般使用平衡点来评估无法直接比较的情况例如上图的A和B模型，平衡点（BEP）是P=R时的取值，如果这个值较大，则说明学习器的性能较好。而F1 = 2 * 召回率 * 精确率／( 召回率 + 精确率 )，同样，F1值越大，我们可以认为该学习器的性能较好。

roc曲线，和pr曲线一样，纵坐标是精确率，但是横坐标是误杀率。

其中第一行ab均为原数据的图，左边为ROC曲线，右边为P-R曲线。第二行cd为负样本增大10倍后俩个曲线的图。可以看出，ROC曲线基本没有变化，但P-R曲线确剧烈震荡。因此，在面对正负样本数量非常不均衡的场景下，ROC曲线会是一个更加稳定能反映模型好坏的指标，

问：ROC曲线和PR曲线的区别，适用场景，各自优缺点；

roc曲线对于正负样本比例不敏感，因为roc曲线的纵坐标是精确率=预测正确的正样本/预测为正样本的样本数量，横坐标是误杀率=预测错误的负样本/所有负样本数量，改变了标签中类别的分布之后，预测正确的正样本/预测为正样本的样本数量会同时发生同向的变化，预测错误的负样本/所有负样本数量也会发生同向的变化，即roc的横纵坐标的计算结果是独立的，分别是针对正样本和针对负样本独立计算的，两个坐标的计算不会发生互相影响，因此类别比例发生变化的情况下，roc也不会产生剧烈的变动；

pr曲线的纵坐标是精确率=预测正确的正样本/预测为正样本的样本数量，横坐标是召回率=预测正确的正样本/所有正样本的数量，即pr的横纵坐标的计算结果是存在相互关系的，他们都是针对正样本进行计算，两个坐标的计算发生互相影响，从而使得pr曲线对类别的变化很敏感；

roc聚焦于二分类模型整体对正负样本的预测能力，所以适用于评估模型整体的性能；如果主要关注正样本的预测能力而不care负样本的预测能力，则pr曲线更合适；

问：AUC的意义，AUC的计算公式？

auc是roc的曲线下面积，但是auc的实际意义仅仅从roc的曲线下面积不好理解，这里可以先了解一下auc的计算公式有哪些：

直接根据roc曲线进行计算，计算roc曲线下面积，缺点是计算误差较大，我们需要确定非常大量的分类阈值才能毕竟auc的真实计算结果；

2.auc的实际意义：正负样本对中预测结果的rank值的比较，假设正样本有x1个，负样本有x0个，则统计正样本*负样本的样本对中，正样本的预测概率大于负样本的预测概率的样本数量z，然后用z/x0*x1就可以得到auc了，这种计算方式的时间复杂度为O(n^2)，这里的n指的是样本总数量

3.在2的基础上改进，先对预测的结果进行rank，预测概率越大则rank值越大，

这里的公式写的比较简略，详细解释一下：

首先，假设某个样本 S 的rank值为k，则意味着有k-1个样本的预测概率小于样本S，即对于这k-1个样本中的每一个样本s来说，他们分别和样本S 构成的 sample pair （S，s）都是S的rank大而s的rank小的，则我们可以先得到：

然后，对于M个正样本而言，两个正样本构成的pair是没有意义的，我们在2里的计算不涉及到正样本之间的匹配，因此这部分需要减掉，则M个正样本两两配对的组合数量为

最后，对于rank值而言，例如样本S的rank值为10，则实际上是有9个样本的预测值小于样本S的，但是我们前面的求和部分实际上将样本S和自身的sample pair(S,S)都考虑进去了，所以这里减掉和自身匹配的情况，一共是M种；

最终，我们就得到了：

时间复杂度取决于使用了排序算法，使用快排则计算复杂度为O(nlog(n))

因此，auc的实际意义是任意选定一个正负样本对，正样本的预测结果大于负样本的预测结果的概率；

问：给你M个正样本，N个负样本，以及他们的预测值P，求AUC

预测值取rank然后套上面公式就行了；

问：IV值，woe值是什么？

woe是一种用于类别特征编码的编码方法，公式为：

简单来说，就是某个类别的好坏比/全量数据的好坏比；

iv是对woe值的修正，主要是考虑类别中包含的样本数量大小不同从而导致相同woe计算结果下，统计特征不明显的问题，不同样本数量下计算出来的woe是具有不同意义的，简单来说，woe计算结果相同的情况下，类别中包含的样本数量越多，woe的显著性越明显；

woe因为存在上述的问题，所以从整个特征的层面来看不能直接求和，但iv可以

问：roc曲线中，高于和低于对角线表示意义

roc曲线的对角线，表示一个随机预测模型的性能，如果模型的roc曲线在对角线下方，则该模型比随机模型还差，高于对角线则表示模型比随机模型好，模型是有意义的；

具体的，可以从auc的物理意义上去理解，roc的对角线下方面积为0.5，意味着对角线的随机模型的auc为0.5，结合auc的物理意义：任意选择一个正负样本对，正样本的预测结果高于负样本的预测结果的概率，则说明对角线代表的随机模型对于正负样本对的相对大小的判定是随机的；

问：多分类 auc 怎么算？

多分类问题中，在二分类指标的基础上需要进行一些处理才能适配多分类的评估，整体有两种计算策略：

基于macro的策略：ovr的划分方式，分别计算每个类别的metrics然后再进行平均

基于micro的策略：所有类放在一起算metrics；

micro的评估方式，当类别非常不均衡时，micro的计算结果会被样本数量多的类别主导，此时需要使用macro

问：F1，F2.。。.Fn值是什么，Fbeta怎么计算？

fbeta是f_metrics系列的最终定义式，公式如下：（f系列的可以统一用这个公式来记忆）

当beta=1时，Fbeta=F1，当beta=n时，Fbeta=fn；

beta用于定义召回率和精确率的相对重要性，越大，则recall越重要，当beta趋于无穷大时，Fbeta=recall，越小，则precision越重要，当beta**2趋于0时，Fbeta=precision

问：ks曲线和psi了解吗？

ks曲线的横坐标是分类的阈值，纵坐标代表了精确率或者误杀率，一个分类阈值对应的一个精确率和一个误杀率，而ks曲线就是用每个分类阈值下的精确率-误杀率，ks值则是指ks曲线上的最大值；

psi：

psi就是对称的kl散度的平均,kl散度的公式如下：

用来衡量两个离散随机变量的分布的差异

loss function

问：知道哪些常见的损失函数？

点预测问题：

0-1损失函数：

非凸，直接优化困难

logloss（交叉熵）（多分类），

最常用，相对hinge loss对噪声敏感（无意义的hard sample）；

Cross-entropy（二元交叉熵）（logloss在二分类的特例）：

当使用sigmoid作为激活函数的时候，常用交叉熵损失函数而不用均方误差损失函数，因为它可以完美解决平方损失函数权重更新过慢的问题，具有“误差大的时候，权重更新快；误差小的时候，权重更新慢”的良好性质。

exponential loss

对噪声敏感，adaboost中使用过，其它情况很少接触

hingeloss，

对噪声健壮性强；

mse，mae，rmse，mape，smape：

mse，mae，rmse对标签y取值特别大的样本鲁棒性都较差，mae和rmse相对有所缓解，

mape：范围[0,+∞)，MAPE 为0%表示完美模型，MAPE 大于 100 %则表示劣质模型。

可以看到，MAPE就是mae 多了个分母。

注意点：当真实值有数据等于0时，存在分母0除问题，需要做平滑

mape对标签y取值特别大的样本的鲁棒性较强，因为通过除以真实标签（即分母项），对单个异常样本的loss进行了放缩；缺陷在于对标签y取值接近0的样本鲁棒性很差，一点点的偏差就会使得单个样本的mape的loss的计算结果很大，

smape：smape是针对mape的对异常小样本的鲁棒性很差的问题进行了修正，可以较好的避免mape因为真实值yi小而计算结果太大的问题；同时对异常大的样本的鲁棒性也较好；

mape和smape都可以作为loss function进行优化；

区间预测问题：

直接估计参数的分布的参数，贝叶斯深度学习这部分内容里有，之前看的deepar也是用的这种，称为distribution loss，这块儿研究的不多，后续应该找个时间好好系统性的看一下回归中的区间预测问题；

问：mse对于异常样本的鲁棒性差的问题怎么解决？

1、如果异常样本无意义，则对异常样本进行平滑等方式处理成正常样本，如果异常样本很稀少，直接删除也可以；

2. 如果异常样本有意义，例如双十一销量，需要模型把这些有意义的异常考虑进来，则从模型侧考虑使用表达能力更强的模型或复合模型或分群建模等；

3.loss function层面选择更鲁棒的损失函数例如smape；

问：二分类为什么用二元交叉熵？为什么不用mse？

原因：sigmoid对模型输出进行压缩到(0，1）区间的条件下，根据二元交叉熵得到的梯度更新公式中不包含sigmoid的求导项，根据mse的得到的梯度更新公式则会包含。

使用mse推导出的梯度更新量：

因为sigmoid的性质，导致在取大部分值时会很小（如下图的两端，几乎接近于平坦），这样会使得很小，导致参数和更新非常慢。

根据二元交叉熵推导出来的梯度更新公式：

不包含sigmoid的求导项，没这个问题

问：mse，sigmoid+交叉熵梯度推导

mse

没有sigmoid或其它的转换，则公式中求导项为1，

二元交叉熵（带sigmoid，求导过程中用到sigmoid的导数公式，否则到第二张图的第二步就可以停止了）：

问：信息量，信息熵、相对熵（KL散度）、交叉熵、条件熵、互信息、联合熵的概念和公式？

信息量用来度量一个事件的不确定性程度，不确定性越高则信息量越大，一般通过事件发生的概率来定义不确定性，信息量则是基于概率密度函数的log运算，用以下式子定义：

这里的p(x)可以是离散数据的概率，也可以是连续数据的概率密度函数

信息熵，衡量的是一个事件集合的不确定性程度，就是事件集合中所有事件的不确定性的期望，公式定义如下：

相对熵（kl散度）：kl散度，从概统角度出发，表示用于两个概率分布的差异的非对称衡量，kl散度也可以从信息理论的角度出发，从这个角度出发的kl散度我们也可以称之为相对熵，实际上描述的是两个概率分布的信息熵的差值：

对于离散和连续的随机变量分布都可以使用kl散度进行定义

kl散度和余弦距离一样，不满足距离的严格定义；

kl散度的性质：

非负性（用Jenson‘s inequality 证明）
不对称性，即KL(P||Q)≠KL(Q||P)

js散度公式如下：

js散度的范围是[0,1],相同则是0，相反为1。相较于KL，对相似度的判别更准确;同时，js散度满足对称性 JS(P||Q)=JS(Q||P)

交叉熵：

可见,交叉熵就是真值分布的信息熵与KL散度的和, 而真值的熵是确定的,与模型的参数θ 无关,所以梯度下降求导时，优化交叉熵和优化kl散度（相对熵）是一样的；

联合熵：

联合熵实际上衡量的是两个事件集合，经过组合之后形成的新的大的事件集合的信息熵；

条件熵：

事件集合Y的条件熵=联合熵-事件集合X的信息熵，用来衡量在事件集合X已知的基础上，事件集合Y的不确定性的减少程度；

互信息：

互信息=事件集合X的信息熵-事件集合X在已知事件集合Y下的条件熵=事件集Y的信息熵-事件集合Y在已知事件集合X下的条件熵；

问：怎么衡量两个分布的差异？KL散度和交叉熵损失有什么不同？关系是啥？

kl散度，js散度，以及迁移学习里的许多更advanced的评估方式例如mmd，交叉熵=真实的标签分布的信息熵+相对熵（kl散度）

问：距离的定义？哪些度量方法不符合距离的定义

距离的定义：在一个集合中，如果每一对元素均可唯一确定一个实数，使得三条距离公理（正定性，对称性，三角不等式）成立，则该实数可称为这对元素之间的距离。

1：正定性，d(x,y)>=0，仅当x=y则不等式等号成立，说白了就是如果样本A和样本B的距离为0，则样本A和样本B可以看作同一个样本；

2：对称性：d(x,y)=d(y,x)，即样本A到样本B的距离等于样本B到样本A的距离；

3：d(x,y)<d(x,z)+d(z,y),即样本A到样本B的距离小于样本A到样本C的距离+样本B到样本C的距离

余弦距离不满足三角不等式，kl散度不满足对称性，因此二者都不是严格意义上的距离的定义；

问：交叉熵的设计思想是什么？

优化交叉熵等价于优化kl散度，

这里的是真实分布，它的信息熵是一个定值，对于模型来说是一个不可优化的常数项，你可以把它替换成包括1、在内的任何常数，对优化都没有影响。在这种问题中优化交叉熵和优化KL散度是等价的。P.S. 在多分类的问题中，这两者是完全一致的，因为对于one hot标签来说：所以交叉熵实际上就是希望模型的预测结果能够尽量和标签的分布保持一致；

问：写 huber loss 公式，huber loss了解吗？和mse、比起来优势是啥？

通过引入超参数sigma，huber loss可以灵活动态的调整模型使用的loss function是mse还是mae，

这确保了损失函数不会受到异常值的严重影响，同时不会完全忽略它们的影响。

最优化方法：

问：推导梯度下降公式

这里问的是梯度下降的一般性的表达式：

不知道这种问题有什么好问的。。

问：知道哪些常见的一、二阶优化方法？

牛顿法的收敛速度，是不是一定比梯度下降快（举反例），Hessian矩阵的求逆与计算量问题（正则化，Hessian矩阵的近似），牛顿下降的几个phase，KKT的仔细描述。拟牛顿法和牛顿法的关系，拟牛顿法解决了牛顿法哪个问题？推导下牛顿法。牛顿法在什么时候只需要迭代一次就能求解，什么时候牛顿法不能适用

问：极大似然估计，结构，经验风险最小化的关系，交叉熵和最大似然损失函数的区别，讲一下极大似然估计，极大似然估计和最大后验估计的区别是什么？最小二乘与极大似然函数的关系？先验，后验，最大似然估计，最大后验估计？

问：讲一下jaccob矩阵和Hessian矩阵？Hessian矩阵是对称矩阵吗？

问：机器学习中的优化问题，哪些是凸优化问题，哪些是非凸优化问题？请各举一个例子。

凸函数的严格定义为，函数_L_(·) 是凸函数当且仅当对定义域中的任意两点_x_，_y_和任意实数_λ_∈[0,1]总有

该不等式的一个直观解释是，凸函数曲面上任意两点连接而成的线段，其上的任意一点都不会处于该函数曲面的下方，如下图所示。（注意，这只是一种判定方法，实际上还有许多其它的判定方法，因为比较超纲所以不多介绍了）

凸优化问题的例子包括支持向量机、线性回归等线性模型，非凸优化问题的例子包括低秩模型（如矩阵分解）、深度神经网络模型等，凸函数和优化算法没有直接的关系，对于模型而言其目标函数是凸函数，不一定使用梯度下降法进行求解，例如GMM的目标函数（带隐变量的极大似然函数）使用EM算法进行迭代求解。

自动化机器学习：

问：模型和超参数有哪些自动化调优方法？它们各自有什么特点？

问：简述贝叶斯优化中用高斯过程回归计算目标函数后验分布的方法。高斯过程回归可以用于种类型或者层次型模型配置参数的优化吗？

问：贝叶斯优化中的获得函数是什么？起到什么作用？请介绍常用的获得函数。

模型应用和特征工程部分:

问：什么是偏差和方差？

偏差指的是由所有采样得到的大小为_m_的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的差异。偏差通常是由于我们对学习算法做了错误的假设所导致的，比如真实模型是某个二次函数，但我们假设模型是一次函数。由偏差带来的误差通常在训练误差上就能体现出来

方差指的是由所有采样得到的大小为_m_的训练数据集训练出的所有模型的输出的方差。方差通常是由于模型的复杂度相对于训练样本数_m_过高导致的，比如一共有100个训练样本，而我们假设模型是阶数不大于200的多项式函数。由方差带来的误差通常体现在测试误差相对于训练误差的增量上。

问：如何从减小方差和偏差的角度解释Boosting和Bagging的原理？

数据清洗：异常值怎么判断？箱型图：上界怎么定义？极端异常值怎么判断？

怎么填补?用缺失值填补，缺失值怎么处理？

1.为什么使用中位数对缺失值进行填充,这样做的好处是什么?

5.one-hot编码的原理及意义?

6.特征维度很高时你是怎样做的操作?

标准化的适用场景、不适应场景？

所有模型都要求对数据进行标准化么？

如果onehot等操作之后维度过高你会怎么做；

为什么K折交叉验证能防止过拟合？

问：一般怎么做交叉验证.

缺失值怎么处理？验证集怎么划分？哪些指标说明你的模型调优了？调节过模型的哪些参数

异常值的影响，如何消除

连续特征分桶都有哪些方法（没说够）卡方分箱那些的几个分箱策略的使用场景和优缺点
如何做数据预处理
你了解哪些归一化方式（没说够）
零均值归一化是线性的么

为什么要离散化，离散化的参数如何确定

训练集和测试集分布不一致的问题是怎么发现的，怎么诊断定位，除了可视化还有没有其他直观的指标

1.类别特征编码方式有哪些？如何解决 target encoding 的 target leakage？count encoding 有个缺点：测试集和训练集分布不同，导致特征频率不一样。怎么解决？

为什么需要计算特征重要性，计算特征重要性的方法有哪些

连续特征怎么分箱，如何判断分箱的结果是好是坏

特征平滑方法有哪些

什么样的 ID 经过 Embedding 后可能有效，如何筛选有效的 ID。有些 ID 数量级很大，怎么处理

1. 哪些算法需要对特征先进行归一化，这类算法有什么特点，不进行归一化的缺点是?

5. #### 常见的筛选特征的方法有哪些？⭐⭐⭐⭐⭐

6. #### 数据怎么清洗，缺失值怎么填充⭐⭐⭐⭐⭐

7. #### 出现Nan的原因⭐⭐⭐⭐⭐

8. #### 特征筛选，怎么找出相似性高的特征并去掉⭐⭐⭐⭐⭐

11. #### 类别型数据你是如何处理的？比如游戏品类，地域，设备⭐⭐⭐⭐

12. #### 计算特征之间的相关性方法有哪些？⭐⭐⭐⭐

卡方检验的原理？

问：如何判断一个模型是处于高方差还是高偏差？高方差如何调节模型，高偏差如何调节模型？过拟合产生的原因有哪些？如何防止过拟合？

特征选择的方法有哪些？

过滤式，包裹式，嵌入式特征选择，过滤式特征选择主要采用独立于模型的评估指标来评估特征的好坏，计算快，能够方便迅速的对特征进行粗筛，缺陷在于评估指标的计算与模型解耦，很多时候精度都不好，

问：那请你解释一下什么是偏差和方差和泛化误差，过拟合和欠拟合，怎么衡量一般？

问题1 在模型评估过程中，过拟合和欠拟合具体是指什么现象？

一般我们解释模型的泛化性能会用到偏差-方差分解，模型在训练阶段的预测和训练标签的偏离程度为偏差，刻画模型的拟合能力，模型在样本数相同的不同训练数据集下偏差的期望为方差，刻画数据变化对模型噪声的影响，泛化误差=偏差+方差+噪声，噪声是模型所能达到的期望泛化误差的下界，刻画了模型在学习当前问题本身的难度。

当然，这只是一种用于解释模型泛化误差的很理论的说法，我们在应用的过程中更常提到的是过拟合和欠拟合，过拟合意味着模型在训练集上的预测误差和模型在验证集上的预测误差存在较大差异，欠拟合则意味着模型在训练集上的预测误差本身就比较大，在验证集上的预测误差往往也会比较大。而所谓泛化误差，我们也称之为泛化能力等，在实际应用的时候一般指的是模型对未知数据的预测能力，这个能力是根据预测的误差决定的。

问：在模型评估过程中，过拟合和欠拟合具体是指什么现象？

过拟合是指模型对于训练数据拟合呈过当的情况，反映到评估指标上，就是

模型在训练集上的表现很好，但在测试集和新数据上的表现较差。欠拟合指的是

模型在训练和预测时表现都不好的情况。

决绝nfa解决方法：

数据，特征，模型

问：有没有遇到过模型在训练集上预测误差大，在测试集上预测误差小的情况？为什么会发生这种情况？

答：有，模型恰好在验证数据上的泛化性能好，例如二分类问题中，测试集数据恰好是和分界超平面距离很远的样本或者是回归问题中，验证数据在模型的拟合曲面上；

问:为什么会发生过拟合和欠拟合,怎么解决模型的过拟合和欠拟合的问题？

这是一道很好回答又很难回答的面试题，之所以很好回答是因为有很多直观的思路可以解释过拟合和欠拟合，很难回答是因为很多的答案都无法回到过拟合和欠拟合的本质上导致了不同场景下不能自洽的问题；

在实际应用的过程中，实际上没有什么绝对的准则：

过拟合：

样本层面：大部分情况下增加样本可以缓解过拟合，少部分情况下减少样本可以缓解过拟合;

特征层面：大部分情况下减少特征可以缓解过拟合，少部分情况下增加特征可以缓解过拟合;

模型层面：约束模型的复杂程度;不同模型有不同的约束方式,lr 有l1,l2或l1+l2,树模型有增大行列采样比例,限制树深,学习率放缩,早停等等,nn有dropout,bn等等，这是模型本身的处理，除此之外对模型进行集成也可在一定程度上缓解过拟合；

欠拟合：

同上，倒过来即可

问:为什么增加或减少样本会影响过拟合问题?为什么对特征的增减会影响过拟合问题?为什么约束模型的复杂程度会缓解过拟合问题?

首先,上述所提到的三种方法都是一种经验性的解决方法,并不一定奏效,存在前提条件.

过拟合分为两种过拟合的情况:

1 在当前数据集上的过拟合;

2 在未来未知的数据集上的过拟合

在当前的数据集上的过拟合的评估涉及到train和valid数据集,一般我们判定过拟合是否发生,就是计算model在train数据,即X_train和y_train上的metrics和在valid数据,即X_valid和y_valid上的metrics的差异从而衡量过拟合的程度;

在未来的数据集上的过拟合的评估则涉及到模型构建调整完毕之后,对未来的test数据集的评估,即X_test和y_test,当然y_test不一定是可获得的,很多时候通过实际的业务目标的达成情况来评估模型是否过拟合;

潜在的全量数据(这样的数据一般是不可获取的,这里面有两个原因,

1.样本的获取是具有代价的,很难全面的采集所有相关的数据,即使采集全面,如此巨量数据的存储和处理也是一个难以解决的问题;

2.样本是具有时间属性的,我们无法采集到未来的数据,而我们要预测的恰好也是未来的数据)

这里我们假设潜在的全量数据为X,潜在的真实标签为y

需要明确三点:

存在假设:建模的前提之一是建设X和y存在某种映射关系,我们使用有限的train和test来训练模型逼近这个隐式的映射关系,使用train上拟合的模型预测test来有偏的检验模型的泛化能力;
稳定假设:我们假设真实的 X-->y的映射关系是静态不变的,即所谓独立同分布;
乐观假设:我们假设用于模型训练的数据train具有足够的代表性,能够代表未来的所有样本

回到问题上,现在假设我们在train和test上的预测的metrics差异很大,即出现了当前数据集上的过拟合问题,则我们需要这么分析(注意,下面是对当前过拟合问题的分析):

1 当X-->y的映射关系不存在的时候,无论使用什么方法,我们都无法解决当前过拟合问题或未来过拟合问题,,模型的预测结果是无意义的,例如使用淘宝商品的价格预测华盛顿的温度,这种情况一般在使用train和valid数据进行模型构建和验证的阶段就会发现;

2.当X-->y 的映射关系存在且稳定,则

在当前的train和test的数据集上出现过拟合的原因在于train和test数据集不相似,或者说train数据集相对于test数据集是有偏的,这个时候增加数据有可能缓解模型的过拟合问题,例如我们引入的数据恰好和test相似甚至和test完全一样的样本,则此时在test上的metrics评估结果会大大改善,例如对图像做翻转可以作为cv中的一种基本的数据增强的方式主要原因在于test数据集中也会存在翻转的图像;

但是如果引入的数据完全和test不同,则对于模型在test上的评估是没有帮助甚至可能起到负效果,这种情况下引入的样本我们常常称之为噪声样本,例如通过上采样的方式对结构化数据进行样本生成很容易产生这种噪声样本,;

这个时候增加或者减少特征也是可能缓解过拟合问题的,

问：为何模型总是难以拟合真实情况

问：为什么你认为增加样本、减少特征，约束模型复杂度，能够解决过拟合问题？

答：因为我主要接触的是表格数据，所以，就表格数据来谈这个问题吧，在表格数据里增加样本的方式无非是通过一些代价获得更多的真实数据和标签，另一种方式就是通过一些上采样的方式来做数据增强，增加的是伪数据。

首先，过拟合的本质是数据分布的变化，而所谓的数据分布的本质是特征的分布，而我们所关注的“分布”是相对于模型而言的，例如对于gbdt来说，特征重要性最高的特征群的分布才是我们主要关注的，特征重要性很低甚至为0的特征我们基本不怎么考虑他们的分布是否发生变化，因此，“分布”和"模型"是紧密相关的，即使是无监督的背景下，我们也会根据业务经验重点关注一些认为比较重要的特征的分布进行follow，跳回来说，理想状态下如果数据的分布是完全一致的，则我们其实根本不用考虑模型的复杂度或者降低特征维度的问题，比如说二分类问题吧，如果正负样本是完全线性可分的，并且未来的新样本的分布完全一致，则gbdt拟合1亿棵树都不会有过拟合的问题；

所以，之所以模型会发生过拟合，是因为未来的数据的部分特征的分布或者是部分特征的联合分布发生了变化从而导致模型的预测出错，有两种情况：

1、肉眼可见的特征的取值发生变化了，例如训练集的特征的取值范围在0~1之间，预测数据的特征的取值范围为0~10之间；

2、特征的取值可能没有明显变化，但是特征的联合分布发生变化了，一个简单例子，两列类别特征，f1和f2，f1的取值为a，b，f2的取值为A，训练集中f1和f2的组合为aA，aB，测试集中出现了bA.

增加数据能够缓解过拟合的情况在于我们增加的数据引入了更多会未来将出现的样本相似或完全相同的样本，但是如果引入的数据和未来的样本完全不相似，例如不均衡学习中的许多上采样的方法，纯粹基于训练数据的一些加减计算，难以扩充和未来相似的样本，自然是不能缓解过拟合问题了；

回到问题，增加样本可能可以缓解过拟合问题但并不绝对，之所以有时候能够缓解过拟合问题

问:为什么需要对数值类型的特征做归一化？

1.通过梯度下降法求解的模型通常是需要归一化的，包括线性回归、逻辑回归、基于梯度下降法视角下的支持向量机、神经网络等模型,主要原因在于归一化能够大大加快梯度下降法收敛的速度,

具有相似尺度

标签：熵指数传感器entropy 传感器重复性的正负 id压缩型传感器 ps4稳定传感器 wi型温度传感器 fn传感器

锐单商城拥有海量元器件数据手册、 IC替代型号，打造电子元器件IC百科大全！

我愿称之为史上最全的深度学习面经总结（附答案详解）