在数据维度泛滥的现代,如果不筛选特征直接建模,不仅会提高模型的复杂性,增加计算压力,还会因为数据的冗余而浪费不必要的数据费用。特别是在金融领域,由于要求对模型的复杂性和可解释性有很高的要求,因此在建模前选择特征非常重要。由于每个人在建模过程中的习惯和方法不同,在选择特征筛选方法时会有轻微的差异。以下将列出更多的方法,您可以根据自己的需要使用。特别是特征选择没有固定的标准和规模,这部分需要读者根据自己的实际情况进行设计,但总体目的是减少冗余。
:
1.删除缺失值
2.独值删除
3.相关性
4.多重共线性
5.P_value
6.系数法
6.无相关特征
8.特征的重要性
9.PCA
10.方差筛选
11.过滤法(Filter)
12.包裹法(Wrapper)
13.嵌入法(Embedding)
这部分对金融风险控制模型非常重要。我们不仅要调查缺失值,还要解释缺失值。对于缺失不严重的数据,在金融风险控制建模过程中,基本上是根据缺失的含义进行处理或填写特殊值。然而,严重缺失(80%以上)的特征通常不进入模型,但如果效果良好,则可作为战略规则使用。
data_select.isnull().sum()/data_select.shape[0]