Hybrids
为了使用过滤器和包装方法,即混合方法,在过滤阶段,根据数据的内部属性应用程序测量对特征进行排序或选择。在包装阶段,通过特定的聚类算法来评估某些特征子集,以找到最佳的特征子集。我们可以区分两种混合方法:基于排序和非特征排序。在本节中,我们描述了一些属于这种方法的两种方法。
Dash和Liu(2000)介绍了基于排序的第一种无监督混合特征选择方法。该方法基于Dash等人(1997)(过滤阶段)提出的熵测量,以及内部散射的可分性标准(Dy和Brodley 2004)(包装阶段)。在过滤阶段,从整个特征集中逐一删除每个特征,并计算消除特征后在数据集中生成的熵。有序的特征列表将根据每个特征从整个特征集中的无序程度生成。一旦对所有特征进行排序,在包装阶段,将进行前向选择搜索k-均值聚类算法应用于构建分散可分性标准评估的簇。该方法选择达到最高可分性标准值的特征子集。
Li等人(2006年)提出了另一种基于特征排序的混合方法。在这种方法中,作者将指数熵测量和模糊评价指数FFEI(Pal等人,2000)分别用于特征排序和特征子集选择。该方法基于生成的排序,采用考虑特征子集的顺序搜索,并以模糊评价指标作为质量测量。在包装阶段,使用模糊c平均算法和分散可分性标准,选择较小的特征子集(Dy和Brodley 2004)选择作者所谓的紧凑特征子集。
Solorio Fernández等人(2016年)提出了基于排名的无监督选择方法。在这种方法中,作者选择并结合光谱特性Calinski-Harabasz指数(Calinski和Harabasz 1974)选择相关特征子集。特征选择分为两个阶段:(1)特征排序和(2)特征子集选择。在第一阶段,思想是识别保留数据结构的特征,计算每个特征的拉普拉斯分数(He et al.2005);这将产生功能排名。之后,在第二阶段,使用前一阶段生成的排名,使用前后选择搜索,称为WNCH(Weighted Normalized Calinski-Harabasz index,加权归一化Calinski-Harabasz修改后的内部评估指数对特征子集进行评估。最高选择WNCH值的特征子集。
另一方面,在Hruschka在等人(2005年)中,基于非排序的混合物UFS方法,称为BFK,它结合了k-贝叶斯滤波器平均值。与上述所有混合方法不同,该方法从包装阶段开始,在数据集上运行kmeans聚类算法包括用户指定的一系列聚类。使用简化的轮廓标准对簇进行评估,并选择值最高的簇。然后,在过滤阶段,利用马尔可夫覆盖的概念,通过贝叶斯网络选择特征子集,每个簇代表一个类,节点代表特征,同时代表特征之间的关系。
Kim和Gao(2006)介绍了另一种基于非排序的混合方法,去除了无关和冗余的特征。该方法分为两选择特征:第一步是基于最小二乘估计的应用(LSE)的评估(Mao 2005)建立特征子集。第二步只适用于第一步确定的特征,并通过使用顺序搜索最大化聚类性能的最佳特征子集(使用EM改进版本的聚类算法)。
最后,值得注意的是,在文献中,还提出了一些专门用于处理特定领域数据的混合无监督特征选择方法,如(Jashki et al.2009;Hu et al.2009;Yang et al.2011a;Yu 2011)。还有其他工作,比如Hruschka等人(2007)、Luo和Xiong(2009)以及Dash和Ong(2011)中提出的工作从另一个不同的角度解决了问题;在实施特征选择时,假设一组可以建模成不同的类别,它们可以对传统的数据应用进行监督。