题目
An ensemble approach to multi-view multi-instance learning 多视图多实例学习的集成方法 2017-KBS
摘要
结合多个异构来源的数据,利用其互补信息构建更准确的模型。将示例表示为包含实例集的标记包。由于基数和特征空间不同,不同多实例视图的数据集成不能简单地串联成一组特征。 本文提出了一个,该方法结合视图学习器并在加权预测之间寻求共识,以使用来自多个视图的互补信息。重要的是,集成必须处理来自每个视图的不同特征空间,包的数据可以在视图中部分表示。 一组实验研究 15 对个多实例数据集进行评估和比较 20 基于集成和多视图算法的传统。实验结果表明,集成方法的性能优于单分类器,特别是多视图多实例方法的最佳结果。结果通过多个非参数统计分析得到验证。
: 1)建议在不转换任何多实例问题的情况下,将来自多视图多实例数据关系的信息与异构特征集成。 2)为每个视图确定性能最好的基分类器。在每个视图上使用不同的基分类器簇,选择每个视图性能最好的模型 3)加权基分类器。并非所有视图都为分类器提供有用的高质量信息
相关知识
多视图学习
他们从不同的数据源中获个不同的特征集表示(视图)。 :基于数据的遵循与原则 共识原则最大化了不同视图的一致性。一致性可以从分类器和信息的角度来理解:如果从多个视图学习到多个分类器,不同分类器给出的分类结果应该是一致的;从信息的角度来看,从不同视图中学习的特征或部分信息与语义相关 互补原则,不同的视图通常包含相互补充的信息,这使得从这个视图中学到的分类器可以分配一些从其他视图中学到的分类器无法分配的样本。 %考虑不同视图之间的信息分布
:视图的集成为包提供了更完整的信息,这将带来更好的准确性。包含在多个视图中bags共享包标识符,包中的例子使用不同的特征向量(不同的视图提供不同的属性) 在传统的单实例分类中,通过简单地连接不同视图中共同示例的特征集。然而,这个过程不能直接在多个示例学习中实施,因为特定的例子之间没有匹配,而是通过它们的包标识符bags匹配。
目前的多视图多示例方法将数据问题转换为多个单元的实例视图。然而,这种平面转换破坏了数据的多示例表示,并拒绝解决真正的多视图多示例性质。
%分类: %1)协同训练:交替从不同的视图中学习,最大化两个不同视图数据的相互一致性 %2)多核学习:执行视图的线性或非线性组合 %3)子空间学习:重点是视图共享的子空间
集成学习
集成学习(ensemble learning)通过构建和结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier svstem).一般结构:先生成一组个体学习器(individual learner),然后用某种策略把它们结合起来.个体学习器通常由训练数据产生的现有学习算法.比如决策树算法,BP神经网络算法等。 集成学习
Multi-view multi-instance ensemble
符号系统
符号 | 表示 |
---|---|
X v \mathcal{X}^v Xv | 视图 v v v的特征空间 |
b = { b 1 , … , b V } b=\{ {b}^1,\dots,{b}^V\} b={ b1,…,bV} | 具有多个特征向量视图的示例(examples ) |
C C C | 标签 |
b v = { x ‾ 1 v , x ‾ 2 v , … , x ‾ k v v } {b}^v=\{\overline{x}_1^v,\overline{x}_2^v,\dots,\overline{x}_{k_v}^v\} bv={ x1v,x2v,…,xkvv} | 视图 v v v包的表示 |
x ‾ v = [ x 1 , x 2 , … , x f v ] \overline{x}^v=[x_1,x_2,\dots,x_{f_v}] xv=[x1,x2,…,xfv] | 视图 v v v特征空间上的实例 |
k v k_v kv | 包中实例的数量 |
V V V | 视图的数量 |
这样的表示很灵活:a)多个视图中可用信息量存在显着不平衡的数据,这也发生在现实世界的系统中,其中某些信息源提供的数据特征量比其他信息多得多。b)包不一定存在所有视图中,即视图不包含特定包标识符;包包含每个视图不同数量的实例
多视图多示例集成
%在多视图分类中,基分类器用于从每个视图中学习。**共识原则**主张在从不同的特征集进行预测时最大化一致性,以便与单视图的预测相比提高准确性。**补充原则**支持从视图中分布的相关信息中学习。 在多视图分类中,基分类器用于从每个视图中学习 1) f v ( x ‾ v ) f^v(\overline{x}^v) fv(xv):对应于 v v v的多示例基分类器 2) g ( x ) = f u s e ( f 1 ( x ‾ 1 ) , … , f V ( x ‾ V ) ) ) g(x)=fuse(f^1(\overline{x}^1),\dots,f^V(\overline{x}^V))) g(x)=fuse(f1(x1),…,fV(xV))):由 V V V个多示例分类器组成的多视图多示例集成 3)预测:集成的预测来自于来自所有视图的基分类器的局部预测的融合,其中预测是使用聚合函数(例如majority或者weighted voting)组合
集成成功的关键是不同分类器的一致性 不知道哪种分类器更适合每一个视图,并且不知道每一个视图包含多少相关的信息 因此,首先评估一组来自不同families的候选多示例分类器,再确定对于每个视图完成最高accuracy的分类器,具体来说考虑三个高性能多示例分类器,包括:SimpleMI、MISMO、TLC。最终,选择获得该视图最佳局部accuracy的基学习器构成集成
通过每个基学习器的对该视图的局部accuracy来确定基分类器在集成中的权重
%使用每个训练折叠内的内部10倍交叉验证来选择基分类器,以确定哪个候选学习器对于每个视图表现最佳 %请注意,基分类器的预测可能是肯定的、否定的或无效的,这意味着基学习器不会给出预测,因为给定的测试包不包含与特定视图相关的任何信息。
TR \text{TR} TR = train data, TS \text{TS} TS=test data, CC \text{CC} CC=candidate base classifiers 1.选择初始基分类器并构建集成 每个视图 v v v in V V V 每个候选分类器 C c C_c Cc in CC \text{CC} CC 在视图 v v v的训练数据集 TR v \text{TR}^ v TRv上使用 C c C_c Cc C c C_c Cc在 TR v \text{TR}^v TRv上的accuracy为 a c c c acc_c accc a c c k = m a x ( a c c ) , b a s e v ← C k acc_k=max(acc), base_v \leftarrow C_k acck=max(acc),basev←Ck w e i g h t v ← a c c k weight_v \leftarrow acc_k weightv←acck 2.对测试数据进行分类 每个包 in TS \text{TS} TS 每个视图 v v v in V V V bag包含视图 v v v的数据 then b a s e C l a s s P r e d i c t i o n ← c l a s s i f y ( b a s e v , b a g v ) baseClassPrediction \leftarrow classify(base_v,bag^v) baseClassPrediction←classify(basev,bagv) v o t e s [ b a s e C l a s s P r e d i c t i o n ] + = w e i g h t v votes[baseClassPrediction]+=weight_v votes[baseClassPrediction]+=weightv e n s e m b l e C l a s s P r e d i c t i o n ← argmax ( v o t e s ) ensembleClassPrediction \leftarrow \text{argmax}(votes) ensembleClassPrediction←argmax(votes)
Experiments
实验设置
实验在15 个多示例数据集上运行,从 Weka和 KEEL数据集存储库收集; 多视图数据集是根据 Yu 和 Liu 算法生成的,用于对高维数据进行特征选择,将传统的单视图数据集转换为多视图表示;其基于对称不确定性原则以保证不同视图之间的不确定性
传统算法、基于集成、多视图学习器共20个
指标 accuracy/ average accuracy Kappa rate(当类严重不平衡时,准确性可能会产生误导):-1(完全不一致)~ 0(随机) ~1(完全一致) precision,recall precision–recall曲线图
准确率= T P + T P T P + T N + F P + F N \frac{TP+TP}{TP+TN+FP+FN} TP+TN+FP+FNTP+TP 精确率= T P T P + F P \frac{TP}{TP+FP} TP+FPTP 召回率= T P T P + F N \frac{TP}{TP+FN} TP+FNTP F1分数同时考虑精确率和召回率,让两者同时达到最高 F1-measure= 2 ∗ 精 确 率 ∗ 召 回 率 精 确 率 + 召 回 率 \frac{2*精确率*召回率}{精确率+召回率} 精确率+召回率2∗精确率∗召回率
Bonferroni–Dunn:用法发现多个比较算法之间的显著差异,如果算法对应的平均等级相差一个根据测试用例数量计算的临界差值,则存在显著差异 Wilcoxon rank-sum test:成对算法之间是否存在显著差异,p-value < < < 0.01,则MVMI优于该算法 参考 参考 Holm test: p-value < < < 0.0125
每个数据集上的运行时间,平均运行时间,排名 MVMI的计算复杂度复杂度依赖于依赖于其基分类器在视图上的计算复杂度
在单视图中增加缺失值的数量,在多视图中包视图数据。随着缺失数据量的增加,性能会恶化。 由于视图的互补性,在MVMI中,由于加权方案有助于平衡基学习器缺失或低质量的预测,与其他方法相比MVMI保持了具有竞争力的准确性。