【论文阅读】2017-1-An ensemble approach to multi-view multi-instance learning-锐单电子商城

题目

An ensemble approach to multi-view multi-instance learning 多视图多实例学习的集成方法 2017-KBS

多视图学习结合多个异构来源的数据，利用其互补信息构建更准确的模型。多示例学习将示例表示为包含实例集的标记包。由于基数和特征空间不同，不同多实例视图的数据集成不能简单地串联成一组特征。本文提出了一个集成方法，该方法结合视图学习器并在加权预测之间寻求共识，以使用来自多个视图的互补信息。重要的是，集成必须处理来自每个视图的不同特征空间，包的数据可以在视图中部分表示。一组实验研究 15 对个多实例数据集进行评估和比较 20 基于集成和多视图算法的传统。实验结果表明，集成方法的性能优于单分类器，特别是多视图多实例方法的最佳结果。结果通过多个非参数统计分析得到验证。

贡献： 1)建议在不转换任何多实例问题的情况下，将来自多视图多实例数据关系的信息与异构特征集成。 2)为每个视图确定性能最好的基分类器。在每个视图上使用不同的基分类器簇，选择每个视图性能最好的模型 3)加权基分类器。并非所有视图都为分类器提供有用的高质量信息

Multi-view multi-instance ensemble

符号系统

符号	表示
X v \mathcal{X}^v Xv	视图 v v v的特征空间
b = { b 1 , … , b V } b=\{ {b}^1,\dots,{b}^V\} b={ b1,…,bV}	具有多个特征向量视图的示例（examples ）
C C C	标签
b v = { x ‾ 1 v , x ‾ 2 v , … , x ‾ k v v } {b}^v=\{\overline{x}_1^v,\overline{x}_2^v,\dots,\overline{x}_{k_v}^v\} bv={ x1v,x2v,…,xkvv}	视图 v v v包的表示
x ‾ v = [ x 1 , x 2 , … , x f v ] \overline{x}^v=[x_1,x_2,\dots,x_{f_v}] xv=[x1,x2,…,xfv]	视图 v v v特征空间上的实例
k v k_v kv	包中实例的数量
V V V	视图的数量

这样的表示很灵活：a)多个视图中可用信息量存在显着不平衡的数据，这也发生在现实世界的系统中，其中某些信息源提供的数据特征量比其他信息多得多。b)包不一定存在所有视图中，即视图不包含特定包标识符；包包含每个视图不同数量的实例

多视图多示例集成

%在多视图分类中，基分类器用于从每个视图中学习。**共识原则**主张在从不同的特征集进行预测时最大化一致性，以便与单视图的预测相比提高准确性。**补充原则**支持从视图中分布的相关信息中学习。在多视图分类中，基分类器用于从每个视图中学习 1） f v ( x ‾ v ) f^v(\overline{x}^v) fv(xv):对应于 v v v的多示例基分类器 2） g ( x ) = f u s e ( f 1 ( x ‾ 1 ) , … , f V ( x ‾ V ) ) ) g(x)=fuse(f^1(\overline{x}^1),\dots,f^V(\overline{x}^V))) g(x)=fuse(f1(x1),…,fV(xV))):由 V V V个多示例分类器组成的多视图多示例集成 3）预测：集成的预测来自于来自所有视图的基分类器的局部预测的融合，其中预测是使用聚合函数（例如majority或者weighted voting）组合

基分类器：集成成功的关键是不同分类器的一致性不知道哪种分类器更适合每一个视图，并且不知道每一个视图包含多少相关的信息因此，首先评估一组来自不同families的候选多示例分类器，再确定对于每个视图完成最高accuracy的分类器，具体来说考虑三个高性能多示例分类器，包括：SimpleMI、MISMO、TLC。最终，选择获得该视图最佳局部accuracy的基学习器构成集成

Weighted voting：通过每个基学习器的对该视图的局部accuracy来确定基分类器在集成中的权重

%使用每个训练折叠内的内部10倍交叉验证来选择基分类器，以确定哪个候选学习器对于每个视图表现最佳 %请注意，基分类器的预测可能是肯定的、否定的或无效的，这意味着基学习器不会给出预测，因为给定的测试包不包含与特定视图相关的任何信息。

算法流程：

MVMI ensemble algorithm TR \text{TR} TR = train data, TS \text{TS} TS=test data, CC \text{CC} CC=candidate base classifiers 1.选择初始基分类器并构建集成 for 每个视图 v v v in V V V for 每个候选分类器 C c C_c Cc in CC \text{CC} CC 在视图 v v v的训练数据集 TR v \text{TR}^ v TRv上使用 C c C_c Cc C c C_c Cc在 TR v \text{TR}^v TRv上的accuracy为 a c c c acc_c accc end for a c c k = m a x ( a c c ) , b a s e v ← C k acc_k=max(acc), base_v \leftarrow C_k acck=max(acc),basev←Ck w e i g h t v ← a c c k weight_v \leftarrow acc_k weightv←acck end for 2.对测试数据进行分类 for 每个包 in TS \text{TS} TS for 每个视图 v v v in V V V if bag包含视图 v v v的数据 then b a s e C l a s s P r e d i c t i o n ← c l a s s i f y ( b a s e v , b a g v ) baseClassPrediction \leftarrow classify(base_v,bag^v) baseClassPrediction←classify(basev,bagv) v o t e s [ b a s e C l a s s P r e d i c t i o n ] + = w e i g h t v votes[baseClassPrediction]+=weight_v votes[baseClassPrediction]+=weightv end if end for e n s e m b l e C l a s s P r e d i c t i o n ← argmax ( v o t e s ) ensembleClassPrediction \leftarrow \text{argmax}(votes) ensembleClassPrediction←argmax(votes) end for

Experiments

实验设置

数据集：实验在15 个多示例数据集上运行，从 Weka和 KEEL数据集存储库收集；多视图数据集是根据 Yu 和 Liu 算法生成的，用于对高维数据进行特征选择，将传统的单视图数据集转换为多视图表示；其基于对称不确定性原则以保证不同视图之间的不确定性

比较算法传统算法、基于集成、多视图学习器共20个

结果指标 accuracy/ average accuracy Kappa rate(当类严重不平衡时，准确性可能会产生误导):-1(完全不一致)~ 0（随机） ~1（完全一致） precision，recall precision–recall曲线图

准确率= T P + T P T P + T N + F P + F N \frac{TP+TP}{TP+TN+FP+FN} TP+TN+FP+FNTP+TP 精确率= T P T P + F P \frac{TP}{TP+FP} TP+FPTP 召回率= T P T P + F N \frac{TP}{TP+FN} TP+FNTP F1分数同时考虑精确率和召回率，让两者同时达到最高 F1-measure= 2 ∗ 精确率 ∗ 召回率精确率 + 召回率 \frac{2*精确率*召回率}{精确率+召回率} 精确率+召回率2∗精确率∗召回率

统计分析 Bonferroni–Dunn：用法发现多个比较算法之间的显著差异，如果算法对应的平均等级相差一个根据测试用例数量计算的临界差值，则存在显著差异 Wilcoxon rank-sum test：成对算法之间是否存在显著差异，p-value < < < 0.01,则MVMI优于该算法参考参考 Holm test: p-value < < < 0.0125

运行时间分析每个数据集上的运行时间，平均运行时间，排名 MVMI的计算复杂度复杂度依赖于依赖于其基分类器在视图上的计算复杂度

缺少视图数据分析在单视图中增加缺失值的数量，在多视图中包视图数据。随着缺失数据量的增加，性能会恶化。由于视图的互补性，在MVMI中，由于加权方案有助于平衡基学习器缺失或低质量的预测，与其他方法相比MVMI保持了具有竞争力的准确性。

资讯详情

【论文阅读】2017-1-An ensemble approach to multi-view multi-instance learning

题目

摘要

相关知识

多视图学习

集成学习

Multi-view multi-instance ensemble

符号系统

多视图多示例集成

Experiments

实验设置

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

【论文阅读】2017-1-An ensemble approach to multi-view multi-instance learning

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录