聚类任务 |
在无监督学习中,训练样本通常没有标记,通常是通过聚类来寻找数据内部的规则 聚类是将一个数据集划分为多个不相交的子集的过程,每一个子集称一簇(类) 寻找内部规律可以作为一个单独的过程 可作为前驱过程,为后续训练模型奠定基础 |
性能度量 (有效性指标) |
目标:同簇相似,异簇不同 用簇内相似度和簇间相似度来描述 性能测量有两种: 外部指标:将结果与参考模型进行比较 内部指标:直接检查结果不利于任何参考模型 有 Jaccard系数、FM指数、Rand指数、DB指数、Dunn指数 DBI越小越好,DI越大越好 |
距离计算 |
距离测量符合以下性质: 非负、同一、对称、直递 闵可夫斯基距离常用 属性可分为连续属性和离散属性 可分为有序属性和无序属性 闵可夫斯基距离适用于有序属性 VDM(Value Difference Metric)适用于无序属性 距离越大,相似度越小 |
原型聚类 |
k平均值法将聚类收入的簇划分最小化平方误差 学习向量化(LVQ),假设样品有类别标记,使用标记辅助聚类 高斯混合聚类采用概率模型表达聚类原型 |
密度聚类 |
密度可达关系导出的最大密度相连样本集 |
层次聚类 |
试图在不同层次划分数据,从而形成属性的聚类结构 可自底向上,也可自顶向下 AGNES是一种自底向上的算法 |