资讯详情

机器学习(9)

机器学习(9)-聚类

聚类

聚类任务

在无监督学习中,训练样本通常没有标记,通常是通过聚类来寻找数据内部的规则

聚类是将一个数据集划分为多个不相交的子集的过程,每一个子集称一簇(类)

寻找内部规律可以作为一个单独的过程

可作为前驱过程,为后续训练模型奠定基础

性能度量

(有效性指标)

目标:同簇相似,异簇不同

用簇内相似度和簇间相似度来描述

性能测量有两种:

外部指标:将结果与参考模型进行比较

内部指标:直接检查结果不利于任何参考模型

Jaccard系数、FM指数、Rand指数、DB指数、Dunn指数

DBI越小越好,DI越大越好

距离计算

距离测量符合以下性质:

非负、同一、对称、直递

闵可夫斯基距离常用

属性可分为连续属性和离散属性

可分为有序属性和无序属性

闵可夫斯基距离适用于有序属性

VDM(Value Difference Metric)适用于无序属性

距离越大,相似度越小

原型聚类

k平均值法将聚类收入的簇划分最小化平方误差

学习向量化(LVQ),假设样品有类别标记,使用标记辅助聚类

高斯混合聚类采用概率模型表达聚类原型

密度聚类

密度可达关系导出的最大密度相连样本集

层次聚类

试图在不同层次划分数据,从而形成属性的聚类结构

可自底向上,也可自顶向下

AGNES是一种自底向上的算法

参考文献

周志华. 机器学习

标签: dunn继电器349bbxp

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台