全
原文来源:拓端数据部落微信官方账号
聚类是将整体或数据点划分为多个组的任务,使同一组中的数据点与同一组中的其他数据点更相似,而不是与其他组中的数据点相似。它基本上是基于它们之间的相似性和异性对象的集合。
在这个项目中,我将使用世界幸福报告中的数据探索亚洲22个国家或地区,通过查看每个国家的阶梯分数、社会支持、健康预期寿命、自由选择生活、慷慨、腐败和人均意见GDP,探索亚洲22个国家的相似性和差异。我将使用两种聚类方法来验证每种聚类方法,即,以及轮廓分析来验证每种聚类方法。
KMEANS均值聚类和层次聚类:R语言分析生活幸福质量系数可视化实例
,时长06:05
例如,下图中聚集在一起的数据点可以分为一组。我们可以区分簇,我们可以识别下图中的三个簇。
让我们来看看聚类算法的类型以及如何为您的用例选择它们。
层次聚类
层次聚类的主要思想是基于这一概念,即附近的对象比较远。
自上而下,自下而上,你有两种层次的聚类算法。在初始阶段,自下而上的概念将每个数据点视为一个单独的集群。它将合并成一对集群,直到你有一个包含所有数据点的组。因此,它也被称为分层聚类(HAC)。将其与一棵树进行比较,其中根是唯一的集群,它将所有样本与叶子一起收集成具有单个样本的集群。下图将更好地解释这一概念。
1.将每个数据点视为一个单独的集群。第二步是选择一个距离测量来衡量两组之间的距离。采用平均链接法,两个集群之间的距离是一个集群中数据点与另一个集群中数据点之间的平均距离。
2.在每次迭代中,我们将具有最小平均链接的两个集群合并为一个。
3.重复上述步骤,直到我们有一个包含所有数据点的大集群。
AHC 的优点:
·AHC 易于实现,还可以提供对象排序,为显示提供信息。
·我们不需要提前指定集群的数量。聚类的数量很容易通过在特定级别切割树状图来确定。
·在 AHC 该方法将创建一个较小的集群,这可能会发现数据的相似性。
AHC的缺点:
·分组错误的对象在开始的任何步骤中都不能撤销。
·异常值处理不好。当发现异常值时,它们最终会成为一个新的集群,或者有时会导致与其他集群合并。
K-means 聚类算法
K由于易于理解和实现,均值聚类是最常见的聚类算法。K给定的数据集用特定的距离度量分为预定义K类。
下图将帮助我们更好地理解这个概念。
我们从图中推断出了什么?
选择一些类别或组并随机初始化中心点。请记住,确定您使用的类别的数量是非常重要的。因此,请仔细查看可用数据并确定不同的特征。图中使用 X 表示的中心点是与每个数据点向量相同长度的向量。
1.您可以通过计算特定点与每个组中心之间的距离来分类每个数据点。下一步是对中心最近的组点进行分类。
2.根据此信息,取出特定组中所有向量的平均值,重新计算组中心。
3.重复数字过程,确保组中心在迭代之间变化不大。
优点
·K-means 这是一种快速的方法,因为它不需要很多计算。
缺点
·识别和分类组可能是一个具有挑战性的方面。
·由于它从随机选择聚类中心开始,结果可能不一致。
KMEANS均值聚类和层次聚类:亚洲国家和地区生活幸福质量异同的可视化分析和选择最佳聚类数
要分析的国家和地区是:
asia<-wfiler(gepl('Asia',Rgion)
探索性数据分析
pair(aia\[,-c(1,2)\],sal=TUE,col,hst.ol)
-
阶梯得分、社会支持、生活选择的自由和对腐败的看法的分布是左偏的。
-
慷慨和人均GDP右偏分布。
-
健康预期寿命的偏差大约是对称的。
-
两者之间有很强的正相关系:
-
阶梯分数和社会支持
-
预期寿命和人均健康GDP
-
负相关系强烈:
-
对腐败的看法和人均GDP
-
中等正相关存在:
-
阶梯分数和健康预期寿命
-
社会支持和健康预期寿命
-
人均GDP较高的国家往往对腐败的看法较低,对健康的预期寿命、社会支持和阶梯高。
比较国家和地区
grd.rrnge( ggplt(sia,es(rerder(x=fctor(国家名称),阶梯得分,FN=min), y=阶梯得分,fill=区域指标)))))))))))))))))))))))))))))))))))))))))))))))))))())))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))())))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))())))))))))))))())))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))())))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))()))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
-
东亚国家阶梯分数高,预期寿命健康,人均GDP慷慨度高,慷慨度低。
-
南亚国家阶梯得分、社会支持、健康预期寿命和人均水平GDP往往较低。
-
东南亚国家往往有很高的自由度,可以选择生活和慷慨。
scterhst( aia,x="社会支持",y="阶梯得分", clor="区域指标" titl="阶梯得分和社会支持" )
-
南亚的社会支持中位数、阶梯得分和人均水平GDP最低。
-
东亚社会支持中位数、阶梯得分、人均GDP健康预期寿命最高。
-
东南亚平均健康寿命中位数最低,腐败中位数最高。
-
东南亚人均GDP很高,期望寿命健康,对腐败的看法也很低(新加坡)。
-
对政府(香港)的了解较低。
聚类分析
这些国家会属于不同的群体吗?在本节中,我们将使用聚类(一种基于相似对象的无监督学习方法)来找到国家组,其中国家组是相似的。我用两种方法聚类:分层聚类和K-Means聚类。首先,我们如何识别这些群体?测量对象之间相似性的一种方法是测量对象之间的数学距离。欧几里得距离是一种常见的距离测量。
欧氏距离
我们将利用欧几里得距离找到最相似的国家,并将它们分组在一起。
aply(z,2,mean)#计算列的平均值 aply(z,2,sd)#计算列的标准差 scale(z,ceter=means,scae=sds)#标准化 #计算距离矩阵 dsae=dit(nor)#计算欧几里得的距离
欧几里得距矩阵为:
-
国家2(新加坡)和国家22(阿富汗)似乎最不相似。
-
15(中国)和11国(越南)彼此最相似。
我们如何选择最佳聚类数?
肘法
for (i in 2:20) ws<- sum(kmens(nr, cetrs=i)$wthns)
我们的目标是减少聚类内部的变异性,以便将相似的对象分组在一起,并增加聚类之间的变异性,以使相异的对象相距甚远。WSS(在组平方和内),它在聚类变化内进行度量,
在WSS图中,聚类数位于x轴上,而WSS位于y轴上。高的WSS值意味着聚类中的变化很大,反之亦然。我们看到,在1、2和3个聚类之后,WSS的下降很大。但是,在4个聚类之后,WSS的下降很小。因此,聚类的最佳数目为k = 4(曲线的弯头)。
K均值聚类
k均值算法如下所示:
-
为每个观测值随机分配一个从1到K的数字,这些数字用作观测值的初始聚类分配。
-
迭代直到聚类分配停止更改:
(a)对于K个聚类中的每一个,计算聚类质心。
(b)将每个观测值分配给质心最接近的聚类(使用欧几里得距离定义)。
聚类成员和结果
k均值聚类的结果是:
#聚类成员 asa$Cuter <- c$luser
聚类图在散点图中绘制k均值聚类和前两个主成分(维度1和2)。
clstr(lstdaa = nr, cluter = cluser,col=ola), theme = hme_lsic()) + title("K-Means聚类图")
-
聚类之间没有重叠。
-
聚类2与其他聚类之间存在很多分隔。
-
聚类1、3和4之间的间隔较小。
-
前两个组成部分解释了点变异的70%。
-
聚类1有2个国家,其聚类平方和之内很小(在聚类变异性内)。
-
聚类2有1个国家。
-
具有14个国家/地区的第3组在类内变异性中最高。
-
聚类4有5个国家,在聚类变异性中排名第二。
-
聚类平方和与平方和之比为61.6%,非常合适。
这四个聚类的标准平均值是:
long <- melt(t(agreate(nor, ) plot(long,roup = cluster)+point(se=3)
自由选择生活,社会支持和阶梯得分之间的差异很大。这些变量似乎对聚类形成贡献最大。
回想一下,聚类成员资格为:
第1类:印度尼西亚,缅甸
第2类:阿富汗
第3类:菲律宾,泰国,巴基斯坦,蒙古,马来西亚,越南,马尔代夫,尼泊尔,中国,老挝,柬埔寨,孟加拉国,斯里兰卡,印度
第4类:中国台湾地区,新加坡,韩国,日本,中国香港特别行政区
相对于其他聚类:
聚类1的特点是
-
很高:慷慨
-
高:自由选择生活
-
一般:人均GDP,对腐败的看法,慷慨,健康的期望寿命,社会支持,阶梯得分
聚类2的特点是
-
高:对腐败的看法
-
低:人均国内生产总值,慷慨
-
非常低:自由选择生活,健康的期望寿命,社会支持,阶梯得分
聚类3的特点是
-
高:自由选择生活
-
一般:人均GDP,对腐败的看法,慷慨,健康的期望寿命,社会支持,阶梯得分
聚类4的特点是
-
很高:人均GDP,期望寿命健康
-
高:社会支持,阶梯得分
-
一般:自由选择生活
-
低:慷慨
-
极低:对腐败的看法
轮廓图
我们使用轮廓图来查看每个国家在其聚类中的状况。轮廓宽度衡量一个聚类中每个观测值相对于其他聚类的接近程度。较高的轮廓宽度表示该观测值很好地聚类,而接近0的值表示该观测值在两个聚类之间匹配,而负值表示该观测值在错误的聚类中。
plt(soette((cluser), diace), mn = "轮廓系数图")
-
大多数国家似乎都非常好。
-
第3组中的国家4(泰国)和第4组中的国家5(韩国)的轮廓宽度非常低。
层次聚类
分层聚类将组映射到称为树状图的层次结构中。分层聚类算法如下所示:
-
从n个观察值和所有成对不相似性的度量(例如欧几里得距离)开始。将每个观察值视为自己的聚类。
(a)检查i个聚类之间所有成对的聚类间差异,并找出最相似的一对聚类。加入这两个聚类。这两个簇之间的差异表明它们在树状图中的高度。
(b)计算其余聚类之间的新的成对聚类间差异。对于分层聚类,我们在聚类之间使用距离函数,称为链接函数。不同类型的链接:
-
完全(最大聚类间差异):计算聚类1中的观测值与聚类2中的观测值之间的所有成对差异,并记录这些差异中最大的一个。
plt(aslus.c,laes=国家名称,min='全链接 k=4', hang=-1) rct.clut(whasi.hclusc, k=4)
-
平均值(均值聚类间差异):计算聚类1中的观测值与聚类2中的观测值之间的所有成对差异,并记录这些差异的平均值。
全链接
下面的树状图显示了使用全链接的聚类层次结构。
custr(ist(dta = or, cuse = mer.a), ghe = teelsic)) + title("全链接 lusterPlot")
-
聚类1有16个国家。
-
聚类2有2个国家。
-
聚类3有3个国家。
-
聚类4有1个国家。
-
聚类4和其他聚类之间有很多间隔。
-
聚类1、2和3之间的间隔较小。
-
聚类1中的变异性似乎很大。
轮廓图
plot(sloett(curee(asiahluc, 4), di), col min = "全链接 轮廓系数图")
大多数国家似乎都非常好。
-
16国(老挝)似乎是第1组的异常值。
-
21国(印度)似乎是第3组的异常值。
平均链接
下面的树状图显示了使用平均链接的聚类层次。
plt(s.hut.,abls=国家名称,min='平均链接 k=4', hag=-1) rec(hsth_asa.lus.a, k= boder)
-
聚类1有4个国家。
-
聚类2有1个国家。
-
聚类3有16个国家。
-
聚类4有1个国家。
-
使用平均链接的聚类之间的变异性似乎大于全链接的变异性。
custr(ist(dta = or, cuse = mer.a), ghe = teelsic)) + title("平均链接 lusterPlot")
轮廓图
plt(sltte(ctee(sia.lust, 4), istce), cl=cl\[:5\], min = "平均链接 轮廓系数图")
-
大多数国家似乎都非常好。
-
第1组中的8地区(香港)的轮廓宽度非常小。
讨论
k均值,全链接和平均链接的平均轮廓宽度分别为0.26、0.23和0.27。在全链接中,聚类之间的距离小于k均值和平均链接之间的距离,并且两个国家不太适合它们的聚类。因此,k均值和平均链接方法似乎比全链接具有更好的拟合度。比较k均值,全链接和平均链接,所有方法都与阿富汗匹配,成为其自己的聚类。但是,每种方法的聚类成员资格有所不同。例如,在k均值和全链接中,印度尼西亚和缅甸与大多数南亚和东南亚国家不在同一聚类中,而印度尼西亚和缅甸与在平均链接中的国家在同一聚类中。
K-means和分层聚类都产生了相当好的聚类结果。在使用大型数据集和解释聚类结果时,K-means有一个优势。K-means的缺点是它需要在开始时指定数字数据和聚类的数量。另外,由于初始聚类分配在开始时是随机的,当你再次运行该算法时,聚类结果是不同的。另一方面,分层聚类对数字和分类数据都有效,不需要先指定聚类的数量,而且每次运行算法都会得到相同的结果。它还能产生树状图,这对帮助你理解数据的结构和挑选聚类的数量很有用。然而,一些缺点是,对于大数据来说,它没有k-means那么有效,而且从树状图中确定聚类的数量变得很困难。
在下面公众号后台回复“”,可获取完整数据。
本文摘选,点击“”获取全文完整资料。
PYTHON实现谱聚类算法和改变聚类簇数结果可视化比较
有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据
R语言多维数据层次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据
r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化
Python Monte Carlo K-Means聚类实战研究
R语言k-Shape时间序列聚类方法对股票价格时间序列聚类
R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归
R语言谱聚类、K-MEANS聚类分析非线性环状数据比较
R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口
R语言聚类有效性:确定最优聚类数分析IRIS鸢尾花数据和可视化
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
R语言k-means聚类、层次聚类、主成分(PCA)降维及可视化分析鸢尾花iris数据集
R语言有限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发时间
R语言用温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化
R语言k-Shape时间序列聚类方法对股票价格时间序列聚类
R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析
R语言复杂网络分析:聚类(社区检测)和可视化
R语言中的划分聚类模型
基于模型的聚类和R语言中的高斯混合模型
r语言聚类分析:k-means和层次聚类
SAS用K-Means 聚类最优k值的选取和分析
用R语言进行网站评论文本挖掘聚类
基于LDA主题模型聚类的商品评论文本挖掘
R语言鸢尾花iris数据集的层次聚类分析
R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归
R语言聚类算法的应用实例