前文再续,书接上一次。(今天是一个。字的大章,没时间的同学,看图就行了)
平均和中位数PK不是一两天。
我们经常在新闻上看到统计部门发布的各种平均值。看完之后,估计大家的反应都和虾神差不多:
产学研三界专家不断呼吁,为什么我们不需要中位数,按道理说,:
例如,美国在国民统计中使用中位数。当然,美国曾经只用平均数来统计,但近几十年来中位数统计越来越多。如上图所示,这是美国人口普查局2016年公布的美国家庭收入统计数据。我们可以看到,在美国家庭统计数据中,人数在3万-34999美元之间,中位数在7万-7万4之间,但平均数确实是最高的,达到9.5万美元 。因此,平均值的计算方法受到极值的极大影响。上图所揭示的差异非常明显:。该案例还表明,对数据组的更完整、更准确的分析也来自于不同统计量的综合应用。
那为什么中国不需要中位数呢?答案是:……
中国统计部门发布统计结构的数据有两套口径,一套称为:,也就是说,统计局直接计算每个企业报告其在职员工和工资总额。
但是企业每个员工的,所以自然没有办法计算中位数:
第二套口径数据来自统计局下属的专门城市调查组,进行抽样家庭调查。这个组织在每个国家都有,在中国被称为”,理论上利用城调队数据,是可以计算出中位数来的。
那为什么不用城调队的数据来计算和发布呢?答案还是很不准确,因为我国城调队的工作还是以在此基础上,而不是以居民本身为主体(虾神长得这么大,只遇到过一次家庭调查、人口普查、经济普查),所以仍然不好。
(以上资料参考知乎相关问题,感兴趣的同学自己阅读)
好了,到目前为止,我们将继续我们的空间统计。
刚才说中位数可以,中位数中心也是如此。让我们来看看这样的比较图:
加入极值后,算数平均值会明显向极值移动,然后再看中位数中心,如下:
即使加入极值后,中位数中心的位移也没有算数平均中心位移那么大,因此:中位数中心是一种中位数中心
接下来,让我们来看看中位数中心的一些算法和原理。中位数中心与之前提到的中心元素非常相似,即找到一个可以平均分为两部分的数字,从这个数字到所有位置的距离最小。相应地,平均中心可能不是所有位置之间最小的距离——。
然而,中位数中心和中心元素最大的区别在于,中心元素计算的结果必须是元素样本中的原始样本;计算中位数中心和平均中心,不能是原始元素之一,可以产生新的位置。
但与中心元素的计算相比,中位数中心的计算方法要复杂得多。
因为中位数中心没有给你既定的位置,也就是说。如果没有起点,理论上有无数点可以作为起点,然后根据遍历法则逐一计算和排序,使系统成本无限大。
这里给大家讲一个小笑话。
众所周知,中国科学院数学研究所是民科每年围攻的主要对象写给数学学院的信可以绕地球一圈……(因为民科真的认为哥德巴赫猜想就是证明,手动狗头保命)。
图:中国科学院数学研究所
更不用说哥德巴赫的高端知识了,最基本的尺度三等分角数学已经证明了不可能,每年都有无数的老人认为他可以解决——我遇到了一个伟大的上帝,发誓他可以,我好奇地问他是怎么做到的(数学证明了这是不可能的)。他拿出一个——
当时我差点吐白沫。……只能使用直尺和圆规,如果条件放宽,即使只允许在直尺上做标记(即二刻尺),也可以做三等分角,but那不叫尺规作图……
当我说出无刻度尺规的条件时,大神用白痴的眼神看着我说:
(PS:使用测量仪器是一个工程问题,而不是数学问题)
言归正传:
要说中位数中心,首先要说所谓的(Fermat Point)问题。费马点是17世纪法国律师皮耶·德·费马(Pierre de Fermat,如下图所示,这位专职律师被称为业余数学之王。在数学神殿里,他有一个王座来镇压几天……习惯于在中国称之为费马大定理,西方数学界原名最后是:。
费马点是指从三角形内部到三角形顶点的距离之和最短,如下图所示:
若三角形的三个内角小于120度,如上图所示:三角形ABC内部点D,这是离三角形三个顶点总和最近的一个点。从这个点连接到三角形三个顶点,得到的三个角正好分成费马点所在的周角,即均为120度。。
如果三角形有一个内角大于或等于120度,那么钝角的顶点就是费马点。
要找到这个费马点,我们不需要迭代和测量(数学是一门追求完美的学科)。我们只需要在三角形的三个边缘做一个等边三角形,然后用这个等边三角形做一个外接圆。三个外接圆的交点就是这个费马点。(等边三角形外接圆的方法不详细,太简单了)-标准尺规则图。
四边形的费马点更容易,凸四边形,费马点是对角线的交点;凹四边形,费马点是凹点。
众所周知,三角形和四边形在数学上非常特殊,在现实生活中并不多,尤其是在多点之间。
所以计算一直是数学界谈论的话题。
由于复杂多边形中没有公式来实现费马点,因此到目前为止,不可能通过一个公式来计算费马点。当然,在初等数论中,提出了一些方法,如分割成多个三角形,但只适用于正多边形。
而且费马点的搜索不涉及任何权重,所以计算出的结果是完全几何结果,几何图形的费马点完全在图形内部。
中位数中心实际上是费马点的延伸:韦伯问题。
韦伯问题描述如下:,它是几何学和区域学研究中一个非常重要和著名的问题,但它最早是由经济学家阿尔弗雷德组成的·韦伯(德语:Alfred Weber,因此,它也被称为韦伯问题(The Weber problem)”。韦伯先生不是数学家,而是经济学家、社会学家和文化理论家。阿尔弗雷德·韦伯是马克斯·韦伯的弟弟(组织理论之父)。他创立了工业区位理论,深刻影响了现代经济地理学的发展。
韦伯的问题是在费马点的基础上扩展权重概念,所以一个问题是,一些点的权重被设置为负数,结果是中位数中心可能跳出几何范围。
例如:或仓库运输问题,我们想计算中位数中心,所以如果仓库不仅可以储存转运货物,还可以提供加油、汽车维修、维修、司机休息服务……然后,仓库的权重计算可能设置为负。即使距离可能很大,所有来仓库的车辆也会直接忽略距离因素,达到更好的效果。
但是这个世界上有一群非常聪明的人(bian)明(tai)天才,他们有一个共同的名字,叫做数学家——时代变了,有一群更聪明的天才,叫做计算机学家……1962年,哈罗德,美国著名的数学家,普林斯顿大学.威廉.库恩(一位天才数学家和计算机理论学家,约翰曾经获得1980年·冯·诺依曼理论奖和罗伯特.E.库伦(Kuhn, H. W., and R. E. Kuenne) 两人首次提出了一种计算方法。
这个算法很容易理解,就是找一个候选中位数中心,然后优化它,直到它示的位置最小于数据集中的所有元素(或所有加权元素)。
让我们简单看看解决韦伯问题的最小二乘法。具体算法如下:
首先
接下去就是确定迭代优化方案了。迭代的优化方案主要就是对候选点的选择,有如下几个关键:
先讲方向的问题,理论上来说,只需要向任意一个不同的方向移动,就可以了。随便向任意方向移动,都会产生不同的距离总和。
生成新的距离总和之后,与原来的起算点的距离总和进行对比,如果大于原来的距离总和,就说明这个候选点是错误的,丢弃,重新寻找。如果小于原来的距离总和,说明比起算点要优化,将他设为新的起算点,也就是候选点,然后以这个新的起算点,
然后再讲讲移动多少距离合适。
Kuhn和Kuenne在他们的论文里面,设定了一种很实用的距离公式,就是所谓的
第一次选择候选点的距离的时候,直接采用所有的点的平均距离y作为移动距离,移动完成之后计算,并且把这个y带入到公式中,求解出下一次需要移动的距离。
根据我们迭代的次数的增加,会发现数据会逐渐的收敛。最后可以计算出最优的候选点,作为最后的位置。
当然,如果有权重的话,在每个点上面,还需要加上权重进行计算,如下公式:
其中Wi就是每个点的权重。
理论上,这个
来来来,再优化这么一点点,一点点就行
一般来说,在GIS里面,就是你创建坐标系和要素图层的时候指定的精度,就是默认接受的精度值。
1996年,被美国纽约吉尔福德学院地理学家詹姆斯.E.伯特和杰拉尔德.M.巴伯(Burt, J. E., and G. Barber.)总结归纳,得出了一种优化算法。
这个算法的具体描述,请参考书籍:《Burt, J. E., and G. Barber. (1996).Elementary statistics for geographers.Guilford, New York.》
当然,里面还有很多很多其他的东西,比如各种条件什么的,我这里就不一一说明了,有兴趣的同学,请参考如下文章:
https://en.wikipedia.org/wiki/Geometric_median
https://en.wikipedia.org/wiki/Weber_problem
最后,我们来聊聊中位数中心的适用范围:比如我们需要
就像计算火灾发生位置的研究中,我们不希望少数外围火灾使得实际的中心位置远离火灾核心区这样的一种场景,就可以使用ArcGIS提供的工具计算火灾区的“中位数中心”。
平均中心和中位数中心,都是空间统计中经常用到的工具,它们在研究某一时间的位置运动时候有广泛的应用。
例如:在犯罪分析的研究中,犯罪事件的位置可能遍布整个城区,我们就可以按照不同的时间,对其中一个区间内的数据进行中心点提取,这样就可以有效的了解,整个犯罪事件的位置是否发生趋势性的转移。
或者在对动物迁徙的研究中,可以计算某个区域若干年内的动物(如麋鹿)观测值的平均中心,来确定在不同时间段内,麋鹿会在何处聚集,从而为游客或者研究人员提供更好的信息。
具体的案例,我们以后有空在进行演示:
(请大家把挖坑小能手打在弹幕上……)