资讯详情

新版白话空间统计(24):中位数中心

前文再续,书接上一次。(今天是一个。字的大章,没时间的同学,看图就行了)

平均和中位数PK不是一两天。

我们经常在新闻上看到统计部门发布的各种平均值。看完之后,估计大家的反应都和虾神差不多:

产学研三界专家不断呼吁,为什么我们不需要中位数,按道理说,

例如,美国在国民统计中使用中位数。当然,美国曾经只用平均数来统计,但近几十年来中位数统计越来越多。如上图所示,这是美国人口普查局2016年公布的美国家庭收入统计数据。我们可以看到,在美国家庭统计数据中,人数在3万-34999美元之间,中位数在7万-7万4之间,但平均数确实是最高的,达到9.5万美元 。因此,平均值的计算方法受到极值的极大影响。上图所揭示的差异非常明显:。该案例还表明,对数据组的更完整、更准确的分析也来自于不同统计量的综合应用。

那为什么中国不需要中位数呢?答案是:……

中国统计部门发布统计结构的数据有两套口径,一套称为:,也就是说,统计局直接计算每个企业报告其在职员工和工资总额。

但是企业每个员工的,所以自然没有办法计算中位数:

第二套口径数据来自统计局下属的专门城市调查组,进行抽样家庭调查。这个组织在每个国家都有,在中国被称为”,理论上利用城调队数据,是可以计算出中位数来的。

那为什么不用城调队的数据来计算和发布呢?答案还是很不准确,因为我国城调队的工作还是以在此基础上,而不是以居民本身为主体(虾神长得这么大,只遇到过一次家庭调查、人口普查、经济普查),所以仍然不好。

(以上资料参考知乎相关问题,感兴趣的同学自己阅读)

好了,到目前为止,我们将继续我们的空间统计。

刚才说中位数可以,中位数中心也是如此。让我们来看看这样的比较图:

加入极值后,算数平均值会明显向极值移动,然后再看中位数中心,如下:

即使加入极值后,中位数中心的位移也没有算数平均中心位移那么大,因此:中位数中心是一种中位数中心

接下来,让我们来看看中位数中心的一些算法和原理。中位数中心与之前提到的中心元素非常相似,即找到一个可以平均分为两部分的数字,从这个数字到所有位置的距离最小。相应地,平均中心可能不是所有位置之间最小的距离——

然而,中位数中心和中心元素最大的区别在于,中心元素计算的结果必须是元素样本中的原始样本;计算中位数中心和平均中心,不能是原始元素之一,可以产生新的位置。

但与中心元素的计算相比,中位数中心的计算方法要复杂得多。

因为中位数中心没有给你既定的位置,也就是说。如果没有起点,理论上有无数点可以作为起点,然后根据遍历法则逐一计算和排序,使系统成本无限大。

这里给大家讲一个小笑话。

众所周知,中国科学院数学研究所是民科每年围攻的主要对象写给数学学院的信可以绕地球一圈……(因为民科真的认为哥德巴赫猜想就是证明,手动狗头保命)。

图:中国科学院数学研究所

更不用说哥德巴赫的高端知识了,最基本的尺度三等分角数学已经证明了不可能,每年都有无数的老人认为他可以解决——我遇到了一个伟大的上帝,发誓他可以,我好奇地问他是怎么做到的(数学证明了这是不可能的)。他拿出一个——

当时我差点吐白沫。……只能使用直尺和圆规,如果条件放宽,即使只允许在直尺上做标记(即二刻尺),也可以做三等分角,but那不叫尺规作图……

当我说出无刻度尺规的条件时,大神用白痴的眼神看着我说:

(PS:使用测量仪器是一个工程问题,而不是数学问题)

言归正传:

要说中位数中心,首先要说所谓的(Fermat Point)问题。费马点是17世纪法国律师皮耶·德·费马(Pierre de Fermat,如下图所示,这位专职律师被称为业余数学之王。在数学神殿里,他有一个王座来镇压几天……习惯于在中国称之为费马大定理,西方数学界原名最后是:

费马点是指从三角形内部到三角形顶点的距离之和最短,如下图所示:

若三角形的三个内角小于120度,如上图所示:三角形ABC内部点D,这是离三角形三个顶点总和最近的一个点。从这个点连接到三角形三个顶点,得到的三个角正好分成费马点所在的周角,即均为120度。

如果三角形有一个内角大于或等于120度,那么钝角的顶点就是费马点。

要找到这个费马点,我们不需要迭代和测量(数学是一门追求完美的学科)。我们只需要在三角形的三个边缘做一个等边三角形,然后用这个等边三角形做一个外接圆。三个外接圆的交点就是这个费马点。(等边三角形外接圆的方法不详细,太简单了)-标准尺规则图。

四边形的费马点更容易,凸四边形,费马点是对角线的交点;凹四边形,费马点是凹点。

众所周知,三角形和四边形在数学上非常特殊,在现实生活中并不多,尤其是在多点之间。

所以计算一直是数学界谈论的话题。

由于复杂多边形中没有公式来实现费马点,因此到目前为止,不可能通过一个公式来计算费马点。当然,在初等数论中,提出了一些方法,如分割成多个三角形,但只适用于正多边形。

而且费马点的搜索不涉及任何权重,所以计算出的结果是完全几何结果,几何图形的费马点完全在图形内部。

中位数中心实际上是费马点的延伸:韦伯问题。

韦伯问题描述如下:,它是几何学和区域学研究中一个非常重要和著名的问题,但它最早是由经济学家阿尔弗雷德组成的·韦伯(德语:Alfred Weber,因此,它也被称为韦伯问题(The Weber problem)”。韦伯先生不是数学家,而是经济学家、社会学家和文化理论家。阿尔弗雷德·韦伯是马克斯·韦伯的弟弟(组织理论之父)。他创立了工业区位理论,深刻影响了现代经济地理学的发展。

韦伯的问题是在费马点的基础上扩展权重概念,所以一个问题是,一些点的权重被设置为负数,结果是中位数中心可能跳出几何范围。

例如:或仓库运输问题,我们想计算中位数中心,所以如果仓库不仅可以储存转运货物,还可以提供加油、汽车维修、维修、司机休息服务……然后,仓库的权重计算可能设置为负。即使距离可能很大,所有来仓库的车辆也会直接忽略距离因素,达到更好的效果。

但是这个世界上有一群非常聪明的人(bian)明(tai)天才,他们有一个共同的名字,叫做数学家——时代变了,有一群更聪明的天才,叫做计算机学家……1962年,哈罗德,美国著名的数学家,普林斯顿大学.威廉.库恩(一位天才数学家和计算机理论学家,约翰曾经获得1980年·冯·诺依曼理论奖和罗伯特.E.库伦(Kuhn, H. W., and R. E. Kuenne) 两人首次提出了一种计算方法。

这个算法很容易理解,就是找一个候选中位数中心,然后优化它,直到它示的位置最小于数据集中的所有元素(或所有加权元素)。

让我们简单看看解决韦伯问题的最小二乘法。具体算法如下:

首先

标签: weber传感器captor

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台