2022-07-12 阅读笔记:《极简统计学》写给大家
本系列文章是个人阅读笔记和总结内容,任何组织和个人不得转载商业活动!
本书作者:永野裕之
我一直想学习数学统计的基本内容。我查了一下,有人推荐了这本书,希望仔细阅读后能有所收获;
目录
- 第1章 数据整理的基础知识
- 第2章 数据分析的基础知识
- 第3章 用于研究相关数学
- 第4章 数学分析离散数据
- 第5章 分析连续数据的数学
序言
能够理解和表达通过统计操作得出的结论是一种有用的能力;理解和学习统计需要一定的数据基础知识;统计是必须掌握的数学能力;
本书涵盖了初中统计学所需的基础数学知识,主要目标是让读者理解和练习;本书还介绍了这些数学知识在统计学中的应用范围和具体方法;
综上所述,你可以通过阅读这本书来学习 分析收集数据的统计方法 推测统计的入门知识从一些数据中计算出来;
- 平均值
- 中位数:数据从小到大排列,等分数据数量的数据值;
- 方差
- 标准差
- 协议差:第一组数据的偏差(指各值与平均值的差)与第二组数据偏差的乘积平均;
- 相关系数
- 柱状图
- 箱型图
第1章 数据整理的基础知识
1
统计是整理和分析收集到的数据(值)的知识;
平均、比例、图表:
- 平均意义;
- 比例 除法 概率之间的联系;
- 合理选择图表有助于理解;
这三者都是 日常整理数据所需的基本工具;
平均数:
- 平均数
*
个数=
总数 - 平均数
=
总数/
个数
在统计学中,作为显示数据特征的示数据特征的值,除平均数外;
除法的意义:
- 整体平分:将a分成n等份,每个都有p等分:距离 除以 时间 等于 速度】
- 将整体平均分成几个等份:将a按每个等份分为n个,则可分为p包括除:距离 除以 速度 等于 时间】
比例:
- 比例
=
比较量/
基准量 - 包括同一单位的比例;
- 不同单位的比例是等分除。一般来说,等分除概念中的比例表示
单位量
; - 明确 比较量 和 基准量 是 计算比例的重要基础;
2
图表:
- 选择介绍最具代表性的图表:柱状图、折线图、饼图和带状图;
- 柱状图:表示大小;
- 折线图:表示变化;
- 饼图:表示比例;
- 带状图:比较比例;
柱状图:
- 用于比较数量大小的图表;
- 展示91
~
2008年强风次数,图表按月统计绘制,可见7~
10月是强风多发期;
折线图:
- 表示数据变化和推移的图表;
- 纵轴数据间隔的选择会改变读者对数据变化程度的印象;(柱状图也有类似之处)
- 如果变化量相同,延长横轴值的间隔会使变化看起来更加稳定;
饼图:
- 适用于表示每个项目在一个整体中的比例;
- 一般从时钟12点开始,按比例从大到小排序每个项目(也可按其他条件排序);
带状图:
- 通常用于根据年份等条件比较同一项目的比例变化;
- 横轴是比例0~100%,纵轴为每年;图表显示了每年项目中不同元素的数据比例,如不同年龄段的人口比例(和为100%);
- 值得注意的是,带状图中比例的增加(减少)并不意味着绝对值的增加(减少);如果整体值不同,绝对值的增减无法从比例的增减来判断;
3
目前的数学知识 与 统计知识之间的联系:
- 除法的两个意义
->
比例->
频数分布表
- 各种图形
->
矩形图
、箱型图
- 平均值
->
代表值
->
箱型图
统计基本概念:
- 数据与变量:多个数据,单个数据为变量;
- 数据分为:
- 实质性数据:由变量(实质性变量)组成的数据,又称分类数据,不能用数字来衡量;
- 量化数据:当某些变量有意义时,由这些变量组成的数据称为量化数据;量化数据也可细分为:
离散型数据
和连续型数据
;
- 量化数据分为:
- 离散数据:指两个相邻项目之间无可取值的数据,如骰子点数、汽车数量等;
- 连续数据:指两个相邻项之间,无论如何细分,总会有更多可取的数据;
整理数据的基本步骤:
- 整理频数分布表
- 制作矩形图
频率分布表:
- 术语解释:
- 组:以相同的间隔将数据分开;
- 组中值:每组上下限中间值;如果上限为20,下限为10,则组中值为15;
- 频率:每组中包含的数值;
- 相对频率:总频率中各组数据频率的比例;
- 累计相对频数:逐级相对频数加和;
- 频率分布表是指每组中的频率分布表 频数、相对频数、累计相对频数 做成表;
操作实例:
- 从小到大排序分数数据;
- 每5、10或20分一组;需要注意的是,如果每组的值范围太小,表格就会变得太复杂;相反,如果值范围太大,则无法清楚地看到数据的倾向特征;组数通常控制在5~10分组在20之间也很常用;
组 | 组中值 | 频数 | 相对频数 | 累计相对频数 |
---|---|---|---|---|
0~50 | 25 | 1 | 0.25 | 0.25 |
50~100 | 75 | 4 | 0.75 | 1.0 |
注意:
- 频数分布表 每个项目的具体值不能提取数据;因为只显示组中值,相当于组中值;
- 相对频数
=
该组的频数/
频数的总数 - 如果想知道 在这组数据上(或以下)的数量中,整体数据所占的百分比取决于累计频数;
矩形图:
- 矩形图用横轴表示频数分布表的组合;
- 用纵轴表示画出的柱状图;
- 折线图也可以添加,不同组的累积相对频率变化可以标记在同一图中;
代表值:
- 与矩形图相比,代表值是表示数据倾向特征的简单方法;
- 平均数,中位数,众数 可作为代表值;
中位数:
- 在排列数据大小时,位于中间的数值奇个数就是最中间值,偶个数就是中间两个数的均值);
在数据中存在偏离值(明显偏大或偏小的值)的情况,平均数会受影响而变得偏大或偏小;这种情况,使用中位数作为代表值更合适;
众数:
- 一组数据中出现次数最多的数值;
- 众数是出现次数最多,即频数最高的数据的
值
,注意是数据值,不是频数;
量化数据中,一般不会统计某个具体的数的频数,一般的,会在确定组间隔后,取频数最高的组数的频数;
众数在概率分布中具有更重要的意义;在正太分布中:
中位数=众数=平均数
;
数据的离散性:
- 要知道数据的离散性,常用的有
- 方差、标准差;
- 最大值、最小值、范围:最大值与最小值的差值;
- 四分位数:
- 将数据从小到大排列并分成4等份,处于三个分割点上的数,分别称为第一四分位数、第二四分位数、第三四分位数;
- 第二四分位数 = 中位数
四分位数的求法:
- 找出数据的中位数
- 求出中位数前半部分的中位数
- 求出中位数后半部分的中位数
研究数据整体的离散性时,最小值、3个四分位数、最大值 被称为5大要数
;
5大要数间隔范围 越大 说明 这部分的数据越离散;
箱型图:
- 将5大要数列出来 可以绘制出箱型图;
- 被5大要数切分成的各区间,包含了整个数据值的约
25%
; - 若每个区间长度均等,则意味着数据整体离散性是均匀的;否则说明离散程度有所偏离;
- 图形类似:
|——口口——|
- 图形中可以使用
+
号标记出平均分;
对比矩形图,矩形图中显示频数高的部分,在箱型图中的长度比较短;
第2章 数据分析的基础知识
第1章我们学习了 整理数据的基本方法;本章主要目的是掌握“标准差”,即数据相对于平均值的离散程度;
1
平方根:
- 如果一个数的平方等于a,这个数叫做a的平方根;
- 平方根有正负两个;
- 对于平方根为整数的数字,称为平方数(也叫完全平方数);
- 除去平方数,其他数的平方根无法用有限小数及分数表示;
数学归纳法:《写给全人类的数学魔法书》
根号:
- 使用
√
表示平方根; √a * √b = √(a * b)
多项式运算:(因式分解)
(x + a)(x + b) = x^2 + (a+b)x + ab
(x + a)^2 = x^2 + 2ax +a^2
罗友书社:vx dedao555
上述数学知识在统计学中的应用:
- 即作为 方差 标准差 偏差值的数学基础;
我们已经知道:四分位数与箱型图都是以中位数为基准来表示数据离散程度的;本章将要学习的方差、标准差等 是以平均数为基准来表示数据的离散程度;
2
方差:
- 以一组学生分数为例;
- 考虑平均数的另一种求法:
平均数 = 基准值 + 与基准值差的平均数
- 分数
-
平均分 的结果中 有正有负,相加之后会相互抵消,无法得出数据与平均数之间的差距; - 为了使负数也能显现出差距,将
分数 - 平均分
的值平方之后,再取平均值,即方差
;
方差求法:
- 求出均值
- 计算 各数值
-
平均值 的值 - 计算(各数值
-
平均值)的平方 的平均值;
标准差:
- 方差的数值有时候会过大,而且单位会变成原来的平方;
- 方差开根号后的值叫做
标准差
; - 标准差较小时,表示数据大多集中在平均值附近;
利用方差的计算公式可以推到出 方差的简单计算公式:
方差 = 平方的平均数 - 平均数的平方
注意:在
多峰性分布
的数据中,难以考证方差与标准差,因为,在这种数据中,会有很多数值与平均值相差较大,以平均数为基准的数值难以确切表明数据与平均值的关系;
偏差:
- 一般以50为标准,将分数与均分的差距和标准差相比后扩大10倍;
- 计算公式:
偏差 = 50 + (指定的值 - 平均值)/ 标准差 * 10
偏差的优点在于,可以比较和测量标准不同的数据;
比如100分的同学的偏差值如果很大,说明他们的确很优秀,比大多数人都要好;如果100分同学的偏差很小,则说明 他们并没有和大多数同学拉开差距;可以用偏差衡量与平均数的差距;
一般的全域成绩和高斯分布(正太分布)很接近,在高斯分布中,所有数据中有68.26%的数据标准偏差 小于1
,在-1 ~ +1
之间;
---
- -
- -
- |68.26 | -
- -
-- --
--- | 95.44 | ---
-- --
-------------------------------
0 10 20 30 40 50 60 70 80 90 100
70%就是我们所说的普通人,都在标准偏差
-1 ~ +1
的范围内;
第3章 用于研究关联性的数学
本章会学习一些基础的统计方法:点位图 与 关联性,以研究数据的关联性;
中心内容就是“函数”,对原因与结果的关系的理解和对函数的理解其实是存在关联的;
1
函数:
- y作为x的函数成立的条件
- 对应x的y值有且仅有一个;
- x(在一定范围内)可以取任意值;
统计学上,有
y是x的函数 + 误差
,即y虽然不是x的函数,但可以通过x的值预测y的值,这种情况下使用的分析方法叫做回归分析; 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法;
一次函数:
y = ax + b
- 图形为直线,a为斜率,b为y轴截距;
以下内容将主要围绕统计学概念:
相关系数r值的范围在-1~1之间
的理解,而进行数学知识的学习;
二次函数
y=ax^2 + bx +c
,抛物线- a为正数,向上开口,a为负数,向下开口;
二次函数的平移:
y = ax^2
,x方向+p
,y方向+q
;- 新的点为
X = x+p
,Y = y+q
,将x、y带回二次函数得 Y = a(X - p)^2 + q
,即移动后图形的式子;- 原来的抛物线定点为
(0,0)
,平移后变为(p,q)
;
配方法基础
x^2 + 2kx = (x + k)^2 - k^2
配方法:
y = ax^2 + bx +c = a[(x + b/2a)^2 - b^2/4a^2] + c
- 去掉中括号得
y = a(x + b/2a)^2 - (b^2 - 4ac)/4a
- 从这个式子可以得到
y = ax^2 + bx +c
的图像顶点为 (-b/2a, - (b^2 - 4ac)/4a)
二次函数图像画法:
- 先找顶点
- x为0时的y轴截距
- 按照抛物线形状链接顶点和 截距点
- 左右对称绘制另一半
二次方程求解:
ax^2 + bx + c = 0
- 因式分解
- 公式求解:
a(x + b/2a)^2 - (b^2 - 4ac)/4a = 0
x = (-b ± √(b^2 - 4ac))/2a
当a大于0时,
b^2 - 4ac < 0
是图像与x轴没有交点的条件(x无实数解),此时无论x取和值,y均大于0;
- 如果
b^2 - 4ac > 0
,有两个实数解;- 如果
b^2 - 4ac = 0
,有一个实数解;- 如果
b^2 - 4ac < 0
,有零个实数解;
后续会用到这个与x轴不想交的条件,证明相关系数r的范围在-1~1之间
;
二次不等式:
x^2 <= 1 的解为 -1 <= x <= 1
2 在统计学中的应用
现实中,很少有两个变量之间的关系像前面学习的函数一样严密,但很多事务间存在一方增加另一方也增加的大致关联,接下来看,如何将这种关系的强弱以数学的方式加以表示和研究;
我们已经学习的 矩形图 与 箱型图 适用于针对单个变量数据加以整理,并表示其倾向特征的图像;
使用点位图
(又称 散布图)可以抓住两个变量之间的倾向特征
点位图:
- 使用两个变量的值作为坐标值,画在坐标轴上;
如果点位图上点位集中在呈上升趋势的一个狭窄区域内(有点像斜率为正的一次函数),在统计学上被称作两个变量之间呈强正相关
,类似的有:
- 强正相关(呈上升趋势的一个狭窄区域)
- 弱正相关(呈上升趋势的一个椭圆区域)
- 不相关(无法呈现趋势的一个圆形区域)
- 弱负相关(呈下降趋势的一个椭圆区域)
- 强负相关(呈下降趋势的一个狭窄区域)
相关关系注意点:
- 研究得到的相关关系无法作为两个变量之间的一般关系来处理,即倾向特征非一般特征;(存在偶然性)
- 两个变量之间的相关关系 不能视为 两个变量之间的因果关系;
对从所有数据的一部分样本中得到的结果,其是否可以代表所有数据特征的方法被称为
推测统计
;
相关系数
:
- 是统计学中专门表示相关关系的正负和强弱的数值;
- 求相关系数,需要用到 x的标准差,y的标准差,以及协方差;
协方差公式:x与y的协方差写作C:
C = (∑(x - x.mean())*(y - y.mean()))/n
相关系数 r = C / (Sx * Sy)
,其中C为协方差,Sx、Sy分别为x,y的方差;
之前提到的 相关系数r的范围是
-1 ~ 1
,指的就是这个相关系数;
r值判断相关关系:
r值min | r值max | 以x、y均值划分4象限 | |
---|---|---|---|
强负相关 | -1.0 | -0.7 | 2、4象限分布多 |
中负相关 | -0.7 | -0.4 | 2、4象限分布多 |
弱负相关 | -0.4 | -0.2 | 2、4象限分布多 |
无相关 | -0.2 | 0.2 | 1、2、3、4象限普遍分布 |
弱正相关 | 0.2 | 0.4 | 1、3象限分布多 |
中正相关 | 0.4 | 0.7 | 1、3象限分布多 |
强正相关 | 0.7 | 1.0 | 1、3象限分布多 |
相关系数的理论背景:
- 要证明 r 在
-1~1
之间 - 等价于
r^2 <= 1
- 等价于
∑XiYi <= √(∑(Xi^2)) * √(∑(Yi^2))
,这里Xi = xi - x.mean()
;
证明过程很有意思,但实际上最后要证明的不等式,我们在初高中阶段其实都证明过,不禁觉得自己曾经也很厉害;
X1 / Y1 = Xi / Yi
时,r = 1
或 -1
,此时点位图上的点全部都在通过均值点的直线上;
第4章 分析离散数据的数学
两个重点:概率 和 ∑
符;
统计学大致就是从诸多偶然中提炼规律,推测总体情况的一门学问,推测过程中,概率必不可少;
数学知识:排列组合、阶乘、集合、二项式分布、二项式系数、二项式定理、重复实验;
最终目标是理解:二项分布、和的方差、随机变数的标准差;
1 阶乘
4! = 4 * 3 * 2 * 1
排列:考虑顺序
的运算;组合:不考虑顺序
的运算;
从5个人中 选出3个担当不同的职务?
- 排列方式:
A53 = 5*4*3 = 5!/ 2! = 5! / (5-3)!
排列:
- 从不同的n个单位中选出r个的排列的一般式
Anr = n * ... * (n - r + 1) = n! / (n-r)!
0! = 1
组合:
Cnr = Anr / r!
,除以r!
就是在去除r的排列;- 且,
Cnr = Cn(n-r)
,C53= C52;
ABC的排列有6种 但组合只有一种;
A53 = 5! / (5-3)!
C53 = 5! / ((5-3)! * 3!)
从5个顶点中选择3个顶点的情况 = 从5个顶点中选择(或是不选择)余下两个顶点的情况;
C100 98 = C100 2 = 100 * 99 / 2 = 4950
特别的:Cn0 = Cnn = 1
即,从n个单位中选出n个的组合只有一种情况;
2 二项系数
(a + b)^3 = a^3 + 3a^2b + 3ab^2 + b^3
=
(a + b)(a + b)(a + b)
- 相应的
a*a*b
的组合方式 就有1种,排列方式 则有3种,因此得到的对应项是3a^2b
; - 相当于 从3个字符中,选出一个b的情况;
基于此,考虑(a + b)^10
中a^7b^3
项的系数是多少?
- 即,从10个数中选择3个b的情况,
C10 3
结果为120;
二项系数
:
(a + b)^n
中a^(n-k)b^k
项的系数为Cnk
(从n个不同单位中选出k个时的组合数);- 使用二项系数,就可以展开
(a + b)^n
了;
试着求一下
(x - 2y)^8
的展开式中 x3y5的系数吧,使用二项系数是不是很简单!
3 集合 、概率
即,集中在一定范围内的数据,集合中每一个单位被称为“集合的要素”;
注意:范围一定要清晰!
表示集合的方法:
A = {1,2,3,4,6,8,12,24}
A = {x|x为24的正约数}
概率:
- 掷骰子出现偶数的概率
3/6
; - 每掷一次的行为叫做一次
试验
;- 可以反复进行,并且结果具有偶然性的行为;
- 骰子可能出现的所有数字叫
样本空间
;- 某个试验可能得到的所有结果的集合;
- 出现偶数被称为
现象
(也叫事件);- 样本空间的一部分(子集);
概率P(E) = m/n
- m为 事件E中包含的要素数(可能发生的情况数);
- n为 样本空间U中包含的要素数(可能发生的所有情况数);
0 <= m <= n, 0 <= P(E) <= 1;
研究概率问题有一个非常重要的前提:样本空间中每一个要素的发生概率相同;
示例:从装有4个黑球与2个白球的袋子里取两个球,那么这两个球都是黑色的概率?
- 黑球中取俩取法: C42
- 所有中取俩取法: C62
C42/C62
=6/15
小知识:质数,也叫素数,是指“除了自身与1以外,没有约数且大于2的整数”;
如果一个试验中有A与B两个事件,“A与B至少有一个事件发生”的事件被称为A与B的和事件
;“A与B同时发生”的事件被称为积事件
;
二者关系:P(A或B) = P(A) + P(B) - P(A且B)
在A与B之间,其中一方发生时,另一方不可能发生的情况,则A与B相互排斥
,此时P(A且B) = 0
;
示例:袋中装有5个黑球和3个白球,从中取3个球,取出球中同时有黑球和白球的概率?
- 样本空间 C83 = 56
- 被白球同时取出 包含两个事件:
- 取出2黑1白:C52 * C31 = 30
- 取出2白1黑:C51 * C32 = 15
- 而这两个事件不可能同时发生,为互斥事件,因此概率为 (30 + 15)/56;
独立试验
:有/无放回的抽签
- 对于两个试验,一个试验的结果与另一个试验的结果没有关系时,我们就说二者是相互独立试验;
- 独立试验积事件的概率:
P(A且B) = P(A) * P(B)
;
重复试验
:
- 每次独立试验结果对其他结果无影响,反复进行的独立试验,被称为重复试验;
- 在某项重复试验中,事件A发生的概率为P(A),此试验反复n次,事件A发生k次的概率为:
Cnk * P(A)^k * (1-p)^(n-k)
;
示例:连续投掷骰子4次,数字1出现两次的概率?
- 四次中两次1,即C42 = 6种;
- 每种的概率为:
1/6 * 1/6 * 5/6 * 5/6
- 这6中是相互排斥的,因此要求的概率就是 6个概率值的和;
示例:5道4选1的单选题,完全猜,答对一半以上的概率是?
- 答对 5、4、3 三种情况
- 试着自己计算下吧,结果为 106/1024;
4 ∑ 符号、数列
∑ 符号
表示“零散数据的和”(注∑ 读作“西格玛”)- 数列 = “零散数据的排列”
等差数列
- 等差数列一般项:
An = A1 + (n-1)d
, A1为首项, d为公差; - 等差数列和:
Sn = n(A1 + An) / 2
,(初项+末项)* 项数 / 2
:
等比数列
- 等比数列一般项:
An = A1 * r^(n-1)
, A1为首项, r为公比; - 等比数列和:
Sn = n * a1 (r = 1时)
Sn = a1(1 - r^n) / (1 - r) (r != 1时)
大学生最容易忘记的3个公式:点与直线的距离公式、等比数列前n项和、二项式定理;
∑ 符号
的基本性质:
- 分配率:在计算随机变数的平均数与方差时会被频繁运用到;
为了现实中的各种事情可计算,就必须将其数值化,且作为变数来处理;而这种将变数与概率结合的方法就叫做“随机变数”
5 随机变数与概率分布
投掷骰子1次,若出现的数字以X表示,则X是取1~6的整数的“变数”,而X取各个值的概率是一定的;像这样变数X取特定值的概率一定时,X被称作随机变数
;
- X是变数
- X可以取值的范围 一定
- X取特定值的概率 一定
统计学是一门可以把被关注的现象用概率函数加以表现,并进行推算和预测的学问;
随机变数X的值与概率P的关系,被称为概率分布
;即,将随机变数 可以取的值与其概率一一对应起来表示的方法被称为概率分布
对于只取“间隔较大”值的随机变数 被称为离散型随机变量概率分布
;
注意:所有X概率的和为1;
随机变数也有平均值,被称作期待值 E(x)
;
- 一般的x的概率分布表为: x1 p1、 x2 p2 、… xn pn;
- 则随机变数x的平均值(或期待值)
E(x) = ∑i=1,n xi*pi = x1p1 + x2px ... + xnpn
;
随机变数是关于某个事件以一定概率而发生的变数,所以值并非确定;
示例:抽奖袋中有10个红球、20个篮球、30个黄球,抽出红球得600,抽出篮球得300,抽出黄球无奖励,那么,可获得奖金的期待值是多少?
- 使用随机变数求解
- 抽出红球概率
1/6
、篮球2/6
、黄球3/6
; - 设所得奖金的随机变数为X,则X的分布为
X | 0 | 300 | 600 |
---|---|---|---|
概率 | 1/6 | 2/6 | 3/6 |
E(X) = 0 * 3/6 + 300 * 2/6 + 600 * 1/6 = 200
aX + b的平均数:
- 定义随机变数X 的一次函数Y,如何计算Y的平均值;
E(Y) = aE(X) + b
随机变数的方差和标准差:
- 方差variance
V(X) = ∑i=1,n (xi - mean(x))^2 * pi
- 标准差standart
s(X) = √V(X)
- 随机变数方差计算公式:
V(X) = E(X^2) - E(X)^2
, 即平方均值减去均值的平方;
随机变量的方差和标准差表示“随机变量可取值的离散程度”;
对于Y= aX+b:
- V(Y) = a^2 * V(X)
- s(Y) = a * s(X)
随机变数的标准化:
Z = (X - E(X)) / s(X)
(是不是很熟悉! 这不就是减均值 除标准差嘛)- 为什么是这个式子呢
- 计算Z的均值 是0
- 计算Z的标准差 是1
- 那为什么要进行标准化呢
- 只要研究清楚均值0标准差1的随机变数性质,就可以广泛应用;
和的平均值:
- 对于 随机变数X和Y,定义Z= X+Y;
- E(Z) = E(X) + E(Y)
积的平均值:
- Z= X* Y
E(Z)= E(X) * E(Y)
,成立的条件是 X与Y相互独立
和的方差:
V(X + Y) = V(X) + V(Y)
,随机变数相互独立时;
6 二项分布
二项分布:一种离散型数据分布;
一般来说,成功概率为p的试验,独立重复n次后的成功次数为X的概率分布,被称为关于发生概率p、次数为n的二项分布(哪二项,即 p和 1-p),写作B(n, p)
;
X= k(k=0、1、2…n)的概率:(注意k是从0开始的)
- n次重复中k次成功,n-k次失败:
- 成功概率为 p
- 失败概率为 1-p
- 概率为:
Cnk * p^k * (1-p)^(n-k)
对于结果为 成功/失败 胜负 正反等,结果二选一的试验,被称为伯努利试验,在伯努利试验中,已知其中一个结果发生的概率时,此试验重复n次时,其事件的发生次数遵循二项分布;
遵循二项分布的随机变数X的平均值与方差:
E(X) = np
V(X) = np(1-p)
s(X) = √(np(1-p))
最后学习的二项分布,将n放大到无限,就和连续型数据分布中 最重要的正太分布 联系上了;
第5章 分析连续数据的数学
ε
读作 伊普西龙;δ
读作 德尔塔;
极限lim:
- 若x无限放大,则函数f(x)无限接近于定数p,这种情况下,p被称作f(x)的极限值;
欧拉常数e(自然对数的底):
- 考虑数列
bn = (1 + 1/n)^n
- 当
n->∞
时,数列越趋近于一个特定的值(2.718…),一般的这个定数用e表示; - e被称作
欧拉常数
(也被称作自然对数的底);e是无理数;
函数
e^x
在微分之后式子是不变的,即微分之后得到的函数还是e^x
;而积分是微分的逆运算,所以e^x
积分之后的函数也是e^x
; 在用数学探索自然时,一般会构建各种函数的微分或积分,别的函数经过微分或积分,式子都会变化,只有e^x
不发生改变,因此很多问题中都能看到e的身影;
y = e^x 表示的指数函数在x=0时切线斜率为1
x在接近0时,e^x 接近于 1+x这种简单的函数
e = ∑ n=0,∞ 1/n! = 1 + 1/1!+ 1/2!+ 1/3! + ... + 1/n! + ...
欧拉公式:
e^(i*θ) = cosθ + i * sinθ
; 将θ代入π,得到e^(i*π) + 1 = 0
,e是欧拉常数、i是虚数单位、π是圆周率、1是乘法单位元、0是加法单位元,这些非常重要的中心元素之间的关系在这个式子中都得到了表示;
示例:计算 lim h->0 (1 + 2h)^(1/h),结果用e表示;
lim h->0 (1 + 2h)^(1/h)
设 h = 1/n
则 lim h->0 (1 + 2h)^(1/h)
= lim n->∞ (1 + 2/n)^n
= lim n/2->∞ (1 + 1/(n/2))^(2n/2)
= lim n/2->∞ (1 + 1/(n/2))^(n/2)*2
= e^2
1 积分
积分:英语中是Integration,具有整合整理的意思,积分的本质就是将细分后的单位累计(相加)起来;
△
读作“德尔塔”,相当于表示差(Difference),表示有限的差时经常用到;
- 面积
≈ ∑ k=1,n f(xk) * △x
- 将n无限放大,面积就无限接近真实面积了;
- 面积
= lim n->∞ ∑ k=1,n f(xk) * △x
- 为了简化使用
∫
替代了lim
和∑
,读作:sum,是拉丁文summa首字母的拉长; - 面积
= ∫ab f(x) * dx
,dx表示△x
的极限值,a b是x可取的边界值;
f`(a) = lim b->a (f(b) - f(a))/(b - a)
表示点 a,f(a)切线的斜率,同时也被称作 f(x)关于 x=a的微分系数;
示例:证明对很小的h,(e^h - 1)/h ≈ 1
设h = 1/n,h->0时,n->∞
由欧拉常数e的定义: lim n->∞ (1+1/n)^n = e
则, lim h->0 (1+h)^(1/h) = e
将e代入到需要证明的式子中即可;
这个证明代表了:
- 当f(x)=e^x时,关于x=0的微分系数
- y=e^x点 0,1的切线斜率为1
2 在统计学中的应用
- 连续型概率分布的 平均值 方差 标准差、正态分布(概率密度函数)
- 相比离散型概率分布讨论某个特定值的概率,连续型概率分布讨论的重点是数据在x1以上 x2以下的概率;
连续型随机变数与概率密度函数
- 取连续型数据的随机变数Xσμ
- 概率 就是 局部面积比上全部面积,求面积 就要用到积分;
- 使用积分可以将概率密度函数一般化;
概率密度函数:
- 连续型随机变数X取值范围为a到b,其概率P为
P(a<=X<=b) = ∫ab f(x) * dx
(实际就是在计算面积); - 此时,f(x)被称为X的概率密度函数;
概率密度函数性质:
- f(x)总是大于等于0
∫-∞∞ f(x) * dx = 1
- 如果x被限定在a b之间,则
∫ab f(x) * dx = 1
连续型随机变数的平均值和方差
E(X) = ∫ab xf(x) * dx
V(X) = ∫ab (x - u)^2 * f(x) * dx
, u是平均;
这两个可以 通过将 X的概率密度函数图像变成近似于阶梯形状,然后取某个很窄范围内的X值并用其中间值为代表做成随机变数,这样处理后的连续型随机变数X就变成了离散型随机变数
X`
,计算其均值方差而得到;
3 正态分布
呈正态分布的概率密度函数;
大致上,呈现带有误差现象的数据大多可用正态分布来表示;
正态分布的概率密度函数:
- 这个式子很复杂,
f(x) = 1/√(2πσ^2) * e^(-(x-μ)^2/2μ^2)
- σ(西格玛)表示标准差
- μ表示均值
- 这个式子表示 随机变数X呈 平均值为μ、方差为
σ^2
的正态分布,表示为N(μ, σ^2)
标准正态分布:
- 平均数为0,标准差为1的正态分布N(0, 1)被称为标准正态分布;
当随机变数X呈正态分布,则
Z= (X - μ)/σ
- 随机变数Z呈 N(0, 1)的标准正态分布;
- 此时
f(x) = 1/√(2π) * e^(-x^2/2)
,函数曲线呈吊钟型;
正态分布表:
- x在 0~μ 之间的概率是0.4750(查阅正态分布表所得),对应的μ是1.96
- 标准正态分布根据y周对称,因此 -μ~μ之间的概率是 0.950
- 即随机变数Z呈标准正太分布N(0, 1)时,-1.96<=Z<=1.96的面积占全体面积的95%;
推测统计:
- 1.研究样本对母集団做出概率推测的推算;
- 2.针对已知差值,找出产生差值原因的检验;
示例:使用标准差为100g的体重计测体重,某次测量为72kg,推测真实体重的可信度范围
- 仪器测量都会产生误差,这个误差往往符合正太分布,因此可以使用标准正太分布进行推算;
- 真实的体重约等于重复测量之后的平均值μ
- 将数据变形为标准正太分布的数据,
Z= (X - μ)/σ
- 95%可信度的Z取值范围为
[-1.96,1.96]
,X代入72kg,则可以计算u的范围是[71.804,72.196]
- 即,真实体重有95%的可信度在71.804~72.196kg之间;
95%的置信区间:指由样本统计量所构成的总体参数的估计区间;
μ的95%置信区间是a<=μ<=b:是指在母集団中随机检测与这一次相同数量的数据,且用同样的方式重复确定置信区间的话,那么在100次中大概有95次,μ的值落在
[a,b]
之间;
统计学中的检验是一种合理判断数据是否存在异常的手段;一般来说有95%概率发生的事件被视为“发生概率较大”的事件,此外的被视为异常;
示例:上班平均时间30分钟,标准差5分钟,问上班耗时39分钟是否异常?
- 将数据标准化
Z= (X - μ)/σ
- -1.96 <= Z <= 1.96,从而计算X的范围是
[20.2, 39.8]
,因此结果可信;
t检验:
- t检验利用了t分布(实际工作中 标准差是未知的,常用S作为σ的替代值,称为t变换)进行检验;
- t检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。