??:大家好我是hellobigorange,你可以叫我大橘子 ??:本文介绍了两个时间序列(信号)的相关性分析,可以通过相关性分析进行特征筛选。此外,本文还讨论了如何判断时间序列的滞后性。
文章目录
- 1、分析数据的相关性和滞后性的必要性
- 1.1 相关性
- 1.2 滞后性
- 二、相关分析
- 2.1 皮尔逊相关系数
- 2.2 负荷相关性分析_python实现
- 2.2 灰色关联度分析
- 2.3 其他方法
- 三、滞后性
- 3.1 TLCC
- 3.2 互相关性
- 参考链接
1、分析数据的相关性和滞后性的必要性
1.1 相关性
在使用机器学习模型训练数据时,需要考虑数据量和维度。在许多情况下,它不需要大量的数据和大量的数据维度,这将导致机器学习模型运行缓慢,消耗硬件设备。此外,当数据维度较大时,仍存在维度灾难的问题。 在开展特色工程时,数据的降维方法有两种
1.2 滞后性
有时特征滞后一段时间, 得到一个新的特征, 它可能与目标变量有更强的相关性个人理解,一般特征变量, 你有足够的专业知识或推断认为它可能滞后, 再考虑一下这个问题。
例如,我最近做的管道的入口压力和出口压力都是由传感器同时收集的,但由于管道有一定的长度,出口压力可能比入口压力传输延迟。 另一个例子是,在产量对负荷的影响下,产量数据不是实时统计的,特征统计也可能存在滞后问题。
二、相关分析
欧式距离:
适用于距离测量.
2.1 皮尔逊相关系数
统计学中,皮尔逊相关系数
(pearson correlation coefficient)用于测量两个变量X和Y之间的线性相关性
,其值介于-1和1之间。该系数广泛应用于测量两个变量之间的线性相关性。
1、本文采用
Pearson相关系数
考察各种因素x_i
对因变量y
相关系数按公式(3)计算2.两个变量之间的相关性可以变量之间的相关性,但必须进行
显着性检验
最后判断。其显著性检验公式为 3、评判标准
: 若r>0表示两个变量正相关,即一个变量值越大,另一个变量值越大;若 r<0,表明 两个变量是负相关的,即一个变量值越大,另一个变量值越小。r 的绝对值越大表明相关性越强。直观感受不同Pearson图像对应于相关系数
2.2 负荷相关性分析_python实现
"data.csv" 最大负荷,常住人口,人均收入,GDP,农业总值、工业总值、第三产业产值、年平均温度、年降水、年售电量 21.2,6.8,3752,2.21,2.4,11.5,21,15.9,998.5,0.9 22.7,7,3897,2.78,2.43,11.8,22,15.6,995.2,0.98 24.36,7.15,4058,3.05,2.67,12.14,22.7,16.4,1002.6,1.1 26.22,7.28,4237,3.82,1.85,12.2,23,17.1,1237,1.23 28.18,7.42,4552,4.34,2.36,13,24.4,16.1,1170,1.36 30.16,7.55,4998,5.86,2.88,13.6,25.4,16.6,1001.3,1.49 86.6,10.23,22760,84.94,31,72,73,16.2,1232.5,5.41
""" DataFrame.corr(method='pearson', min_periods=1) 参数说明: method:可选值为{pearson’, ‘kendall’, ‘spearman’} pearson:Pearson用相关系数来衡量两个数据集是否在一条线上,即对于线性数据的相关系数计算,对于非线性数据会有误差。 kendall:用于反映分类变量相关性的指标,即非正态分布数据 spearman:非线性、非正态分布数据的相关系数 min_periods:样本最少的数据量 返回值:各类型之间的相关系数DataFrame表格。 kendall:用于反映分类变量相关性的指标,即非正态分布数据 spearman:非线性、非正态分布数据的相关系数 min_periods:样本最少的数据量 返回值:各类型之间的相关系数DataFrame表格。""" data = pd.read_csv("data.csv") data.corr()
下图显示了各特征之间的相似性分析。第一列是各特征与因变量的关系,显示年平均降水量与年降水相关性较低。与之前的灰色相关性分析相比,结果差异太大。经过思考,应该是灰色相关性无限大纲处理的问题
MinMaxScaler
或者StandardScaler
后来,结果相似.
2.2 灰色相关性分析
灰色关联分析适用于探索非线性相关性。灰色关联分析是指定量描述和比较系统发展变化趋势的方法,其基本思想是通过确定参考数据列和多个比较数据列来确定几何形状的相似性
判断其联系是否紧密,。
我以前写过一篇GRA文章:灰色关联度分析法:灰色关联度分析法:灰色关联度分析法:灰色关联度分析法(GRA)_python
2.3 其他方法
时间序列相似度综述
三、滞后性
3.1 TLCC
TLCC算法
: 将其中一个时间序列y2
滞后-k——k阶,另一个时间序列y1
一起计算pearson
系数。假设i阶相关性最强,说明y2滞后y1有i阶;若i<0,则y2超前y1有i阶。
3.2 互相关性
互相关性 np.correlate:
主要原理是时间序列y2
滞后-k——k阶,时间序列y1
计算点积和
(主要看方向性。如果相关性最强,序列的正负方向一致,此时点积应该是最大的)。如果第一阶的点积和最大点,则表示y2滞后y1有i阶,若i<0,则y2超前y1有i阶。 方法二详细原理参考: 互相关(cross-correlation)及其在Python中的实现
参考链接
【1】机器学习相关性的度量 【2】皮尔逊(Pearson),二维相关性分析(TDC),灰色关联分析,最大信息系数(MIC) 【3】互相关(cross-correlation)及其在Python中的实现 【4】利用时序相关性分析和聚类提升销量预测模型 【5】如何确定两个时间序列是否存在相关性 【6】时间序列联动分析 【7】有哪些有效的可以衡量两段或多段时间序列相似度的方法? 【8】机器学习_各种距离度量总结