??作者简介：大家好我是hellobigorange,你可以叫我大橘子 ??本文摘要：本文介绍了两个时间序列（信号）的相关性分析，可以通过相关性分析进行特征筛选。此外，本文还讨论了如何判断时间序列的滞后性。

文章目录

1、分析数据的相关性和滞后性的必要性

1.1 相关性

1.2 滞后性

二、相关分析

2.1 皮尔逊相关系数

2.2 负荷相关性分析_python实现

2.2 灰色关联度分析

2.3 其他方法

三、滞后性

3.1 TLCC

3.2 互相关性

参考链接

1、分析数据的相关性和滞后性的必要性

1.1 相关性

在使用机器学习模型训练数据时，需要考虑数据量和维度。在许多情况下，它不需要大量的数据和大量的数据维度，这将导致机器学习模型运行缓慢，消耗硬件设备。此外，当数据维度较大时，仍存在维度灾难的问题。在开展特色工程时，数据的降维方法有两种

特征降维：例如，主成分分析方法(PCA)破坏数据的原始结构，从而提取数据的主要特征

特征选取：选择数据的属性，按照一定的规则达到降维的目的。
- 相关性分析：由于变量(标签列)的相关性，分析特征和相关性强。
- 方差：如果方差太小，说明特征整体变化不大，可以消除。

1.2 滞后性

有时特征滞后一段时间，得到一个新的特征，它可能与目标变量有更强的相关性个人理解，一般特征变量，你有足够的专业知识或推断认为它可能滞后，再考虑一下这个问题。

例如，我最近做的管道的入口压力和出口压力都是由传感器同时收集的，但由于管道有一定的长度，出口压力可能比入口压力传输延迟。另一个例子是，在产量对负荷的影响下，产量数据不是实时统计的，特征统计也可能存在滞后问题。

二、相关分析

欧式距离：适用于距离测量.

2.1 皮尔逊相关系数

统计学中，皮尔逊相关系数（pearson correlation coefficient）用于测量两个变量X和Y之间的线性相关性，其值介于-1和1之间。该系数广泛应用于测量两个变量之间的线性相关性。

1、本文采用Pearson相关系数考察各种因素x_i对因变量y相关系数按公式(3)计算

2.两个变量之间的相关性可以变量之间的相关性，但必须进行显着性检验最后判断。其显著性检验公式为 3、评判标准: 若r>0表示两个变量正相关，即一个变量值越大，另一个变量值越大；若 r＜0，表明两个变量是负相关的，即一个变量值越大，另一个变量值越小。r 的绝对值越大表明相关性越强。 直观感受不同Pearson图像对应于相关系数

2.2 负荷相关性分析_python实现

"data.csv"  最大负荷，常住人口，人均收入，GDP,农业总值、工业总值、第三产业产值、年平均温度、年降水、年售电量  21.2,6.8,3752,2.21,2.4,11.5,21,15.9,998.5,0.9  22.7,7,3897,2.78,2.43,11.8,22,15.6,995.2,0.98  24.36,7.15,4058,3.05,2.67,12.14,22.7,16.4,1002.6,1.1  26.22,7.28,4237,3.82,1.85,12.2,23,17.1,1237,1.23  28.18,7.42,4552,4.34,2.36,13,24.4,16.1,1170,1.36  30.16,7.55,4998,5.86,2.88,13.6,25.4,16.6,1001.3,1.49  86.6,10.23,22760,84.94,31,72,73,16.2,1232.5,5.41

""" DataFrame.corr(method='pearson', min_periods=1) 参数说明： method：可选值为{pearson’, ‘kendall’, ‘spearman’} pearson：Pearson用相关系数来衡量两个数据集是否在一条线上，即对于线性数据的相关系数计算，对于非线性数据会有误差。 kendall：用于反映分类变量相关性的指标，即非正态分布数据 spearman：非线性、非正态分布数据的相关系数 min_periods：样本最少的数据量 返回值：各类型之间的相关系数DataFrame表格。 kendall：用于反映分类变量相关性的指标，即非正态分布数据 spearman：非线性、非正态分布数据的相关系数 min_periods：样本最少的数据量 返回值：各类型之间的相关系数DataFrame表格。""" data = pd.read_csv("data.csv") data.corr()

结果分析：下图显示了各特征之间的相似性分析。第一列是各特征与因变量的关系，显示年平均降水量与年降水相关性较低。与之前的灰色相关性分析相比，结果差异太大。经过思考，应该是灰色相关性无限大纲处理的问题MinMaxScaler或者StandardScaler后来，结果相似.

2.2 灰色相关性分析

灰色关联分析适用于探索非线性相关性。灰色关联分析是指定量描述和比较系统发展变化趋势的方法，其基本思想是通过确定参考数据列和多个比较数据列来确定几何形状的相似性判断其联系是否紧密，它反映了曲线间的关联程度。

我以前写过一篇GRA文章：灰色关联度分析法：灰色关联度分析法：灰色关联度分析法：灰色关联度分析法(GRA)_python

2.3 其他方法

时间序列相似度综述

三、滞后性

3.1 TLCC

TLCC算法: 将其中一个时间序列y2滞后-k——k阶，另一个时间序列y1一起计算pearson系数。假设i阶相关性最强，说明y2滞后y1有i阶；若i<0，则y2超前y1有i阶。

3.2 互相关性

互相关性 np.correlate: 主要原理是时间序列y2滞后-k——k阶，时间序列y1计算点积和(主要看方向性。如果相关性最强，序列的正负方向一致，此时点积应该是最大的)。如果第一阶的点积和最大点，则表示y2滞后y1有i阶，若i<0，则y2超前y1有i阶。方法二详细原理参考：互相关（cross-correlation）及其在Python中的实现代码

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

"""原始数据"""
x = np.linspace(0, 20, 100)
y1 = np.sin(x)
y2 = np.sin(x + 1)
plt.plot(x, y1)
plt.plot(x, y2)
plt.legend(['y1', 'y2'])
plt.show()

"""利用pearson计算滞后性"""
# 从图中可以看出y2滞后5阶
data_cor = pd.DataFrame(np.array([y1, y2]).T, columns=['y1', 'y2'])
for i in range(-10, 10):
    data_cor[str(i)] = data_cor['y2'].shift(i) 
data_cor.dropna(inplace=True)
p = data_cor.corr()
print("person相关系数：\n", data_cor.corr())
plt.plot(range(-10, 10),data_cor.corr().iloc[0][2:].values)
plt.legend(['y1', 'y2'])
plt.title('pearson')
plt.xlabel('y2-lag_order')
plt.show()

"""利用互相关性计算滞后性"""
a = np.correlate(y1, y2, mode="same")
print("y1滞后y2：", len(a) // 2 - a.argmax())  # 若为负数，说明y1超前y2
# plt.plot(x[:-5],y1[5:]) # 结论y1超前y2五个单位。将y1时间向前错位即可重合

结果分析: 原始序列: pearson,可以看出y2滞后y1有5阶的时候, pearson相关性最强. 通样滞后5阶时自相关点积和最大.

参考链接

【1】机器学习相关性的度量【2】皮尔逊(Pearson),二维相关性分析(TDC),灰色关联分析,最大信息系数(MIC) 【3】互相关（cross-correlation）及其在Python中的实现【4】利用时序相关性分析和聚类提升销量预测模型【5】如何确定两个时间序列是否存在相关性【6】时间序列联动分析【7】有哪些有效的可以衡量两段或多段时间序列相似度的方法？【8】机器学习_各种距离度量总结

资讯详情

时间序列—相关性和滞后性分析_python

文章目录