资讯详情

Scalable Time Series Compound Infrastructure(sigmod2020)

从患者的,以大时间序列的形式留下数字痕迹。。这种流行的数据类型,我们称之为时间序列复合对象(或TSC),很大程度上忽略了文献。当管理、查询和分析这些大规模的时候TSC在对象的存储库中,会有独特的挑战。我们证明,虽然最先进的时间序列系统有效地索引和搜索传统的时间序列数据,但它不能支持如此大的数量TSC数据。在这项工作中,我们介绍了第一个TSC对象是一流公民管理的综合解决方案。TSCs引入了新的相似匹配语义和紧凑的错位弹性表示。

。我们的实验研究表明,对于tb尺度数据集,Sloth查询响应时间比现有系统快一个数量级kNN相似度匹配的查询结果,其平均精度(mAP)精度比现有解决方案高70%。

挑战:

1)TSC-Aware Feature Representation Challenges。需要新的TSC感知特征表示它捕获TSC语义,在整个TSC在对象(测量和差距)中保留特征的位置。

2)TSC-Aware Notions ofSimilarity Challenges

3)TSC-Aware Indexing Challenges 因此,我们必须开发能够感知的东西tsc为了满足按值匹配的双重要求

框架:

SLOTH: DISTRIBUTED INFRASTRUCTURE

1)TSC-Aware Feature Representation.

为了在TSC要有效地应用这种转换,我们需要解决两个主要问题。一是时间间隔,二是时间错位。

我们首先将TSC每个时间序列对象都是一个单独的例子,同时保持它们的开始时间,以保持间隙语义。然后,我们引入了一个新的例子tsc感知特征提取技术显示不同类型的弹性错位

1.1)

作为第一步,我们设计了一种对错位不敏感,在特征空间中没有高损失的表示。这种表示称为移位不敏感SAX直方图.这些无顺序的直方图并不能帮助我们解决在比较过程中哪些SAX片段应被忽略

This led us to the proposed concept of Locality Preserving Vectorization.

我们提出的技术采用了有效的子向量表示结构TS分为子向量,如图4所示 (b)所示。

Step 2: Shift-Insensitive SAX Histogram.

关注一个子向量,我们现在需要在特征空间中呈现它。我们新提出的移位不敏感SAXHistogram它扩展了众所周知的SAX表示。字母表的大小可以是常量。它不受影响TS因此,我们可以用固定大小的字母频率向量紧凑地表示时间序列,我们称之为移位不敏感SAXHistogram。

时间序列可以用固定大小的字母频率向量紧凑地表示,我们称之为移位不敏感SAXHistogram

Step 3: TSC-Aware Vector Quantization

这一步的目标是进一步实现表达的紧凑性。现在我们已经TS对象转换为子向量shift insensitive sax histograms,我们应用矢量化。

1.2) Proposed TSC-Aware Vector Quantization.

我们现在引入适应标准的策略vector quantization。也就是说,我们不仅会TS对象的子向量映射到对应的对象codebook,相反,它们映射到一切codebookas in Fig. 4 (i).因此,数据库中的每个TS用S表示(S 1)的矩阵

Sloth hybrid index infrastructure consists of two integrated layers.底层也维护它们所属的底层TSC元数据信息。这种混合结构可以同时搜索时间和内容TSC空间。它可以有效地支持类似的搜索操作符,如kNN查询。

1)Top Layer: Structural Organization

这一层是基于时间的。在索引构建过程中,它有助于在多个数据分区之间以基于时间的方式改变TSCs的TS对象。

Top Layer: (1) Preprocessing Phase

Top Layer: (2) Time-Based Structure Building 基于时间的结构有两个目标:(1)支持基于结构的相似性,(2)帮助基于时间tsc数据集的TS对象聚类(即索引)。

Top Layer: (3) Piggybacked Quantization Phase使用上面介绍的时间结构TS在对象洗牌之前,我们使这个过程更加智能化。我们创建矢量化资源,从而能够将TS对象转换为它们tsc感知特征表示

Bottom Layer: Structure-Content-Dual Organization.

Bottom Layer: (1) Data Re-Partitioning Phase.这一步的目标是重新定位和调整TS对象,使其能够根据时间进行访问。

Bottom Layer: (2) Local Organization Phase.在存储方面,这一层由数据分区组成,这些分区是原始TS它们支持存储区域的存储区域tsc特征表示,以及元数据信息

SLOTH: QUERY PROCESSING LAYER

我们提出了不同操作符类型的查询处理算法,重点关注kNN类似搜索操作符。

Phase 1: Content-based filtering首先,主服务器以下方式识别数据分区,并将其加载到工作内存中。Now, Sloth starts two level filtering at the bottom layer.

1)First, TS-level structure-based filtering

2)Second, the content-based filtering

Phase 2: TSC-Level filtering.如果主节点没有使用第一层的时间结构进行检查,则使用第一层的时间结构进行检查worker在内存中,它会加载它们。

EXPERIMENTAL EVALUATION

在这两种情况下,Sloth index construction时间比基线快。这是因为基线不仅会发生TS对象转换为iSAX还在每个数据分区的表示TS在对象上构建树结构

这是因为我们在预处理阶段生成的越大。codebook量化期间的距离越多,比较次数就越多。 (a))也因为同样的原因而增加。从图11开始 (b)可见,增加S会稍微增加秒级的响应时间。它还显示,mAP从40%增加到80%。

slave node ,文中提出的两层结构中,down layer主要完成时间序列数据的slave node分布和管理每个节点上分布的时间序列提取的特征。top layer主要实现slave node选择和codeBooks转化。从这两层的功能上看,没有什么特别新颖的分布式结构。当然这种结构本身也是为了适应CodeBooks方式创建的。

标签: ts03s型传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台