Scalable Time Series Compound Infrastructure(sigmod2020)-锐单电子商城

从患者的物联网体检记录(IoT)传感器维护记录等，以大时间序列的形式留下数字痕迹。这些时间序列对象不仅跨越了很长的时间周期（有时是几年），而且具有间歇性但相关的时间序列测量被长时间的沉默间隔打断。这种流行的数据类型，我们称之为时间序列复合对象(或TSC)，很大程度上忽略了文献。当管理、查询和分析这些大规模的时候TSC在对象的存储库中，会有独特的挑战。这包括适当的相似语义，具有时间错位弹性，有效存储过长和复杂的对象，以及tsc整体索引。我们证明，虽然最先进的时间序列系统有效地索引和搜索传统的时间序列数据，但它不能支持如此大的数量TSC数据。在这项工作中，我们介绍了第一个TSC对象是一流公民管理的综合解决方案。TSCs引入了新的相似匹配语义和紧凑的错位弹性表示。

在此基础上，我们设计了一个支持tb级TSC可扩展存储、索引和查询数据集的分布式索引基础设施Sloth。我们的实验研究表明，对于tb尺度数据集，Sloth查询响应时间比现有系统快一个数量级kNN相似度匹配的查询结果，其平均精度(mAP)精度比现有解决方案高70%。

挑战:

1）TSC-Aware Feature Representation Challenges。需要新的TSC感知特征表示它捕获TSC语义，在整个TSC在对象(测量和差距)中保留特征的位置。

2）TSC-Aware Notions ofSimilarity Challenges

3）TSC-Aware Indexing Challenges 因此，我们必须开发能够感知的东西tsc为了满足按值匹配的双重要求

框架：

SLOTH: DISTRIBUTED INFRASTRUCTURE

TSCs are treated as first-class citizen throughout the infrastructure’s layers ground up starting from storage, indexing, to query processing.

1)TSC-Aware Feature Representation.

为了在TSC要有效地应用这种转换，我们需要解决两个主要问题。一是时间间隔，二是时间错位。

我们首先将TSC每个时间序列对象都是一个单独的例子，同时保持它们的开始时间，以保持间隙语义。然后，我们引入了一个新的例子tsc感知特征提取技术显示不同类型的弹性错位

1.1)

作为第一步，我们设计了一种对错位不敏感，在特征空间中没有高损失的表示。这种表示称为移位不敏感SAX直方图.这些无顺序的直方图并不能帮助我们解决在比较过程中哪些SAX片段应被忽略

This led us to the proposed concept of Locality Preserving Vectorization.

我们提出的技术采用了有效的子向量表示结构TS分为子向量，如图4所示 (b)所示。

Step 2: Shift-Insensitive SAX Histogram.

关注一个子向量，我们现在需要在特征空间中呈现它。我们新提出的移位不敏感SAXHistogram它扩展了众所周知的SAX表示。字母表的大小可以是常量。它不受影响TS因此，我们可以用固定大小的字母频率向量紧凑地表示时间序列，我们称之为移位不敏感SAXHistogram。

它不受TS因此，时间序列可以用固定大小的字母频率向量紧凑地表示，我们称之为移位不敏感SAXHistogram。有了这个直方图，我们可以有任何更多的段落。

Step 3: TSC-Aware Vector Quantization

这一步的目标是进一步实现表达的紧凑性。现在我们已经TS对象转换为子向量shift insensitive sax histograms，我们应用矢量化。

1.2） Proposed TSC-Aware Vector Quantization.

我们现在引入适应标准的策略vector quantization。也就是说，我们不仅会TS对象的子向量映射到对应的对象codebook，相反，它们映射到一切codebookas in Fig. 4 (i).因此，数据库中的每个TS用S表示(S 1)的矩阵

Sloth Storage and Indexing Framework

Sloth hybrid index infrastructure consists of two integrated layers.The top layer targets structure-oriented similarity of the whole compounds with regard to the time alignments. The bottom layer targets content-oriented similarity。底层也维护它们所属的底层TSC元数据信息。这种混合结构可以同时搜索时间和内容TSC空间。它可以有效地支持类似的搜索操作符，如kNN查询。

1）Top Layer: Structural Organization

这一层是基于时间的。在索引构建过程中，它有助于在多个数据分区之间以基于时间的方式改变TSCs的TS对象。

Top Layer: (1) Preprocessing Phase

Top Layer: (2) Time-Based Structure Building 基于时间的结构有两个目标:(1)支持基于结构的相似性，(2)帮助基于时间tsc数据集的TS对象聚类(即索引)。

Top Layer: (3) Piggybacked Quantization Phase使用上面介绍的时间结构TS在对象洗牌之前，我们使这个过程更加智能化。我们创建矢量化资源，从而能够将TS对象转换为它们tsc感知特征表示

Bottom Layer: Structure-Content-Dual Organization.

Bottom Layer: (1) Data Re-Partitioning Phase.这一步的目标是重新定位和调整TS对象，使其能够根据时间进行访问。

Bottom Layer: (2) Local Organization Phase.在存储方面，这一层由数据分区组成，这些分区是原始TS它们支持存储区域的存储区域tsc特征表示，以及元数据信息

SLOTH: QUERY PROCESSING LAYER

我们提出了不同操作符类型的查询处理算法，重点关注kNN类似搜索操作符。

Phase 1: Content-based filtering首先，主服务器以下方式识别数据分区，并将其加载到工作内存中。Now, Sloth starts two level filtering at the bottom layer.

1）First, TS-level structure-based filtering

2）Second, the content-based filtering

Phase 2: TSC-Level filtering.如果主节点没有使用第一层的时间结构进行检查，则使用第一层的时间结构进行检查worker在内存中，它会加载它们。

EXPERIMENTAL EVALUATION

在这两种情况下，Sloth index construction时间比基线快。这是因为基线不仅会发生TS对象转换为iSAX还在每个数据分区的表示TS在对象上构建树结构

这是因为我们在预处理阶段生成的越大。codebook量化期间的距离越多，比较次数就越多。 (a))也因为同样的原因而增加。从图11开始 (b)可见，增加S会稍微增加秒级的响应时间。它还显示，mAP从40%增加到80%。从图11 (c)可以看出，由于量化距离比较次数的增加，增加codeBook大小会影响索引建设时间

总结:本文提出了分布式时间序列相似性查询框架。文章中的主要创新点1）提出了使用Shift-Insensitive SAX Histogram 2)提出使用这种新的时间序列表征方法codeBooke，在实验中可以看出，它可以实现有效的表征压缩，codeBooks增加距离计算时间，导致index建需要更长的时间。3）文中提出的Sloth Storage and Indexing Framework，该分布式框架，新颖点不强。分布式架构本身就是master node 和slave node ，文中提出的两层结构中，down layer主要完成时间序列数据的slave node分布和管理每个节点上分布的时间序列提取的特征。top layer主要实现slave node选择和codeBooks转化。从这两层的功能上看，没有什么特别新颖的分布式结构。当然这种结构本身也是为了适应CodeBooks方式创建的。

总之，文中最大的新颖点时一种新的时间序列表征和codeBooks的应用。

资讯详情

Scalable Time Series Compound Infrastructure(sigmod2020)

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

Scalable Time Series Compound Infrastructure(sigmod2020)

动力学技术KTU1121 USB Type-C 端口保护器的介绍、特性、及应用

最近热搜

历史搜索 清除历史记录

历史搜索清除历史记录