资讯详情

【翻译】知识图谱增强的IoT流量生成

文章目录

    • 概述
    • 1 介绍
    • 2 背景及问题
    • 3 方法
      • 3.1 知识图构建
      • 3.2 生成器
      • 3.3 判别器
      • 3.4 损失函数和训练
    • 4 实验
      • 4.1 数据集
      • 4.2 性能比较
        • 4.2.1 Baseline
        • 4.2.2 逼真度
        • 4.2.3 应用程序
      • 4.3 增强知识图谱的效果
    • 5 相关工作
      • 5.1 物联网流量分析与建模
      • 5.2 生成网络流量
    • 6 讨论和结论
    • 附录
      • 附录A 基于KGE设备类别预测
      • 附录B 模型训练
      • 附录C 特征分布在真实数据集中

概述

网络流量数据有利于了解物联网(IoT)提高现实世界中物联网服务质量的行为。然而,即使是匿名的个人身份信息,也很少获得大规模的物联网流量数据,隐私问题也阻碍了实际的数据共享。研究人员建议生成合成物联网流量,但未能涵盖物联网设备在现实世界中提供的各种服务。在这项工作中,我们迈出了第一步,通过知识增强生成式对抗网络(GAN)框架产生大规模的物联网流量,通过知识图将语义知识(如位置和环境信息)和网络结构知识引入各种物联网设备。在物联网流量生成的知识和设备类别中,我们机制。然后,我们采用它LSTM捕捉流量序列中的时间相关性与自我注意机制有关。广泛的实验结果表明,我们提出的合成物联网流量数据集在数据保真度和应用方面优于最先进的基线。另外,我们提出的模型只需要在小型真实数据集中进行知识强化训练,就可以生成真实数据。

1 介绍

物联网(IoT)通过将各种传感器、执行器和计算设备连接到互联网,扩大了人类感知世界和与世界互动的方式。随着物联网应用的日益普及,各种设备连接到互联网上,服务于智能能源项目、家庭自动化、制造业、商业等。[9]. 在这种情况下,了解物联网设备的行为,提高基于物联网流量数据的物联网服务质量越来越受到重视。具体来说,物联网流量数据包括用户和物联网设备之间的所有指令和反馈,反映了他们的活动,因此它有助于许多应用程序,包括特定物联网设备的行为分析[3, 18, 隐私泄漏识别[21] 10, 26, 30, 以及物联网设备管理[7, 27, 32, 37]等。

与此同时,无数公司设计的物联网设备的软件标准和框架数量也在增加。与此同时,无数公司为不同的应用设计了越来越多的软件标准和框架,增加了物联网设备和平台的分散性。为了应对这种碎片化,物联网(WoT)致力于将物联网设备与网络技术无缝集成[15],其中物联网流量数据也发挥了重要作用。具体来说,不同平台和应用领域的物联网流量数据有助于物联网了解物联网设备,并提供适当的基于网络的通信机制。例如,通信负荷大的设备(如智能相机)和需要高可靠性的设备(如销售点)需要不同的通信协议[25]。

然而,现有研究中的大多数物联网流量数据集都是在实验室或简单的应用场景中收集的,因为只有少数组织可以获得大规模的物联网流量数据,如互联网服务提供商、物联网服务提供商等。不幸的是,出于隐私考虑,这些组织不愿意分享真实数据。虽然有些组织通过删除个人身份信息来匿名数据集,但这种天真的方法很容易被证明是匿名的(DA)攻击[20,41,44]。在这种情况下,合成物联网流量的生成成为一个有吸引力的解决方案。没有真实的个人身份信息,生成的物联网流量可以保留物联网行为的特征,支持物联网和WoT同时避免隐私泄露。

最近,Nguyen-An等人[29]提出IoTTGen,为智能家居和生物医学物联网环境生成合成流量。该模型需要在流量生成前配置每个物联网设备,其中数据包的大小、端口号、有效载荷和到达时间间隔作为固定参数,实际上应该是动态的。动态生成物联网流量,[36]自动编码器与生成对抗网络(GAN)结合起来,生成对应Google Home Mini该设备已经积极使用了一周的真实流量数据包大小序列。尽管如此,前两项工作在实验室进行了简单的场景实验,这需要设备的具体配置和流量数据的参数。收集具体的配置和参数是不现实的,这限制了前两项工作的应用。因此,在大规模现实数据的基础上,我们首先提出了一个流量生成模型,在多个场景中模拟各种物联网设备的服务。物联网流量的生成可以看作是时间序列生成的一个特殊案例,受设备类别、制造商设计、用户习惯和应用服务的影响。一旦将背景信息引入生成模型,就会提高数据的保真度。在各种背景信息中,设备类别是物联网设备的固有属性,可以在没有隐私问题的情况下,为设备的功能和流量序列的生成提供重要的指导。因此,合成数据集成物联网设备的类别和流量序列是很自然的。由于GAN与不同方式的生成器合作生成多种形式的数据,Lin等人[23]提出DoppelGANger并与特征序列一起生成对象的属性,在几个网络流量数据集中取得了最先进的效果。然而,在物联网流量实验中,DoppelGANger在缺乏背景信息的情况下,生成的数据集省略了罕见的设备类别,未能模拟物联网流量的严重不平衡和稀疏性。

但由于以下原因,产生物联网流量具有挑战性。

  • 现实世界中的物联网流量受到用户、环境和应用程序等复杂因素的影响,这给获取核心背景信息和输入生成模型以保护隐私带来了挑战。
  • 由于物联网设备执行各种功能的通信时间间隔不同,物联网流量序列的长度不同,给学习时间模式带来了挑战。我们的观察表明,除了时域中稀疏的短流量序列外,还有包含数千个元素的长流量序列。由于生成模型需要同时学习序列的长期和短期时间模式,因此生成长序列尤为具有挑战性。
  • 设备类别和特征在流量序列中的分布严重不平衡,给生成真实多样化的合成数据集带来了挑战。

对于物联网设备,背景信息包含语义知识和交互关系,激励我们自然地使用知识图。因此,我们提出了一种增强物联网流量的知识GAN,解决上述挑战。首先,我们通过物联网流量数据和从制造商、供应商和用户那里收集的其他背景信息来构建知识图。然后,我们建立了一个GAN框架同时生成物联网设备类别和流量系列,包括综合生成器和简单的判别器。我们采用了条件机制,将背景知识引入框架,捕捉设备类别对流量序列的影响。最后,我们在物联网流量数据集的现实世界中评估了我们的知识增强GAN,大量实验表明,我们的模型优于五个基线,并且通过将背景知识引入生成器,在小数据集中表现良好。

总之,我们的贡献总结如下。

  • 在学习语义知识和交互特征的同时,我们建立了一个知识图来描述物联网设备的背景信息。
  • 我们提出了物联网流量增强的知识GAN,结合物联网流量生成的知识和设备类别,采用条件机制LSTM和自我注意机制来捕捉流量序列中的长期和短期的时间相关性。
  • 我们在真实世界的物联网流量数据集上进行了实验,我们提出的模型在数据保真度和应用方面优于其他先进基线。该模型还被证明可以通过引入背景知识来生成在小型真实数据集上训练的真实数据。

2 背景及问题

物联网流量数据集可以正式表示为一组对象 S = { O i } i N = 1 S = \{O_i\}_i^{N=1} S={ Oi​}iN=1​,其中 O i O_i Oi​代表第i个物联网设备d_i的数据。对于每个设备,数据 O i = ( C i , T i ) O_i=(C_i,T_i) Oi​=(Ci​,Ti​), C i C_i Ci​代表设备类别, T i T_i Ti​代表网络流量序列。如图1(a)所示,流量序列 T i = { A i j , P i j , L i j } j = 1 M i T_i = \{A^j_i, P_i^j , L^j_i \}^{M_i}_{j=1} Ti​={ Aij​,Pij​,Lij​}j=1Mi​​,其中 M i M_i Mi​是物联网设备 d i d_i di​的流量序列的长度,

image-20220607194611259

图1(a) 物联网设备流量数据

表1列出了三个特征的细节:到达时间间隔 A i j A^j_i Aij​,数据包总数 P i j P_i^j Pij​,以及平均数据包长度 L i j L^j_i Lij​。给定一个现实世界的物联网流量数据集 S S S,我们的目标是用生成模型 G G G生成一个现实的流量数据集 S ^ \hat{S} S^。

生成式对抗网络[14]是一种基于对抗学习的最先进的生成模型,它在一些领域的生成任务中取得了显著的成果[42, 46, 47]。一个典型的GAN有两个组成部分,一个生成器 G θ G_θ Gθ​和一个鉴别器 D j D_j Dj​,它们被交替训练以生成与真实数据相比的假数据。生成器 G θ G_θ Gθ​通过生成与真实数据分布相似的假数据,学会愚弄鉴别器 D j D_j Dj​,鉴别器 D j D_j Dj​学会区分假数据和真实样本,它进行最小-最大竞争,如下所示。 min ⁡ θ max ⁡ ϕ E x ∼ p d [ log ⁡ D ϕ ( x ) ] + E x ∼ G θ [ log ⁡ ( 1 − D ϕ ( x ) ) ] \min _{\theta} \max _{\phi} \mathbb{E}_{x \sim p_{d}}\left[\log \mathrm{D}_{\phi}(\mathrm{x})\right]+\mathbb{E}_{x \sim G_{\theta}}\left[\log \left(1-\mathrm{D}_{\phi}(\mathrm{x})\right)\right] θmin​ϕmax​Ex∼pd​​[logDϕ​(x)]+Ex∼Gθ​​[log(1−Dϕ​(x))] 其中 x x x是样本, p d p_d pd​是真实数据的分布, G θ G_θ Gθ​代表以 m m m为参数的生成器, D j D_j Dj​代表以 j j j为参数的判别器。针对不同的生成任务,我们构建了生成器、判别器和损失函数的各种结构,并为物联网交通数据生成设计了一个特殊的框架。

3 方法

一般来说,物联网交通数据是严重不平衡和稀疏的,这导致了现有生成模型的失败。特别是,基于GAN的模型很容易受到模式崩溃的影响,这意味着尽管在不同的数据上进行了训练,但生成器提供的样本种类有限。为了生成真实的物联网流量,同时避免模式崩溃,由于每个物联网设备的知识图谱嵌入(KGE)是唯一的,我们通过KGE引入物联网设备的背景信息,为GAN模型提供多样化的条件。然后,我们采用条件机制来获取知识和设备类别对流量序列的影响,并使用LSTM和自我注意机制来捕捉序列中的时间相关性。我们提出的模型框架如图2所示,黑色、蓝色和灰色的线条分别代表真实数据、生成数据和噪声的传输。首先,我们从物联网设备的基本信息和网络流量中构建一个知识图谱,并提取每个设备的KGE信息。然后,我们在KGE信息的条件下训练一个生成器 G G G和一个判别器 D D D。生成器 G G G由三个子生成器组成:类别生成器 G C G^C GC、序列长度生成器 G M G^M GM和流量序列生成器 G T G^T GT,它们通过条件机制相互关联。

图2:知识增强的物联网流量生成框架。

3.1 知识图构建

物联网设备的背景信息同时包含语义知识和网络结构,这启发我们自然地采用知识图。为了将信息引入生成模型,我们通过物联网流量数据和其他背景信息构建了一个知识图。首先,我们从制造商、供应商和用户的描述中收集每个设备的基本信息,例如,硬件模型的类型。然后,我们使用一个物联网隐私泄漏量化框架[19],从网络流量中提取用户、平台、位置和环境信息。物联网设备、物联网用户和云平台之间的通信可以通过网络流量包中的源IP地址和目的IP地址来检测,这些IP地址包含网络结构信息。如图1(b)所示,物联网设备被视为知识图谱中的头实体,而用户、平台、位置和环境信息被视为尾实体。下面的三元组给出了几个例子。

  • <device di , manufactured_by, manufacturer: 三星>,
  • <device di , located_in, city: 北京>,
  • <device di , communicate_with, platform: 阿里云>。

最后,我们为知识图谱获取了39,598个实体(包括10187个设备)和133,075个关系,这些关系分为20个类别。然后,我们使用 T r a n s E TransE TransE模型[5]来学习每个物联网设备 d i d_i di​的嵌入 K i K_i Ki​。为了确保嵌入中保留语义信息,我们训练了几个分类器,通过KGE K i K_i Ki​预测设备类别 C i C_i Ci​,大多数分类器的准确率在90%左右,其中的细节见附录A。

3.2 生成器

在物联网流量生成方面,生成器被设计为满足三个主要要求。

1)将物联网网络结构和语义知识引入生成的数据,

2)捕捉设备类别和流量序列之间的相关性,

3)捕捉流量序列的长期和短期时间模式。

为了满足这些要求并避免模式崩溃,我们设计了一个综合生成器,由三个子生成器组成,如图3所示。

对于第一个要求,这三个子生成器通过一个条件机制相互关联。

对于第二个要求,我们将条件机制与设备发生器 G C G^C GC和串联长度发生器 G M G^M GM相结合。

对于第三个要求, G T G^T GT使用一个具有自我注意机制的LSTM来生成基于 C i C_i Ci​和 M i M_i Mi​的流量序列 T i T_i Ti​。

图3:我们提出的用于物联网流量生成的知识增强型GAN的说明。

。我们使用条件机制将物联网网络结构和语义知识引入生成的数据,并捕捉设备类别对流量系列的影响。这些条件在以下表述中呈现。 P ( O ^ i , K i ) = P ( O ^ i ∣ K i ) ⋅ P ( K i ) = P ( C ^ i , T ^ i , M ^ i ∣ K i ) ⋅ P ( K i ) = P ( T ^ i ∣ C ^ i , M ^ i , K i ) ⋅ P ( M ^ i ∣ C ^ i , K i ) ⋅ P ( C ^ i ∣ K i ) ⋅ P ( K i ) \begin{aligned} P\left(\hat{O}_{i}, K_{i}\right) &=P\left(\hat{O}_{i} \mid K_{i}\right) \cdot P\left(K_{i}\right) \\ &=P\left(\hat{C}_{i}, \hat{T}_{i}, \hat{M}_{i} \mid K_{i}\right) \cdot P\left(K_{i}\right) \\ &=P\left(\hat{T}_{i} \mid \hat{C}_{i}, \hat{M}_{i}, K_{i}\right) \cdot P\left(\hat{M}_{i} \mid \hat{C}_{i}, K_{i}\right) \cdot P\left(\hat{C}_{i} \mid K_{i}\right) \cdot P\left(K_{i}\right) \end{aligned} P(O^i​,Ki​)​= 标签: 力传感器bkkl2v传感器传感器hmm1001207g传感器保真

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台