资讯详情

CanalScan: Tongue-Jaw Movement Recognition via Ear Canal Deformation Sensing

声道扫描:基于耳道变形传感的舌颚运动识别

摘要

介绍

  1. 多路径反射对耳道形状、智能手机声学传感器和耳道的相对位置高度敏感,难以提取可靠的特性进行识别。我们主要通过双方的努力来解决这个问题。一是设计一种传感器位置检测方法,帮助用户在每次收集声音信号时将智能手机声传感器调整到同一有效区域。二是设计数据转换机制,减少耳道形状多样性和传感器位置差异对接收信号的影响。
  2. 在实际使用中,在两个连续的舌下巴运动、面部表情和头部运动之间进行额外的运动是很常见的。很难区分它们在接收到的多路径反射中引入类似于舌下巴运动的抖动和停顿。为了解决这个问题,我们根据百分位数测量产生的动态阈值来分割运动,并选择使用支持向量域描述(SVDD)选择舌头运动。(To address this, we segment movements based on dynamic threshold generated by a percentile measurement, and select tongue-jaw movements leveraging == Support Vector Domain Description (SVDD). ==)
  3. 我们观察到,人们在同一舌头-下巴运动中表现出不同的模式,运动方式不时略有不同。这使得系统难以识别舌下颌运动的鲁棒性和独立性。为了方便用户独立识别,提高鲁棒性,提高准确性,我们探索了鲁棒性的十二个特点,即用户行为的多样性和运动的不一致性。然后,使用随机森林(RF)分类器识别舌点运动。

我们的主要贡献总结如下:

  • 据我们所知,我们是第一家在现成设备上开发基于舌头下巴运动的人机界面的公司。我们只使用商用扬声器和麦克风来构建主动声纳。通过表示动态耳道变形引起的多路径反射,我们研究了一种新的舌头下巴运动识别方法。
  • 我们设计了一套新技术,包括传感器位置检测和多路径不稳定性降低,克服了多路径反射中耳道形状敏感和传感器位置敏感的缺陷,从其他干扰运动中准确分割和选择舌点运动,设计了一种运动分割方法。 此外,我们还探索并采用了12个特征RF进行分类。
  • 我们将与20名参与者合作CanalScan广泛评估。实验表明,CanalScan94.召回率84%,召回率95.准确率为00%。结果还表明,CanalScan它可以在不需要重新培训或调整的情况下推广给新用户,在各种使用场景和环境下都很强大。

2 相关工作

  • 许多技术需要复杂的特殊硬件和用户佩戴明显的传感器,这在社会上非常尴尬,可能会在公共场合引起不必要的关注。
  • 把传感器放在耳道里会让人感到不舒服,带来安全问题。到目前为止,通过感知耳道识别舌头和下巴运动仍然缺乏高度准确、强壮和非侵入性的解决方案。
  • 相关研究的零一方面是利用耳道声学特性进行身份验证。改装后的耳机和麦克风的基本原理是发送可听信号或不可听信号,状的静态特定性。然而,动态耳道变形是一个相对较新的领域,现有的基于静态模式的工作不能直接应用,因为耳道变形总是伴随着耳机原型的旋转。激励信号位置和方向的变化会带来很大的干扰,使现有工作难以实现高精度传感。
  • 在过去的几年里,许多基于声学的活动传感系统已经在智能手机上开发出来。然而,耳道变形很小,声学特性差异更小,这给准确的感知带来了更多的挑战。
  • 与之前的努力相比,CanalScan仅依靠智能手机上的内置麦克风和扬声器,无需额外的传感器和修改。分析耳道变形的动态声学特性,CanalScan非侵入性舌点运动识别的准确性较高。

3 观察

  • 耳道是一个大约30毫米长的S形椭圆形圆柱体。耳道的形状和体积会随着舌头和下巴的运动而变化。当声学信号发送到耳道时,耳道变形会导致声学反射的变化。
  • 为了了解耳道变形与多径反射的关系,我们在智能手机上进行了实验,智能手机发送16kHz48连续声信号kHz连续收集声反射。我们分别招募了两名志愿者进行下图所示的六种舌点运动。这些舌头和下巴运动是在口腔的不同区域进行的。它们由两个阶段组成:(1)舌头从牙齿后面开始,舔牙齿,到达牙齿前部,下巴随舌头自然移动。(2)舌头回到牙齿后部,下巴回到原来的位置。在实验过程中,我们要求志愿者像电话一样智能收集,并将麦克风和耳机扬声器顶部与耳道入口对齐。特别值得一提的是,志愿者1围绕传感器-耳朵逆时针旋转智能手机135°和140°,然后分别收集两次连续反射。志愿者2围绕传感器逆时针旋转140°,并连续两次收集反射。 在下图中,我们提取了时间窗口中的多路径反射包络,并举例说明了六种舌点运动的振动模式。 我们可以很容易地观察到,每个舌点运动都有一个独特的反射包络模式,如相同的峰数、相同的峰、谷和转折点。这证明了不同舌点运动的可行性是基于耳道多路径反射。 同时,我们可以观察到,从同一运动中收集的两个例子在曲线形状和信号范围上略有不同。此外,当志愿者1从不同角度旋转智能手机的声音传感器时,来自同一动作的包络会有不同的曲线形状和信号范围,如动作3和4。此外,当两名志愿者旋转传感器140时°时,相同动作可能会有不同的曲线形状和信号幅度,例如动作1、3和5。结果表明,动作不一致、声传感器位置差异、耳道形状差异和用户行为多样性。 根据我们的实验,峰谷的出现是由于耳道壁运动方向的改变。曲线形状和信号幅度与耳道形状和传感器的位置有关。因此,为了解决耳道形状的多样性和声学传感器与耳道的相对位置的差异,我们需要修改与耳道形状和传感器位置相关的信息(如曲线形状和峰值范围),并保持运动信息(如峰值和峰谷位置)不变。

4 系统设计

A. 概述

CanalScan将现成的扬声器和麦克风集成到智能设备(如智能手机)中进行舌点运动识别。下图显示CanalScan总体设计主要包括声学信号采集、舌点运动分割、减少多路径反射不稳定性和舌点运动识别四个模块。

  • 在声学信号采集中,智能手机的耳机扬声器和顶部麦克风作为主动声纳,产生听不见的声学信号,并收集其反射。传感器位置检测用于监测声学传感器和耳道之间的相对位置,以帮助用户每次使用它CanalScan将声学传感器放置在同一有效区域。
  • 在舌点运动分割中,我们首先使用动态阈值来分割所有可能的运动帧。然后,我们使用预测训练的支持向量域描述(SVDD)分类器从额外的动作和非舌下动作中选择真实的舌颔动作。
  • 在减少多路径反射不稳定性的过程中,每个舌颔运动的包络段作为输入。我们首先利用动态时间规整(DTW)和高斯混合模型(GMM)对输入信号进行分离。然后,我们利用Kullback-Leibler(KL)散度来生成距离矩阵,该距离矩阵描述了来自输入信号的高斯分量和包络示例之间的相似性。然后,我们从与输入信号的高斯分量最相似的示例中选择高斯分量,并生成目标向量。最后,我们基于最小均方误差(MMSE)将输入信号转换为具有目标向量特征的新信号。
  • 在舌颔运动都是唯一的,并且在不同的用户之间是一致的。使用随机森林(RF)分类器来获得每个舌颔运动的预测概率。CanalScan将最高概率的预测作为可识别的舌颔运动。

B 声音信号采集

  1. 声音信号选择:在选择激励声信号时有几个考虑因素。它应该尽可能听不见,以避免烦扰。16kHz以上的声音是候选音,因为25岁以上的成年人很难听到。大多数智能手机支持48kHz的采样率,因此激励声引号被限制在24kHz以下。然而,扬声器和麦克风在高频下的失真将我们的选择范围缩小到17kHz以下。为了使CanalScan能够兼容各种智能手机,我们发送了16kHz的声音,以克服声波传感器的频率选择性,并收集其在48kHz的反射。
  2. 传感器位置检测:要实现可靠的多路径反射采集,需要满足两个条件。一种是允许传感器收集有效的多路反射,其强度与耳道壁运动的方向、速度和强度相对应。二是每次采集到声学信号时,尽量减少传感器与耳道入口处的相对位置差。请注意,智能手机应按在耳朵上,以避免受到周围环境的干扰。因此,不需要调整声学传感器和耳道入口之间的距离。

大多数现成的智能手机都采用了一个大约1厘米长的细长耳机扬声器,并在耳机内安装了一个较小的内置麦克风。成年人的耳道入口大约有扬声器那么大。因此,应将声学传感器放置在有效区域,以手机耳道内有效的多径反射。换句话说,传感器应该与耳道对齐。但是,要确定耳道入口处与声学传感器之间的相对位置是非常困难的。

我们通过一个简单且高效的机制来解决这个问题。我们允许用户执行预先约定的舌下巴运动。如果在采集的反射信号中出现独特的图案,我们认为这是对齐的。否则,我们认为这是不一致的。具体地说,涉及更大的下巴和舌头运动的动作被用作预先约定的动作。我们通过检查反射包络是否有两个以上的波峰或波谷来确定声传感器是否与耳道对齐,这些波峰或波谷的显著程度高于通过实验观察到的最高峰和最低峰的最大突出度的30%。

为了测量智能手机绕轴旋转的角度,经常需要进行坐标系转换,以解决用户面对不同方向导致的数据变化。但是,坐标系之间的数据转换非常耗时。取而代之的是,我们设计了一个轻量级的算法,可以在不同的面的方向上工作。下图显示了智能手机坐标系、传感器到耳道轴和旋转角度的示例。我们将X-Y平面和重力-Z平面沿智能手机底部的交线定义为旋转的起始方向。我们定义了声学传感器绕耳道轴旋转 α \alpha α度,智能手机绕其Z轴旋转 β \beta β度。当声学传感器与耳道对齐时,传感器到耳道的轴线与智能手机的Z轴平行或几乎平行。我们可以很容易地推导出 α \alpha α等于 β \beta β,也就是起始方向和智能手机X轴之间的角度。因此,我们现在转向获取 β \beta β的问题。幸运的是,安装在现代智能手机上的惯性测量单元可以很容易地获得这样的倾角: β = arctan ⁡ ( g x g y ) + π 2 \beta=\arctan \left(\frac{g_{x}}{g_{y}}\right)+\frac{\pi}{2} β=arctan(gy​gx​​)+2π​ 其中 g x g_x gx​和 g y g_y gy​是X轴和Y轴上的重力分量。重力通常来自加速度计,其中磁力计和陀螺仪帮助从数据中去除线加速度。 根据我们对50个人的实验,将智能手机靠近耳道的舒适姿势(就像打电话)是让智能手机旋转130-140度。通过计算智能手机的旋转角度,指导用户在采集信号时以相同或相似的角度旋转智能手机。因此,在每次采集过程中,可以最大限度地减小声学传感器与耳道之间的相对位置差,减轻不同相对位置对多径反射的影响。

C 舌颔运动分割

舌颔运动分割是一个分两步进行的过程:第一步分割所有候选运动;第二步从其他运动中选择舌颔运动。

  1. 运动分割:舌头和下巴在两次连续的舌下巴运动之间停顿很短的时间来分割。直观地说,我们可以通过检测包络信号中的暂停和巨大抖动来分割运动。我们利用了抖动的一阶导数较高,停顿的一阶导数较低且相对稳定的事实。在某一点超过某一阈值的一阶导数被认为是运动的开始,而在某一点被认为是运动结束后的一段时间内低于某一阈值的一阶导数被认为是运动的结束。阈值 T T T必须足够小,以捕获所有舌颔运动,但又必须足够大,以避免捕获采集信号中的随机噪声。然而,由于运动幅度范围的多样性和噪声的不确定性,找到适合每个人的阈值是极其困难的。因此,我们通过使用百分位数测量过程来确定动态阈值。

给定输入信号一阶导数的绝对值,我们首先计算其强度分布,该分布根据信号强度 α \alpha α的散射强度加权。然后,阈值 T T T可通过 ∫ 0 T I ( a ) d a = A % \int_{0}^{T} I(a) \mathrm{d} a=A \% ∫0T​I(a)da=A%计算得到。下图显示了基于强度分布计算阈值 T T T的示例。在实验研究的基础上,我们将 A A A设置为63%。

  1. 舌下巴运动检测:当在两个连续的舌下巴运动之间切换时,需要额外的舌头和下巴运动。此外,面部表情、头部动作和其他动作在实际使用中也很常规。为了避免较高的计算成本和误分类,我们只采用真实的舌颔运动进行进一步的处理和识别。

下图分别说明了面部表情、头部运动和舌下巴运动这两个连续运动之外额外的运动包络。蓝色虚线标记每个运动的开始和结束。一个关键的观察是舌颔运动有更多的峰值,并且峰值更尖锐。这促使我们使用基于统计的方法来却分六个舌下巴运动和其他动作。我们首先提取代表每个分割运动的特征,包括峰度、标准导数、长度和峰数。然后,我们使用分类器来选择舌颔运动。由于非舌颔运动是不可预测的,并且用有限的样本训练分类器会导致精度有限,因此我们采用了一种单类分类器SVDD。 我们把六个舌颔动作作为一个整体来训练一个舌颔运动班。SVDD确定舌颔运动类的边界,并根据样本落在边界内还是边界外为该类分配样本。之后,丢弃面部表情、头部动作、额外动作和边界外的其他动作,并通过以下建议的技术进一步处理和识别舌下巴动作。具体来说,SVDD的召回率为93.88%,准确率为91.93%,具体描述见第V-E节。

D 降低多径反射的不稳定性

多路径反射对耳道形状和智能手机声学传感器与耳道的相对位置高度敏感。为了克服这些因素造成的多路径反射的不稳定性,便于进行健壮的舌颔运动识别,我们提出了一种数据转换技术。

  1. 设计指南:我们的目标是通过变换函数减少模式不稳定性。这样的转换过程涉及两个设计准则:
  • 相同舌颔运动的数据经过变换后应该更加相似。
  • 不同舌颔运动的数据经过变换后应该是不同的。

基于上述目标和我们在第三节中的讨论,我们的目标是修改与耳道形状和传感器位置相关的信息(例如,曲线形状和峰值幅度),同时保持运动信息(例如,峰数和相对峰谷位置)不变。其基本思想是为每种类型的舌颔运动生成一个具有代表性的目标向量,然后推导出目标向量与采集数据之间的统计关系,最后将采集到的信号变换成具有目标向量特征的新信号。

  1. 数据转换流程:数据转换流程如下图所示。The envelope samples是代表性envelope的随机选择。我们认为新收集的数据 x x x的包络和存储的包络的六个舌颔运动的包络示例 y m y_m ym​是具有不同长度的向量。

我们首先采用DTW方法对其进行处理。在此之后, x x x和 y m y_m ym​是time-aligned。 我们应用高斯混合模型(GMM)将它们表示为 K K K个多元高斯函数的和:

P x = ∑ i = 1 K α i N ( μ i , σ i ) P y m = ∑ j = 1 K β j N ( μ j , σ j ) \begin{aligned} P_{\boldsymbol{x}} &=\sum_{i=1}^{K} \alpha_{i} \mathcal{N}\left(\mu_{i}, \sigma_{i}\right) \\ P_{\boldsymbol{y}_{m}} &=\sum_{j=1}^{K} \beta_{j} \mathcal{N}\left(\mu_{j}, \sigma_{j}\right) \end{aligned} Px​Pym​​​=i=1∑K​αi​N(μi​,σi​)=j=1∑K​βj​N(μj​,σj​)​

其中 N \mathcal{N} N是具有以下约束的正态分布: ∑ i = 1 K α i = 1 , α i ⩾ 0 \sum_{i=1}^{K} \alpha_{i}=1, \alpha_{i} \geqslant 0 ∑i=1K​αi​=1,αi​⩾0并且 ∑ j = 1 K β j = 1 , β j ⩾ 0 \sum_{j=1}^{K} \beta_{j}=1, \beta_{j} \geqslant 0 ∑j=1K​βj​=1,βj​⩾0。

因为我们不知道执行那种舌颔运动,所以我们引入了一个距离矩阵来在存储的模板中找到最相似的组件。具体地说,我们采用Kullback-Leibler(KL)散度来度量两个高斯分量之间地距离。距离矩阵的每个条目 D i , j D_{i,j} Di,j​被计算为:

D i , j = 1 2 [ K L ( N μ i , σ i ∥ N μ j , σ j ) + K L ( N μ j , σ j ∥ N μ i , σ i ) ] D_{i, j}=\frac{1}{2}\left[K L\left(\mathcal{N}_{\mu_{i}, \sigma_{i}} \| \mathcal{N}_{\mu_{j}, \sigma_{j}}\right)+K L\left(\mathcal{N}_{\mu_{j}, \sigma_{j}} \| \mathcal{N}_{\mu_{i}, \sigma_{i}}\right)\right] Di,j​=21​[KL(Nμi​,σi​​∥Nμj​,σj​​)+KL(Nμj​,σj​​∥Nμi​, 标签: omega传感器px329

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台