资讯详情

基于视觉显著性的外观注视估计

Appearance-based Gaze Estimation using Visual Saliency

估计基于视觉显著性的外观注视

Y usuke Sugano, Y asuyuki Matsushita, and Y oichi Sato

【摘要】

本文提出了一个基础,该方法

我们的目标是,该估计器看视频剪辑的人捕获的眼睛

我们的方法视频帧的显著性

我们根据人眼图像的相似性有效地从显著性图中

我们使用从眼睛图像到注视点之间

此外,我们反馈回路,提高凝视估计的准确性。

实验结果表明,该方法适用于不同的人和视频片段,达到了3.5度的准确性足以估计显示器上用户的注意力。

指标项:注视估计、视觉注意、面部和手势识别。

We the saliency maps based on to the gaze points from the saliency maps.

我们根据明显性图,以从显著性图中注视点。

We the eye images the gaze points

我们使了眼睛图像注视点之间

In addition, we use afrom the gaze estimator to the gaze probability maps to improve the accuracy of the gaze estimation.

另外,我们使用凝视估计器为了提高凝视估计的准确性,凝视概率图。

The experimental results show that the proposed method different people and video clips and achieves a 3.5-degree accuracy, estimating a user’s attention on a display.

Index Terms—Gaze estimation, Visual attention, Face and gesture recognition.

实验结果表明,该方法不同的人和视频片段达到3.精度为5度,估计用户在显示器上的注意力。

指标项:注视估计、视觉注意、面部和手势识别。

【介绍】

凝视估计对预测人类注意力非常重要,因此可以用来更好地了解人类活动和交互系统。凝视评估广泛应用于在线内容和数字看板的市场分析、凝视驱动的交互式显示和许多其他人机界面。----------------------------过渡

一般来说,通过一个人来进行。基于相机的遥感方法有两种:基于模型的遥感方法和基于外观的遥感方法。基于模型的方法使用几何眼睛模型及其相关特征。它们使用多个同步摄像头和红外光源等特殊硬件,提取眼睛的几何特性,以确定注视方向。另一方面,基于外观的方法使用商品相机观察到的眼睛的自然外观,而无需任何特殊硬件。对基于相机的凝视估计器进行了各种实现,包括商业产品(最近的调查见[1])。---------简单介绍

在以前的凝视估计器关键挑战是。现有系统中的这些用户总是需要积极参与校准任务,以查看明确的参考点。大多数估算方法面临的另一个问题是校准漂移,这在很大程度上取决于用户和安装设置。在实际应用系统中,有时需要使用交互式局部校准方案,如用户反馈[2]来纠正个人校准错误。在很多情况下,这种主动的个人校准太有限了,因为它会中断自然的互动,无法进行无形的凝视估计。虽然个人校准的参考点数量可以通过使用特殊硬件(如多个光源[3]、[4]、[5]和立体相机[6])来减少,但用户仍然需要积极参与校准任务。

众所周知,凝视方向可以近似估计为光轴方向,而无需个人校准[7]。准[7]。然而,它与视觉轴的偏移(与实际注视方向相对应)可能高达5度[1]和[4],精度因个体而异。更重要的是,这种基于硬件的尝试对应用程序设置增加了强烈的限制,这自然限制了用户场景。

以前的研究目的对明确的。Yamazoe等用户移动眼睛时,使用简单的眼球模型进行凝视估计,并将模型与用户眼睛的外观进行自动校准[8]。Sugano在等人的方法中,本着类似[2]的精神,用户的天然鼠标输入用于基于外观的增量个人校准,无需任何校准说明[9]。

然而,这两种方法只使用单目相机,这些方法仍有一些局限性。Y amazoe由于眼球模型的简化,等人的方法不准确,Sugano等人的方法只能应用于用户输入的交互环境

can be used to better understand human activities systems.

它可以用来更好地理解人类活动系统。

gaze estimation including market analysis of online content and , interactive displays, and many other

凝视评估,包括在线内容和市场分析,交互式显示和许多其他显示

In general, gaze estimation analyzing the appearance of a person’s eyes.

一般来说,分析一个人眼睛的外表凝视估计。

Model-based methods use a geometric eye model and .

几何眼睛模型采用基于模型的方法

Using hardware such as andthey the of an eye the gaze direction.

他们使用硬件,如眼睛的注视方向。 Appearance-based methodsuse the natural appearances of eyes a commodity camera without requiring any hardware. 

另一方面,基于外观的方法使用商品相机的眼睛的自然外观,而不需要任何专用硬件。

专用硬件 use   hardware , require  hardware.

by their eyes on explicit reference points.

让他们的眼睛盯着明确的参考点。

Another problem that most estimation methods is and their calibration accuracy highly depends on the users and

大多数估算方法另一个问题是,其校准精度在很大程度上取决于用户和

An interactive calibration with, user feedback [2] is sometimes required in practical application systems to correct personal calibration errors.

在实际应用系统中,有时需要使用交互式校准用户反馈[2],以纠正个人校准错误。

such active personal calibration is it interrupts natural interactions and makes gaze estimation impossible.

这种主动的个人校准它会中断自然的互动,并且无法进行的凝视估计。

in the class of model-based approaches that the gaze direction the direction of the optical axis without requiring personal calibration [7]. However, the visual axis, the actual gaze direction, 5 degrees [1], [4], and the accuracy varies significantly  

在基于模型的方法中,凝视方向光轴方向,而无需个人校准[7]。然而,它视觉轴实际的注视方向)5度[1],[4],并且精确度

There are previous studies that the need for explicit personal calibration processes. 以前的研究对明确的个人校准过程的需要。

Yamazoe et al. use a simple eyeball model for gaze estimation and perform by the model the appearance of a user’s eye while the user is moving his/her eyes [8].

Yamazoe等人使用一个简单的眼球模型进行凝视估计,并在用户移动眼睛时将模型与用户眼睛的外观相匹配来执行[8]。

In Sugano et al.’s method, in [2], a user’s natural mouse inputs are used for the of the appearance-based gaze estimation without any calibration instructions [9]

Sugano等人的方法中,本着与[2],用户的自然鼠标输入用于基于外观的凝视估计的,无需任何校准说明[9]。

Both methods use only however, these approaches still have some limitations. Y amazoe et al.’s approach suffers from inaccuracy due to the eyeball model, and Sugano et al.’s approach can only be applied to interactive environments with user inputs.

这两种方法都只使用,然而,这些方法仍有一些局限性。Y amazoe等人的方法由于眼球模型而存在不精确性,Sugano等人的方法只能应用于有用户输入的交互环境。

图1 :说明我们的方法。我们的方法使用自底向上方式从视频帧计算的显著性映射来自动构造注视估计器 ------------------------------在视频帧中用自底向上方式 ,计算出中间那个图就是显著性映射(图) ,来自动构造的一个注视估计器

除了这些注视估计研究外,还研究了视觉显著性的计算模型来估计图像上的视觉注意,这是以自下而上的方式计算的。与旨在确定人们眼睛实际看向何处的凝视估计方法不同,从生物学角度来看,,即与周围区域相比,包含独特视觉特征的区域。继Koch和Ullman提出视觉显著性的原始概念【10】之后,在【11】、【12】、【13】、【14】、【15】中提出了各种自下而上的视觉显著性图计算模型。【16】。然而,视觉注意机制尚未被完全理解。众所周知,在自然动态场景下,注视预测变得更加,在这种场景中,高水平的任务和知识对注视控制的影响更大【17】。

-----------------------不研究注视估计了 ,研究视觉显著性的计算模型      --------------------之前的实验都表明 自下而上的视觉显著性&注视位置有关!!!视觉显著性有用!!!!!

these gaze estimation studies, computational models of visual saliency have been studied to estimate the visual attention on an image, gaze estimation approaches that aim to determine where peoples’ eyes actually look, visual saliency computes the image region that is likely to attract human attention.

这些注视估计研究外,还研究了视觉显著性的计算模型来估计图像上的视觉注意旨在确定人们的眼睛实际看向何处的凝视估计方法,视觉显著性计算可能吸引人类注意力的图像区域。

. bottom-up visual saliency fixation locations [16]. However, the visual attention mechanism 自下而上的视觉显著性注视位置【16】。然而,视觉注意机制尚

fixation prediction becomes much more difficult under natural dynamic scenes, a high-level task and knowledgethe gaze control [17]

在自然动态场景下,注视预测变得更加困难,高水平的任务和知识注视控制的【17】

注视估计(自上而下)和视觉显著性(自下而上)模型。尽管如此,

Kienzle等人[18]、[19]提出了一种利用估计数据学习自下而上计算模型的方法。在他们的工作中,视觉显著性,并使用(SVM)学习其系数。

Judd等人【20】以及Zhao和Koch【21】也将这种方法用于不同的功能和更大的数据库。低层图像特征(如颜色和强度)和高层特征(如人脸检测器)的【20】。

在[21]中,通过使用解决来学习

与这些方法不同,从视觉显著性图的集合中创建一个凝视估计器。据我们所知,这是第一次使用视觉显著性作为注视估计的先验信息。

Gaze estimation (top-down) and visual saliency (bottomup) models not many studies that these two subjects. 注视估计(自上而下)和视觉显著性(自下而上)模型多少研究将这两个主题起来。

Kienzle et al. [18], [19] propose a method for learning the computational models of bottom-up visual saliency by using the gaze estimation data.Kienzle等人[18]、[19]提出了一种利用凝视估计数据学习自下而上视觉显著性计算模型的方法。

A visual saliency maptheir work the , and theirare learned using a (SVM). 在他们的工作中,视觉显著性图高斯径向基函数,并使用(SVM)学习其

Judd et al. [20] and Zhao and Koch [21] also use this approach with different features and a larger database. of (e.g., color and) and (e.g., face detector) are learned the SVM in [20]. Judd等人【20】以及Zhao和Koch【21】也将这种方法用于不同的功能和更大的数据库。(如颜色和)和(如人脸检测器)的SVM学习【20】。

In [21], are learned by solving problem using

在[21]中,通过使用解决问题来学习

These approaches learn accurate saliency models using gaze points. In contrast to these methods, our goal is to create a gaze estimator from the collection of visual saliency maps. this is the first work using visual saliency for gaze estimation.

这些方法使用注视点学习精确的显著性模型。与这些方法不同,我们的目标是从视觉显著性图的集合中创建一个凝视估计器。这是第一次使用视觉显著性作为注视估计的

 图1 :说明我们的方法。我们的方法使用自底向上方式从视频帧计算的显著性映射来自动构造注视估计器 ------------------------------在视频帧中用自底向上方式 ,计算出中间那个图就是显著性映射(图) ,来自动构造的一个注视估计器

在本文中,我们提出了,该方法使用计算视觉显著性,如图1所示。

我们的方法的假设。通过视频中的视觉显著性的相关,我们的方法自动学习从眼睛图像到注视点的映射。

我们生成可靠的图,本文称之为,以处理原始显著性图预测精度低的问题。一旦获得了凝视概率图,我们的方法就会学习凝视概率图和眼睛图像之间的关系。 

此外,用于计算视觉显著性图。反馈回路使我们能够从一个角度来看,我们的方法关闭了自下而上的视觉显著性和自上而下的注视估计循环;视觉显著性决定了注视点的可能位置,而注视点反过来又优化了视觉显著性的计算。

我们通过广泛的用户测试证明了我们的方法,并验证了使用视觉显著性进行凝视估计的有效性。

We the saliency maps the similarity of the eye images to produce reliable maps, which we call in this paper, to handle low prediction accuracy of saliency maps.

我们人眼图像的相似性对显著性图进行,生成可靠的图,本文称之为,以处理显著性图预测精度低的问题。

The feedback loop the gaze probability maps the eye images.

反馈回路使我们能够注视概率图和眼睛图像之间的

our method the bottom-up visual saliency and top-down gaze estimates ; the visual saliency determines the likely location of the gaze points, and the gaze points the computation of the visual saliency.

我们的方法了自下而上的视觉显著性和自上而下的注视估计;视觉显著性决定了注视点的可能位置,而注视点视觉显著性的计算。

We our approach through user testing and the of the use of visual saliency for gaze estimation.

我们通过的用户测试了我们的方法,并了使用视觉显著性进行凝视估计的

我们的方法将与任何视频剪辑同步记录的一组眼睛图像作为输入。根据这样的输入,我们的方法自动确定眼睛图像和注视方向之间的关系。

此外,我们的方法不区分测试数据和训练数据,即可以用于

因此,当只需要视频剪辑的凝视估计值时,用户视频剪辑。一旦,只要,我们的凝视估计器就可以

In this manner, the proposed framework leads to a gaze estimation technique that the users the active personal calibration.

通过这种方式,提出的框架产生了一种视线估计技术,该技术可以用户的主动个人校准。

 一般来说,在准确性和系统的可移植性之间

最大限度地减少硬件和校准限制,以开发一种完全环境注视估计技术,这是打开一种专注用户界面新方式的关键因素【22】、【23】。

例如,为了在公共显示器上的电影剪辑上收集凝视数据,电影创作者可能只需要放置一个相机来捕捉观众的眼睛图像。类似地,PC上的电影播放器可以自然地获取凝视数据,以便媒体理解,而无需用户通知。

。我们的方法通过使用眼睛图像作为输入,可以进一步提高凝视估计过程中的标定精度。通过以这种方式关闭校准和估计的循环,这项工作旨在通过日常活动

In general, the accuracya system’s portability exists.

Our system aims atthe hardware and calibration developing a gaze estimation technique, which is a key factor for opening up a new way of attentive user interface [22], [23].

一般来说,在准确性系统的可移植性之间存在一。我们的系统旨在硬件和校准,以开发一种注视估计技术,这是打开一种专注用户界面新方式的关键因素【22】、【23】。

 

这项工作的初步版本见[24]。

陈和季最近介绍了一项密切相关的工作【25】。他们利用视觉显著性图的思想,对观看静止图片的人进行基于模型的凝视估计。虽然陈和纪的方法达到了更高的精确度,允许头部自由移动,但他们的结果依赖于基于模型的设置,在单个图像上记录时间更长。虽然经常讨论的是,当时,从显著性图进行凝视预测

appeared in [24].这项工作的见[24]。

still pictures.静止图片

Chen and Ji’s approach achieves a higher level of accuracy and allows for free head movement, their results rely on a model-based setup with a longer recording time on a single image.

虽然陈和纪的方法达到了更高的精确度,允许头部自由移动,他们的结果依赖于基于模型的设置,在单个图像上记录时间更长。

our system uses an appearance-based estimation a monocular camera.

,我们的系统使用基于外观的估计,单目相机

a gaze prediction from saliency maps is more reliable when using static photographs than when using video clips, our method avoids this problem the aggregation of the saliency maps

当使用静态照片时,从显著性图进行凝视预测比使用视频剪辑时更可靠,但我们的方法通过显著性图的聚合避免了这个问题

在第2节中,我们描述了所提出的,该方法从自下而上的显著性图中自动校准。

第3节描述了从估计的注视点到显著性权重计算的这种反馈回路旨在弥合自上而下的注视点和自下而上的视觉显著性之间的差距,并提高注视估计的准确性。

最后,我们通过在第4节中进行所提出的

我们的结果表明,我们的方法可以达到3.5度的精度,而不需要任何专门的硬件或明确的个人校准过程。

. 本文的组织结构如下

 auto-calibrates 自动校准

This feedback loop the top-down gaze point the bottom-up visual saliency, and improves gaze estimation accuracy.

这种反馈回路旨在弥合自上而下的注视点和自下而上的视觉显著性之间的差距,并提高注视估计的准确性。

Finally, we the proposed method by user tests in Section 4.

最后,我们通过在第4节中用户测试来所提出的方法。

 【2 GAZE ESTIMATION FROM SALIENCY MAPS2基于显著性图的凝视估计】

我们的目标是构造一个没有校准阶段的凝视估计量。

我们的方法:

  1. 假设一个固定的头部        和      用户头部、相机和显示器之间的固定位置准备
  2. 获得从眼睛图像到显示(电脑)坐标上的点的
  3. 在基于外观的注视估计中,表示为我们的目标是在训练数据的情况下估计注视估计函数的参数。
  4. {I1,…,IN}和{e1,…,eN},这些观看具有固定头部位置的视频剪辑的中提取的。第4.1节描述了特征向量e的实现细节;但我们的框架并不依赖于特定的图像特征。。
  5. 为了表达清晰,我们在本文中。在我们的设置中,眼睛图像和视频帧是同步的。。使用该数据集{(I1,e1),…,(IN,eN)},从眼睛图像e∗ 到未知的注视点g∗ 已构建。--------------------- 

 

 

图2:提出方法的说明。

:从输入视频计算显著性图。

:结合显著性图生成注视概率图。

使用注视概率图和相关的平均眼睛图像,学习从眼睛图像到注视点的映射。

通过交叉验证,以提高精度。

显著性提取、

显著性聚合、

估计器构造

特征权重优化,如图2所示。

一旦步骤的注视点估计浓度高于显著性贴图。

  • 通过计算
  • 对所有显著性图进行

使用步骤通过从眼睛图像到注视点的

我们的方法进一步用于显著性计算的。通过优化权重,第四步提高了凝视估计器的准确性。

由此产生的凝视估计器输出用户的任何眼睛图像的注视点。在下面的小节中,我们描述了显著性提取、聚合和估计器构造步骤的细节,并在第3节描述了特征权重优化。

have a higher concentration of gaze point estimates

具有较高的注视点估计集中度

 【   2.1 Saliency Extraction显著性提取   】

该步骤从输入视频帧{I1,…,IN}中提取视觉显著性图。如图3所示,我们的方法采用六个特征来计算显著性图:五个低级别特征和一个高级别特征。

首先将每个帧I分解为多个特征映射F。我们使用常用的,即颜色、强度和方向作为静态特征闪烁和运动作为动态特征。表示灰度亮度,两个颜色通道为红色/绿色和蓝色/黄色差异,是方向为0的2D Gabor滤波器的响应◦, 45◦, 90◦,和135◦, 分别地。

Each frame I is firstmultiple feature maps F . We use commonly-used feature channels, i.e., color, intensity, and orientations and flicker and motion are used in our method.

首先将每个帧I多个特征映射F。我们使用常用的特征通道,即颜色、强度和方向作为静态特征,闪烁和运动作为动态特征。

与前一帧的使用Gabor响应之间的

,即原始图像分辨率的1/2、1/4和1/8。

结果,36个(3个级别×(1个强度+2个颜色+4个方向+1个闪烁+4个运动)) 

The flicker channel indicates from the previous frame, and four motion channels use the between the Gabor responses. The feature maps are computed at three levels of thewhich are 1/2, 1/4, and 1/8 of . As a result, 36 (3 levels × (1 intensity + 2 color + 4 orientation + 1 flicker + 4 motion)) feature maps F are computed

闪烁通道指示与前一帧的,四个运动通道使用Gabor响应之间的。在的三个层次上计算特征映射,即的1/2、1/4和1/8。结果,计算出36个(3个级别×(1个强度+2个颜色+4个方向+1个闪烁+4个运动))特征图F。

然后使用基于图形的视觉显著性(GBVS)从特征图F   计算显著性图【14】。

GBVS算法的计算分为两个阶段:激活和规范化。

首先从特征映射F-------具有突出图像特征

激活图A中的像素分配了更大的值,与特征贴图中的周围区域相比,这些像素具有不同的值。

在GBVS算法中,该计算

对应于, 并且(i,j)和(p,q)之间的

(1111111111111111)式中Ωd表示评估(i,j)和(p,q)之间。、

这样,与周围环境具有更高相异性的节点(=像素)具有更高的转移概率。

因此,(a的光栅扫描向量形式),满足Ωada=da,(22222222222222222222222222),包括Ωa、 F中的显著像素在a中具有较大的值。

 Computation in the GBVS algorithm

GBVS算法的计算

Activation maps A are first computed from the feature maps F to the regions with image features.

首先从特征映射F计算激活映射A,以具有图像特征的区域。

Greater values are assigned to the pixels in activation maps A where they have compared with their surrounding regions in the feature maps.

激活贴图A中的像素分配了更大的值,与特征贴图中的周围区域相比,这些像素具有

In the GBVS algorithm, this computation a form of a steady-state analysis of a GA.

在GBVS算法中,该计算GA的稳态分析形式

Each of GA in feature maps F , and Ωa between nodes (i, j) and (p, q) is defined the two corresponding pixels in F as (1) where Ωd indicatesbetween (i, j) and (p, q).

GA的每个特征映射F中的Ω节点(i,j)和(p,q)之间的aF中的两个对应像素之间的定义为(1)式中Ωd表示(i,j)和(p,q)之

. Therefore, by iteratively computing the da (a vector form of A) of GA

. 因此,通过迭代计算GA的da(a的向量形式)

 

由于生成的激活图通常有许多不重要的峰值,GBVS算法进一步对其进行。-

使用计算出的激活映射A,马尔可夫链GN以类似的方式定义,并具有转移概率Ωn组件:(3333333333333333333333333) 

进一步对其进行归一化以抑制局部极大值

further normalizes them to suppress the local maxima. 

通过如上所述计算,所得以便它们具有较少的重要峰。这些,结果是五个显著性图s(1)~s(5)。 

众所周知盯着脸,尤其是,因为眼睛对人类来说非常突出。

通过这一观察,

Cerf等人[26]提出了一种使。我们可靠的。我们使用欧姆龙公司开发的OKAO视觉库来

,在两个的中心。当检测器仅检测面部而时,例如由于分辨率有限,面部区域的定义。

最后,我们的方法(4444444444444)其中从第j帧计算的第f特征的原始显著性图,用于时间平均的帧数。

这是因为人类无法立即跟踪快速的场景变化,而只有过去的帧用于平滑以考虑延迟。结果,生成了同步的显著图和眼睛图像的对Ds={('s(1)1,…,'s(6)1,e1),…,('s(1)N,…,'s(6)N,eN)}。

a fixed variance

固定方差

temporal  时间

 

尽管,但以确定先前研究中讨论的精确注视点位置【17】。

在本节中,我们描述了

计算出的{s(f)}对视频帧的

虽然显著性图显著性图中的

假设我们,在统计上,这些地图具有,在其他区域具有随机显著性得分。

由于我们假设一个固定的头部位置,之间存在的对应关系;

觉上相似的眼睛图像之间的

因此,通过,我们可以与其他区域相比具

可用作

distinctive visual features

独特的视觉特征

coincide with

符合  重合

has a vivid peak

有一个明显的顶峰

 眼睛图像ei和ej的定义为ws(ei,ej)=exp(−κ2s | | ei− ej | | 2),(5)其中。当两幅眼睛图像的外观相似时,即眼睛图像的注视点接近时,相似度得分ws较高。由于眼睛图像的外观变化对于不同的人来说相当大,等式(5)中κs的最佳值因此,在这项工作中,因子κs是通过ws取值范围间接定义的。更具体地说,通过κs=argminκs | | Ts− det(Ws)| | 2,(6)其中Ws∈ RNs×Ns是使用Ds中随机选择的Ns眼睛图像计算的相似性权重矩阵。Ts是根据经验定义的行列式的目标值,例如,

highly person-dependent.  高度依赖于人

 indirectly defined via。。   通过。。间接定义

The factor κs is determined to adapt to the person-dependency by Eq. (6) via

通过等式(6),确定因子κs以适应人的依赖性。

在计算凝视概率图之前,我们从数据集中了对凝视估计,例如眨眼的眼睛图像。

另一方面,

为了这样的眼睛图像,我们使用(ei)=exp(−αeκ2sVar(ei)),(7),其中αe是加权因子,Var(ei)表示眼睛图像{ei)中的方差−nf,ei+nf}在以i为中心的时间窗口2nf+1上,(88888888888888888888888888888)(999999999999999999999999999)

等式(7)评估眼睛区域的稳定性,并假设在时间窗口期间照明条件没有显著变化。 

由于眼睛图像的外观在眼睛快速移动期间迅速变化,因此当在捕捉到ei时,。通过于预定义阈值τf的眼睛图像,从={('s(1)1,…,'s(6)1,e1),…,('s(1)N 0,…,'s(6)N 0,eN 0)}。 

同步的显著图和眼睛图像的对Ds

a weighting factor,

加权系数,

the variance方差

 

由于Ds’,并且有许几乎,因此,以减少冗余和计算成本。(等式(5)),´e与ei。如果的最高相似度τe.M聚类,则,并根据这些计算它们的

the eye images are according to similarity ws to and

根据相似度ws对眼睛图像进行,以

Using the similarity score (Eq. (5)), each eye image ei is to average eye image ¯e is the most similar to ei.

使用相似性得分(等式(5)),将每个眼睛图像ei到其平均眼睛图像´e与ei最相似

A new cluster is if the highest similarity among all existing clusters is lower than a τe.

如果所有现有聚类中的最高相似度低于τe.M聚类,则一个新的聚类

 

在这些步骤之后,每个特征f的注视概率图p(f)i计算为(1010101010101010101010)

其中s(f)all是所有's(f)1,…'的平均值,在

众所周知,由于在图像具有较,因此[20]、[21]。

用于消除凝视概率图中的中心偏差。如果没有这一点,无论眼睛图像“ei”如何,凝视概率图在中心的值都会更高。

凝视概率图p(f)i也可以有负值。在我们的例子中,只有,因此,我们通过将值归一化到固定范围来使用计算结果。我们再次使用基于图的,以

Without this, the gaze probability map tends to have a higher value at the center of the eye image ¯ei.

only the and therefore, we used the computed results by to a fixed range.

凝视概率图p(f)i也可以有,只有,因此,我们通过将到固定范围来使用计算结果。

 

 ,如等式(11)所示,其中ωf是第f个特征的权重。然后将为一个,我们={('p1,'e1),…,('pM,'eM)}。我们遵循了许多现有的视觉显著性地图模型,并在此步骤中使用

The final gaze probability map ¯pi is computed as of all the feature-dependent maps ¯p(f) as Eq. (11) where ωf is f-th feature. ¯pi is then , and we obtain a dataset Dp = {(¯p1, ¯e1), . . . , (¯pM , ¯eM )}. We followed many existing visual saliency map models and at this step to

最终凝视概率图´pi所有特征相关图´p(f),如等式(11)所示,其中ωf是第f个特征的权重。然后将pi为一个固定的范围,我们得到一个数据集Dp={('p1,'e1),…,('pM,'eM)}。我们遵循了许多现有的视觉显著性地图模型,并在此步骤中使用

 

 然而,经常有人指出,每个特征的贡献并不一致,并且存在一定程度的数据依赖性。,以解决这些问题。第3节讨论了反馈方案。

However, it is often pointed out that each feature, and there is data dependency.

We use a tothe weight parameters to

然而,经常有人指出,每个特征的,并且存在数据依赖性

我们使用权重参数,以

 

显示了六个人获得的凝视概率图'p的示例。每个子图表示表示“e”的

请注意,

因此,我们使用第4节中描述的。虽然在的情况下它们

overlaid dots ,重叠的点

a prototype of the eye images synthesized through the above process, 通过上述过程合成的眼睛图像的原型

to obtain the true gaze points as a reference. ,以获得真实的注视点作为参考

Although the gaze probability maps ¯pi are generated without knowing the actual gaze points, they the actual gaze points.

虽然在不知道实际注视点的情况下生成了注视概率图´pi,但它们与实际注视点

 我们与实际注视点的

图5示出了使用。我们,并我们通过实验获得的所有地面

,即图中,表示

为0.93,原始显著性图的曲线下面积为0.82。这一结果表明,。--------------------------最终的凝视概率图就是经过聚合嘛 所以说聚合过程增强相关性

compare  with 比较

assess the correlation improvement with the actual gaze points. 以评估与实际注视点的相关性改善

Fig. 5 shows the correlation improvement using a receiver operating characteristic (ROC) curve. 图5示出了使用接收机工作特性(ROC)曲线的相关性改进。

sweep扫描

the plots,图,

represents the rate of the pixels in a map above a threshold value. is , which indicates the rate of frames whose saliency value at the gaze point the threshold.

表示,即图中高于阈值的像素的比率。,表示注视点处显著性值阈值的帧的速率。

of the gaze probability maps is 0.93, the raw saliency maps is 0.82. This result shows that the correlationby the aggregation process.

凝视概率图的为0.93,原始显著性图的曲线下面积为0.82。这一结果表明,聚合过程显著

标签: 继电器jqx一62fjqx一64m继电器e112l静态中间继电器412g继电器omronl010k静态中间继电器2hs继电器jqx

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台