人机交互定义

客观刺激物本身的特征
- 客观事物强度大，对比明显，容易成为个体的知觉对象
- 接近空间，连续，客观刺激的形状很容易成为感知对象
- 在相对静止的背景下运动的客观事物很容易成为知觉对象
- 客观事物维度变化多的刺激,容易成为知觉对象
主观因素主观因素
- 知觉者的需求和动机、愿望和要求、现有的知识和经验等

整体性

事物本身的变化

人们根据自己的知识和经验，将直接作用于感官客观事物的各种属性整合到统一的组织加工过程中

个体优先加工整体水平，然后加工局部水平
知觉的完整性也体现在对整体的部分依赖上

由不同部分组成的知觉对象具有不同的属性.然而，人们并不把感知对象感知为个别孤立部分，而是总是把他感知为一个统一的整体.

根据个别属性或部分特征感知熟悉的对象，根据经验判断其他特征,从而产生整体感知
在有这样的经验的情况下，提高了人们的知觉能力(前提)

格式塔心理学

当感知对象是一个没有经验或不熟悉的特征和元素时，感知更多地转移感知对象的特征，并将其组织成一个具有一定结构的整体，即感知的组织.

当视觉中出现不完整的因素时，视觉系统往往会将其完整，形成相对简单、稳定、正式的图形

简单的法律-视野中有简单结构的部分，容易形成图形

简单的图形组合不被视为复杂的图形组合

相邻律-相似距离的物体很容易组织在一起

界面设计，同样的元素放在一起，不需要额外的线框

物理属性(颜色、形状、纹理)相似的物体容易组织在一起

消除游戏；五子棋

连续律-倾向于将经历最小变化或最小阻断的直线或光滑曲线感知为一个整体

手写输入帕金森病人，IBM logo

闭合律倾向于补充缺陷的轮廓，使知觉完全封闭

虚线图形—

视野中对称的部分容易形成整体图形

协变律—同一运动趋向的元素会被归在一起

理解性

观察者的变化

在知觉过程中，人们不是被动地写下知觉对象的特征，而是根据过去的知识和经验，努力解释知觉对象，使其具有一定的意义

知觉过程可视为假设检验过程.
本质是旧经验与新刺激建立多维、多层次的联系，以确保全面、深刻的理解
理解也有助于知觉的选择性和完整性（因为它们都依赖于经验）
知识经验是理解过程中的关键

x光图对于不懂的人没有义;对于医生来说可以看出病变

恒常性

观察条件的变化

当客观条件在一定范围内改变时,人的知觉映像在相当程度上却保持着他的稳定性

形状恒常性—对物体形状的知觉不因他在视网膜上投影的变化而变化
大小恒常性—在一定范围内,个体对物体大小的知觉不完全随距离变化而变化,也不随着视网膜上视觉图像大小的变化
明度恒常性—当照明条件改变时,人知觉到的物体相对明度保持不变
颜色恒常性—有颜色的物体当其表面颜色受到照明灯条件的影响而改变时,个体对颜色的知觉不因色光改变而改变,趋于保持相对不变

知觉恒常性是可影响的,影响种子蕨恒常性最重要的因素是视觉线索,即环境中的参照物

交互设备

文本输入:键盘,手写输入设备—手写板

图像输入:扫描仪(二维,三维),摄像头

动捕设备

基本工作原理

在运动物体的关键部位设置跟踪点,由系统捕捉跟踪点在三维空间中运动的轨迹,再经过计算机处理后,提供给用户物体的运动数据

在动画制作中，动画师可以将数据与动画角色合成，生成动画，然后很方便地在计算机中调整、控制运动的物体。动捕系统基本工作原理

应用领域远远超出了动画制作，并在虚拟现实、游戏、人体工程学研究、模拟训练、生物力学研究等
分为机械式,电磁式,光学式

机械式

依靠机械装置来跟踪和测量运动轨迹.利用可伸缩的机械结构安装于捕捉物体上,以取得各部分的运动量.

优点

捕捉范围大
成本低,便宜
精度相对较高
可以做到实时数据测量
数据的捕捉相对简单
感应器不会闭塞
可以对多个对象进行同时捕捉

缺点

硬件笨重,使用不便
系统样本速率低
系统对人体骨骼有制约
较难用于连续动作的实时捕捉
巨大缺陷—依靠电位计的系统不能测量空间的位移

电磁式

比较常用.由发射源,接收传感器和数据处理单元组成

优点

记录六维信息,可以得到空间位置,方向信息等
速度快,实时性好,动画系统中角色模型可以与表演者同时反应
装置定标简单,技术成熟,成本相对较低

缺点

对环境要求严格,表演场地附近不能由金属物品
允许的表演范围比光学式小,电缆对活动限制比较大
不适用于比较剧烈的运动和表演

光学式

利用计算机视觉原理,通过两部摄像机,对目标上特定光点进行监视和跟踪

包括动作捕捉镜头,数据采集网络,用于数据处理的高性能工作站

优点

表演者活动范围大,无电缆,机械装置的限制,表演者可以自由表演,使用方便
采样速率高,可以满足多数高速运动测量的需要

缺点

系统价格昂贵,后处理工作量大
对场地光照,反射有要求
运动复杂时需要人工干预后处理过程

Kinect

3D体感摄像机,有动态捕捉,影像辨别,麦克风输入,语音辨识等功能

是对人机交互方式的变革

传统人机交互方式—图形用户界面,需要用户学习预先设置的操作并在显示设备上交互
Kinect—自然用户界面,通过动作,手势,语音进行交互

基于管道的系统架构

深度流—骨骼跟踪
- 深度成像,用户数据分割,骨骼跟踪
颜色数据流—身份识别
- 人脸识别,动作识别
音频流—语音识别处理
- 音频处理(回声,噪声),定位,语音识别

多通道交互技术

在多通道交互中,用户使用语音,手势,眼神,表情等多种方式与计算机系统进行通信.主要研究多通道交互界面的表示模型,评估方法以及多通道信息的融合等

多通道交互系统

根据交互设备的性能及优缺点,根据系统需要选择交互设备,设计支持多通道的人机交互系统

交互技术

人机交互技术发生的历史以及发展趋势

输入设备和交互任务

定位

确定平面坐标

直接定位—使用定位设备指定位置
间接定位—使用定位设备的运动控制屏幕上的映射光标

输入设备

直接—光笔,触摸屏
间接—鼠标,光杆,操纵杆,方向键

笔划

输入一组顺序的坐标点,多次定位输入

方式—直接,间接
设备—鼠标,轨迹球,图形输入板

定值

定值\数值输入,用于设置比例因子,角度等

直接输入数值,字符串取值,比例尺等

设备—旋钮,键盘,鼠标

选择

单个元素选择—在选择集合中选出一个元素,通过注视,指点或解除等

区域选择—选择一组元素或一个区域,通过区域选择工具

选框,套索等

字符串

输入方式

键盘,手写,语音等

设备

键盘,光笔,声音识别器等

界面设计

命令行

用户输入文本命令,系统以文本的形式响应

缺点

界面和应用没有分开
用户需要记忆命令,且输入命令需遵循语法规则
界面不友好,难以学习,交互自然性差

优点

适合熟悉专业用户使用,工作效率高

文本菜单

用户在有限选项中识别和选择

缺点

菜单层次过多,选项过于复杂,用户必须逐级选择,不能一步到位,交互过程慢

图形用户界面

及WIMP界面,由窗口,图标,菜单,指点设备四位一体,形成桌面

特点—以窗口管理系统为核心,使用键盘鼠标作为输入设备

窗口管理系统基于可重叠多窗口管理技术,以事件驱动技术为核心

三个重要思想

桌面隐喻
- 在用户界面使用人们熟悉的桌面上的图例清楚地表示计算机可以处理的能力
  - 图形具有一定的文化和语言独立性,可以提高搜索目标的效率
  - 可以代表对象,动作,属性或其他概念
- 表现方法—静态图标,动画,视频
- 分类
  - 直接隐喻—隐喻本身就带有操纵的对象
  - 工具隐喻—代表所使用的工具
  - 过程隐喻—其通过描述操作的过程来暗示该操作
- 实例—Windows桌面图标,用垃圾桶,PC等表示文件回收站和本机的文件系统
所见即所得(WYSIWYG)
- 显示的用户交互行为和应用程序最终产生的结果是一致的
- 弊端
  - 若屏幕的空间或颜色配置方案与硬件设备提供的配置不匹配,二者之间就难以正确匹配
直接操纵
- 基本思想—可以把操作的对象,属性,关系显式的表示出来,用光笔,鼠标,触摸屏或数据手套等指点设备直接从屏幕上获取形象化命令与数据的过程
- 直接操纵的对象—命令,数据或是对某种数据的操作
- 工具—屏幕坐标指点设备
- 特性
  - 直接操纵的对象是动作或数据的形象隐喻
    
    系统将真实世界人们熟悉的的对象和操作复制并呈现在屏幕上,人们得以关注于数据本身
  - 用指点和选择代替键盘输入
  - 对象和操作一直可见
  - 支持逆向操作
- 优点
  - 借助形象的表示,而不是单纯的文字或数值;依赖于视觉和手动控制的参与,可以直接操作,有利于解决问题和进行学习
- 缺点
  - 不具备命令语言界面的某些优点.设计图形繁琐等
  - 表示复杂予以,抽象予以比较困难
- 潜在的问题：
  - 用户必须知道一个可视化对象表示的意义是什么
  - 真实世界的可视化表示可能令人误解
  - 对某些操作，键盘可能是最有效的直接操作设备，所以用鼠标或手指指向图标实际上可能比使用键盘慢
  - 为真实世界中的对象和动作选择合适的表示不是一项简单容易的任务

重要思想举例及反例

office工具软件的可选功能,通过桌面隐喻表示其功能和操作;网站菜单栏通过文字而非图例描述功能
word或一些markdown文本处理器能将用户输入文本呈现出来;对于一些普通的文本处理器如notepad,对于用户输入的文本控制代码不能看到最后的输出结果
图编辑工具中,可以直接拖拽图形,进行绘图;早期的一些游戏机必须通过专门的旋转按钮操纵角色左右或上下移动

多通道用户界面

目的是消除当前WIMP/GUI用户通信宽带不平衡的瓶颈

综合使用视线,语音,手势等新的交互通道,设备和交互技术
使用户利用多个通道以自然,并行,协作的方式进行人机对话
整合来自多个通道的,精确和不精确的输入来捕捉用户交互意图,提高人机交互的自然性和高效性

研究目标

自交互的自然性,高效性
与传统用户界面兼容

主要解决的问题

科学计算可视化,虚拟现实对计算机系统提出的高效,三维和非精确的人机交互要求
用户可以用自然的交互方式,语音,手势,眼神等协同交互,通过交互通过串行\并行,互补\独立的关系提高交互的自然性和高效性

基本特点

使用多个感觉和效应通道
- 感觉通道侧重多媒体信息的接收;效应通道侧重于交互中的控制于信息输入
- 一种通道不能充分表达用户意图时,使用辅助通道增强表达力
- 允许并行协作的通道配合关系
允许非精确的交互
- 可以使用贴近日常生活习惯的模糊表达,以充分性代替精确性
三维和直接操纵
- 人类大多数活动都要三维和直接操纵的特点,并且人们希望看到这种控制的结果,人机交互反应了这种本质特点
交互的双向性
- 感觉通道和效应通道都具有双向性的特点,避免生硬不自然的通道切换,提高自然性
交互的隐含性
- 不需要显示说明交互成分,而是在交互过程中隐含说明