1.统计模式识别的原理和方法简介
1.1 模式识别
模式和模式识别是什么?
广义上说,存在于时间和空间中的可观察事物,如果能区分它们是相同的还是相似的,就可以称之为模式;狭义上说,模式是通过观察具体的个别事物获得的具有时间和空间分布的信息;模式所属类别或相同类别的模式通常称为模式类别(或类别)。而模式识别则是在一定量度或观察的基础上将待识模式划分为各自的模式类。
模式识别的研究主要集中在两个方面,即研究生物体(包括人)是如何感知对象的,以及如何在给定的任务下使用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家和神经生理学家的研究内容,属于认知科学的范畴;通过数学家、信息学专家和计算机科学家近几十年的努力,后者取得了系统的研究成果。
计算机模式识别系统基本上由三个相互关联和明显差异的过程组成,即。数据生成是将输入模式的原始信息转换为向量,成为计算机易于处理的一种形式。模式分析是处理数据,包括特征选择、特征提取、数据维度压缩和可能的类别。模式分类是利用模式分析获得的信息来培训计算机,从而制定识别标准,以便对知识模式进行分类。
统计模式识别是对模式的统计分类方法,即结合统计概率论的贝叶斯决策系统的模式识别技术,也称为决策理论识别方法。利用模式和子模式分层结构的树状信息完成的模式识别工作是结构模式识别或句法模式识别。
模型识别已成功应用于天气预报、卫星航空图像解释、工业产品检测、字符识别、语音识别、指纹识别、医学图像分析等方面。所有这些应用程序都与问题的性质密不可分,并没有发展成一个统一和有效的应用程序。
1.2 统计模式识别
统计模式识别的基本原理是模式空间中相似的样本相互接近,形成集团,即物以类聚。其分析方法是根据模式测量的特征向量Xi=(xi1,xi2,…,xid)T(i=1,2,…,N),将给定模式归类为C类ω1,ω2,…, ωc然后根据模式之间的距离函数进行分类。其中,T表示转置;N样本点数;d为样本特征数。
识别统计模式的主要方法有:识别函数法, k近邻分类、非线性映射、特征分析、主因子分析等。
在统计模式识别中,贝叶斯的决策规则理论上解决了最佳分类器的设计问题,但必须首先解决更困难的概率密度估计问题。BP神经网络直接从观测数据(训练样本)中学习是一种更简单、更有效的方法,因此得到了广泛的应用,但它是一种灵感技术,缺乏指定工程实践的坚实理论基础。现代统计学理论研究所取得的突破性成果——VC该理论不仅在严格的数学基础上成功地回答了人工神经网络中的理论问题,而且还导出了一种新的学习方法——支持向量机]。
2 统计模式识别的研究进展
2.1 类条件概率分布的估计
考虑样本待识X∈Rd被判定为C个不同类别ω1,ω2,…, ωc中的某一类。贝叶斯定理,X应判定为具有最大后验概率的类别。由于类型条件的概率分布尚不清楚,通常假设多维正态分布(当多维正态分布中的平均值向量和协议差矩阵已知时,由此分布获得的二次判断函数是最好的),而表示分布的参数由训练样本估计。当训练样本不足时,分布参数包括影响识别精度的估计误差。
在参考文献8中,为提高分类精度,Ujiie H等人提出了这样的方法。首先,将给定数据进行变换(带指数函数的变换),使得变换后的数据更近似于正态分布,不论原数据所服从的分布如何,而且在理论上找到了最优变换;然后,为了处理这些变换后的数据,对传统的二次判别函数进行了修改;最后,提出了变换的一些性质并通过实验表明了该方法的有效性。
通过研究特征值的估计误差,提出了各种方法,以避免分类精度的降低,但对特征向量的估计误差考虑不多。Iwamura M经过研究,其他人发现特征向量的估计误差是降低分类精度的另一个因素。因此,在参考文献9中,提出了修改特征值以弥补特征向量的估计误差的方法。
2.2 线性判别法
20世纪90年代中期,统计学习理论和支持向量机算法的成功引起了研究人员的关注。支撑向量计算法具有坚实的理论基础和良好的推广能力,在手写数字识别、文本分类等领域取得了良好的效果。其引人注目的特点之一是使用满意度Mercer无需知道非线性变换的具体形式[10],就可以实现非线性分类器的设计。它是一种传统的线性方法,已广泛应用于模式分类和特征提取中。近年来出现了它们的线性推广,性能更好,适用范围更广,灵活性更高,是应用前景看好的新方法。
在考虑两类问题且在这种情况下,参考文献14提出了两种基于训练样本划分多维空间的方法。。与标准相比,这两种方法比较了模式检测问题Fisher训练效果更好。使用判别法。Mercer这两种方法可以推广到非线性决策方面。
2.3 贝叶斯分类器
模式识别的目的是判断一个物体(由其特征表示)属于某一类。考虑两种情况。使用贝叶斯分类器时,物体按最大后检概率进行分类,由一个判断函数完成。在大多数情况下,判断函数是线性的或二次的。当类服从正态分布时,总是不可能找到最佳的线性分类器。据我们所知,它们都是相等的协议差矩阵。
与最佳线性分类器相比,研究人员尝试通过各种方法获得线性分类器。虽然这些方法找到了线性判别函数,但分类器并不是最好的。在参考文献15中,作者指出,在正态分布和不等协方差矩阵的其他情况下,判断函数是线性的,分类器是最好的。与前面研究的线性分类器相比,这里介绍的新方法是对偶和线性的。文中确定了均值向量和协方差矩阵必须满足的条件以得到最优对偶线性分类器,解决了感知器的Minsky悖论。
贝叶斯分类器可以通过概率神经网络实现最佳决策。
非线性动态系统可以使用(Nonlinear Dynamical System,简记为NDS)集合对模式进行分类,其中每一个NDS将输入值分类为IN或OUT类型。输入值通过每个NDS迭代并沿着轨道收敛到一个全球稳定的吸引子(attractor),它是该NDS代表类别的原型。参考文献18的作者提出了Race to The Attractor”神经网络(RTANN)与传统的神经网络方法相比,模型方法受益于几个与人脑接触更广泛的有利条件。然而,该方法缺乏详细的数学分析。
从凌乱的背景图像中检测人、脸、车等是一种广泛使用的方法。许多应用系统需要准确快速的检测。换句话说,减少检测错误和计算复杂性是两个主要问题。许多目标测试工作集中在性能改善上,很少关注复杂性问题。有些人通过分析贝叶斯决策规则下的误差来减少测试系数的数量来减少计算费用,使用隐藏的Markov树(HMT)模型描述模型分布,引入概念error-bound-tree(EBT)建立特征选择与减少误差的联系。
2.4 误差界
最小分类错误(MCE)与其他判断训练标准相比,如大交互信息(MMI)在统计模式识别中,训练模型参数的标准非常大(ML)标准的重要选择。MCE标准表示对给定分类器训练数据的测试错误率的光滑模型。由于训练标准与降低错误率的最终目标之间的直接关系,MCE训练分类器不会太依赖于模型假设的性质,就像ML和MMI训练这种情况。已证明MCE标准给出了独立于相应模型分布的贝叶斯错误率的上界。它还证明了与模型无关MCE在有限训练样本的渐近条件下,标准导出了封闭解。导出贝叶斯错误率时,模型分布与真实分布(代表训练数据)不同。
根据训练样本的分类间隔,一些研究人员使用概率近似校正(PAC)贝叶斯结构提出了线性分类器的一般误差。
一个有用的概念,即由相同的训练数据构建的分类器之间的弱相关性。结果表明,如果弱相关性低,预期分类间隔大,基于这些分类器线性组合的决策规则可以降低指数级错误率。
2.5 新的模式识别方法
2.5.1 共享核函数模型
概率密度估计构成了一种无监督的方法,试图从未标记的数据中建立原始密度函数的模型。密度估计的一个重要应用是以用来解决分类问题。
基于混合密度模型,广泛应用于统计模式识别中的密度估计方法之一。期望最大(EM)在这些模型中,算法得到了有效的训练过程。在参考文献23中,作者指出,根据共享核函数,可以得到更一般的条件密度估计模型,这里的条件密度可以用一些对所有类的条件密度估计有影响的核函数来表示。作者首先提出了经典径向基函数的模型(RBF)修改了网络,其输出表示条件密度。相反,采用独立混合密度来估计独立混合模型的方法。最后,提出了一个更一般的模型,上述模型是该模型的特殊情况。
2.5.2 粗糙集理论(Rough Set Theory, 简记RST)方法
波兰学者在20世纪70年代Pawlak Z与一些波兰逻辑学家一起研究信息系统的逻辑特性。在这些研究的基础上研究的基础上产生的。1982年, Pawlak Z发表了经典论文Rough Sets,粗糙集理论的诞生被宣告。此后,粗糙集理论引起了许多科学家、逻辑学家和计算机研究人员的兴趣,他们在粗糙集理论和应用方面做了大量的研究。1991年,Pawlak Z1992年应用专集的专注和出版,对这一时期的理论和实践成果进行了很好的总结,促进了粗糙集在各个领域的应用。此后,与粗糙集有关的国际会议进一步促进了粗糙集的发展。越来越多的科技人员开始了解并准备从事这一领域的研究。目前,粗糙集已成为人工智能领域的新学术热点,广泛应用于模式识别、机器学习、知识获取、决策分析、过程控制等领域。
模拟传感器信号一个方法,在点的非空不可数集合下实现集合的近似,引入了基于粗糙集理论的离散粗糙积分。离散粗糙积分有助于近似推理和模式识别中连续信号的分割。在近似推理中,离散粗糙积分为确定某特定采样期间传感器的相关性提供一个基。在模式识别中,离散粗糙积分可用于如雷达天气数据的分类、汽车模式分类及动力系统故障波形分类等方面。
粗糙集理论是处理模糊和不确定性的一个新的数学工具。用粗糙集理论构造决策规则的算法一般都是考虑决策规则的数量而不是它们的代价。采用多目标决策来协调规则的简明性和代价之间的冲突,以及提高粗糙集的效率和效力。
基于模式识别方法的动力系统瞬态稳定性估计(TSA)通常按两个模式的分类问题进行处理,即区分稳定和不稳定类。其中有两个基本问题:(1)选择一组有效的特征;(2)建立一个具有高精度分类的模式分类器。参考文献28将粗糙集理论与向后传播的神经网络(BPNN)相结合来进行瞬态稳定性估计,包括特征提取和分类器构造。首先,通过初始输入特征的离散化,利用基于RST的诱导学习算法来简化初始特征集。然后,利用采用半监督学习算法的BPNN作为一个“粗糙分类器”将系统稳定性分为三类,即稳定类、不稳定类和不确定类(边界区域)。不确定类的引入提供了减少误分类的一个切实可行的方法,且分类结果的可靠性也因此而大大提高。
2.5.3 仿生模式识别(拓扑模式识别)
一种模式识别理论的新模型,它是基于“认识”事物而不是基于“区分”事物为目的。与传统以“最佳划分”为目标的统计模式识别相比,它更接近于人类“认识”事物的特性,故称为“仿生模式识别”。它的数学方法在于研究特征空间中同类样本的连续性(不能分裂成两个彼此不邻接的部分)特性。文中用“仿生模式识别”理论及其“高维空间复杂几何形体覆盖神经网络”识别方法,对地平面刚性目标全方位识别问题作了实验。对各种形状相像的动物及车辆模型作全方位8800次识别,结果正确识别率为99.75%,错误识别率与拒识率分别为0与0.25%。
3 结 语
模式识别从20世纪20年代发展至今,人们的一种普遍看法是不存在对所有模式识别问题都适用的单一模型和解决识别问题的单一技术,我们现在拥有的只是一个工具袋,所要做的是结合具体问题把统计的和句法的识别结合起来,把统计模式识别或句法模式识别与人工智能中的启发式搜索结合起来,把统计模式识别或句法模式识别与支持向量机的机器学习结合起来[30],把人工神经元网络与各种已有技术以及人工智能中的专家系统、不确定推理方法结合起来,深入掌握各种工具的效能和应有的可能性,互相取长补短,开创模式识别应用的新局面。