模式识别基础知识

本文章主要介绍了模式识别的基本概论和统计决策方法（贝叶斯决策）和概率密度函数估计。

一、概论

1.1 模式与模式识别

模式：指需要识别且可测量的对象的描述

模式识别：利用机器（计算机）模仿人脑对现实世界各种事物进行描述、分类、判断和识别的过程。

样本：所研究对象的一个个体

样本集：若干样本集合

类或类别：在所有样本上定义的一个子集，处于同一类的样本在我们所关心的某种性质上是不可分的

特征：指用于表征样本的观测

已知样本：指事先知道类别标号的样本

未知样本：指类别标号未知但特征已知的样本

1.2 模式识别的主要方法

实现的方法可以基于知识的方法和基于数据的方法两大类

基于知识的方法：更具人们已知的关于研究对象的知识，整理出若干描述特征与类别间的关系的准则，建立一定的计算机推理系统，对未知样本通过这知识推理决策其类别
- AI专家系统
- 句法（结构）模式识别
基于数据的方法：收集一定数量的一直样本，用这些样本作为训练集来训练一定的模式识别机器，使之在训练后能够对未知样本进行分类
- 统计模式识别的方法
  - 确定样本的特征——收集已知样本——训练模式识别机器——对未知样本进行分类
- 人工神经网络
- 支持向量机

模式识别研究范畴

基于数据的模式识别方法适用于已知对象的某些特征与我们所感兴趣的类别性质有关，但无法确切描述这种关系的情况
基于知识的方法是发呢类和特征之间的关系完全可以确切的描述出来
若二者的关系完全随机，即不存在规律性练习，应用模式识别也为u发的到有意义的结果。

1.3 监督模式识别与非监督模式识别

监督模式识别

已知类别，并且能够获得类别已知的训练样本，这种情况下建立分类器的问题属于监督学习问题，称为监督学习

非监督模式识别（聚类）

实现并不知道类别，更没有类别已知的样本，根据样本特征将样本聚成几个类，使属于同一类的样本在一定意义上是相似的，而不同类别之间的样本有较大差异。这种学习过程称作非监督模式识别

1.4 模式识别系统举例

分类器的设计

1.5 模式识别系统的典型构成

一个模式识别系统通常包括原始数据的获取和预处理、特征提取与选择、分类获聚类、后处理四个主要部分

有已知样本情况：监督模式识别
- 信息获取与预处理——特征提取与选择——分类器设计（训练）
  ——分类决策（识别）
无已知样本情况：：非监督模式识别
- 信息获取与预处理——特征提取与选择——聚类（自学习）——结果解释

监督模式识别和非监督模式识别的区别——训练样本

监督识别需要训练数据，根据训练样本设计分类器
而非监督模式识别不需要训练数据，是根据样本的相似性来进行分类的

特征提取与选择、分类器设计和聚类分析，乙级分类器和聚类结果的性能评价方法等是各种模式识别系统中具有共性的步骤，是整个系统的核心，也是模式识别学科研究的主要内容

二、统计决策方法

2.1 贝叶斯决策基础

两个先验知识：
- 先验概率：
  $P(w_1)和P(w_2)$
- 类条件概率：
  $P(x|w_1)和P(x|w_2)$
后验概率：
$P(w_i|x)=\frac{P(x|w_i)P(w_i)}{P(x)}$
根据后验概率进行决策，这个决策过程就是贝叶斯决策
先验概率：
$P(w_i)$
预先一直的或者可以估计的模式识别系统位于某种类型的概率。根据大量统计确定某类事物出现的比例，如P(男生)
类条件概率：
$P(x|w_i)$
类别状态为wi时，样本x出现的概率密度
全概率:
$P (x)$
样本x在所有类别里出现的概率之和，也称为x的全概率在两类问题的情况下：
$j),j=1,2p(x)=\sum p(x|w_j)P(w_j) ,j=1,2$
后验概率：$ P(w_i|x) $
- 一个具体事物属于某种类别的概率
- 后验概率涉及一个具体事物，而先验概率是泛指一类事物，因此P(男生|X)和P(男生)是两个不同的概念
贝叶斯公式
$P(w_i|D)=\frac{P(D|w_i)P(w_i)}{P(D)}$
贝叶斯公示的两个创新点：
- 用概率表示所有形式的不确定性
- 引入了“先验”与“后验”的概念
贝叶斯决策
- 在类条件概率和先验概率已知（或者可以估计）的情况下，通过贝叶斯公式比较样本属于两类的后验概率，将类别决策为厚颜概率大的一类，这样做的目的是为了使总体错误率最小

2.2 最小错误率贝叶斯决策

1、最小错误率

错误率是指平均错误率，其表达式为：
$xP(e)=\int{P(e,x)dx}=\int{P(e|x)p(x)dx}$
对错误率求最小值可以写成：
$)dxminP(e)=\int{P(e,x)dx}=\int{P(e|x)p(x)}dx$

2、最小错误率的贝叶斯决策规则的多种等价形式

1） $P(w_i)=maxP(w_j|x)->x\in w_i$

2） $p(x|w_i)P(w_i)=max p(x|w_j)P(w_j) —>x\in w_i$

3） $l(x)=\frac{p(x|w_i)}{p(x|w_I)}>\frac{P(w_2)}{P(w_1)} ->x\in w_i$

x ∈ wi l(x)=\frac{p(x|w_i)}{p(x|w_I)}x\in w_i $l (x) = \frac{p ( x ∣ w _{i} )}{p ( x ∣ w _{I} )} < \frac{P ( w _{2} )}{P ( w _{1} )} - > x \in w_{i}$ 其中，l(x)为似然比， $\frac{P(w_2)}{P(w_1)}$ 为似然比阈值

4） $h(x)=-\ln l(x)=-\ln p(x|w_1)+ln p(x|w_2)x\in w_1$

$h(x)=-\ln l(x)=-\ln p(x|w_1)+ln p(x|w_2)>\ln \frac{P(w_1)}{P(w_2)}->x\in w_2$

2.3 最小风险贝叶斯决策

1、最小风险贝叶斯决策就是考虑各种错误造成不同时的算是造成的

（1）观察 $x$ 是d维随机向量 $x=[x_1,x_2,…,x_d]T$

（2）状态空间 $Ω\Omega$ 由c个自然状态组成。 $wc}\Omega=\{w_1,w_2,…w_c\}$

（3）决策空间由a个决策 $组成\alpha,i=\{1,2,…,a\}组成$ $αa}\gamma=\{\alpha_1,\alpha_2,….,\alpha_a\}$

a和c不同

（4）损失函数： $c\lambda(\alpha_i,w_j),i=1,2…a,j=1,2,…c$

2、条件期望损失

$j∣x),i=1,2,…aR(\alpha_i|x)=E[\lambda(\alpha_i,w_j)]=\sum_{j=1}^{c}\lambda(\alpha_i,w_j)P(w_j|x),i=1,2,…a$

此式考虑的是对样本x采集表中某一种决策 $a_i$ 时的损失的加权平均值

3、期望风险

$R=∫R(α(x)∣x)p(x)dxR=\int R(\alpha(x)|x)p(x)dx$
期望风险R反应对整个特征空间所有x的取值都采用相应的决策所带来的平均风险；

而条件风险 $R(a_i)|x$ 只是反映了对某一x的取值采取决策 $a_i$ 所带来的风险

如果在采取每一个决策或行动时，都使条件风险最小，则对所有的x做出决策时，其期望风险也必然最小。

4、最小风险贝叶斯决策规则

如果在采取每一个决策或行动时，都使条件风险最小，则对所有的x做出决策时，其期望风险也必然最小，这样的决策就是最小贝叶斯决策

2.4 贝叶斯分类器

我们对样本进行分类决策的过程其实就是建立分类器的过程

利用贝叶斯原理对样本进行分类的过程就是建立贝叶斯分类器的过程

1、贝叶斯分类器的原理：

通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，选择具有最大后验概率的类作为该对象所属的类

在设计贝叶斯分类器的时候，主要包含两步：

（1）判别函数：用于表达决策测规则的某些函数称为判别函数

（2）决策面：对于c类分类问题，按照决策规则可以把d维特征空间分成c个决策域，将划分决策域的边界称为决策面。

2、两类问题

（1）判别函数
$g(x)=g_1(x)-g_2(x)$

$\in w_1 \\ g(x)<0,决策为x\in w_2\end{cases}$

基于最小错误率的判别函数：
$P(w_1|x)=\frac{P(x|w_1)P(w_1)}{P(x)}$

$a、g(x)=P(w_1|x)-P(w_2|x)$
$b、g(x)=p(x|w_1)P(w_1)-p(x|w_2)P(w_2)$
$c、g(x)=\ln \frac{p(x|w_1)}{p(x|w_2)}+\ln \frac{P(w_1)}{P(w_2)}$

（2）决策面方程

两个决策区域在决策面上的判别函数是相等的

$g (x) = 0$

（3）设计分类器的网络结构

3、多类问题

判别函数——>决策面方程——>设计分类器

（1）判别函数

写出多个判别函数，通常定义一组判别函数 $g_i(x)$ ， $i = 1, 2, \dots c$ ，也就是每一类别都对应一个判别函数。
定义判别规则的时候，如果对于一切j不等于i， $g_i(x)>g_j(x)$ 都成立，则将x归为 $w_i$ 类。
在最小错误率的判别规则下的判别函数
$g_i(x)=P(w_i|x)$
$g_i(x)=p(x|w_i)p(w_i)$
$g_i(x)=\ln p(x|w_i)+\ln P(w_i)$

（2）决策面方程

在多类问题里，特征空间被分为多个决策区域，相邻两个决策区域之间是由决策面分隔开的，所以相邻两个决策区域在决策面上的判别函数相等

（3）分类器设计

多类问题的分类器可以看作是一个计算c个判别函数，对c个判别函数进行比较，并选取与最大判别值对应的类别的网络和机器

例题

2.5 正态分布时的决策统计

一个贝叶斯分类器的机构可以由类条件概率密度 $p(x|w_i)$ 回我先验概率 $P(w_i)$ 来决定，而类条件概率密度在统计决策理论中起着重要的作用，在概率密度函数里面，正态分布，也被称为高斯分布，是人们研究最多的分布之一。

1、为什么要用正态分布函数

在客观世界中很多随机变量都服从或近似服从正态分布，对很多数据都可以做出正太分布的假设
另一个原因是正态分布在数学上具有很多好的性质，十分有利于数学分析。

2、正态分布的基础知识

1、单变量正态分布

概率密度定义为：
$2]p(x)=\frac{1}{\sqrt{2\pi}}exp[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2 ]$
x为一维向量

$μ\mu$ 为随机变量x的数学期望（均值）
$−∞∞xp(x)dx\mu=E(x)=\int_{-\infty}^{\infty}xp(x)dx$
$\sigma^2$ 为随机变量的方差； $σ\sigma$ 为均方差（标准差）
$2p(x)dx\sigma^2=\int_{-\infty}^{\infty}(x-\mu)^2p(x)dx$

概率密度函数 $p(w_i|x)或p(x)$ 完全由两个参数 $μ和σ\mu和\sigma$ 决定

满足下列关系式：
$−∞∞p(x)dx=1p(X)\geq0 -\infty<x<\infty \\ \int_{-\infty}^{\infty}p(x)dx=1$

正态分布的样本主要集中在均值附近，其分散程度可以用标准差来表征，越大分散程度越大。
从正态分布的总体中抽取样本，约应95%的样本落在区间 $(μ−2σ,μ+2σ)(\mu-2\sigma,\mu+2\sigma)$

2、多元正态分布

多元正态分布是由均值向量 $μ和Σ\mu和\Sigma$ 协方差矩阵完全决定的

（1）多元正态分布的概率密度表示
$(x−μ)]p(X)=\frac{1}{(2\pi)^\frac{d}{2}|\sum|^\frac{1}{2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1} (x-\mu)]$

（2）多元正态分布的性质

多元正太分布由均值向量和协方差矩阵完全决定；
从正态分布总体中抽取的样本大部分落在由 $Σ\mu和\Sigma$ 确定的一个区域里，这个区域的中心由均值向量 $μ\mu$ 决定，区域的大小由协方差矩阵 $Σ\Sigma$ 决定
等密度点的轨迹位——超椭球面
从多元正态分布概率密度函数式可以看出，指数项为常数时，密度值不变（等密度）
$(x−μ)](x-\mu)^T\Sigma^{-1}(x-\mu)=常数 \\ p(X)=\frac{1}{(2\pi)^\frac{d}{2}|\sum|^\frac{1}{2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1} (x-\mu)]$
上式的解是一个超椭球面。

3、正态分布模型下的最小错误率贝叶斯决策

多类判别函数： $g_i(x)=\ln p(x|w_i)+\ln P(w_i)$

正态分布函数： $]p(x)=\frac{1}{(2\pi)^\frac{d}{2}|\sum|^\frac{1}{2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1} (x-\mu)]$

判别函数： $wi)g_i(x)=-\frac{1}{2}(x-\mu_i)^T\Sigma_i^{-1}(x-u_i)-\frac{d}{2}\ln 2\pi-\frac{1}{2}\ln |\Sigma_i|+\ln P(w_i)$

决策面方程： $g_i(x)=g_j(x)$

第一种情况： $c\Sigma=\sigma^2I,i=1,2,L,c$

每类的协方差矩阵相等并且是对角矩阵，类被各特征间相互独立，具有相等的方差 $2\sigma^2$ ,它们的协方差元素为0。
从几何上看，各类样本落入以 $\mu_i$ 为中心，永阳大小的超球体内。
判别函数简化为：
$i)g_i(x)=\frac{(x-\mu_i)^T(x-\mu_i)}{2\sigma^2}+\ln P(w_i)$
式中 $c(x-\mu_i)^T(x-\mu)=||x-\mu_i||^2=\sum_{j=1}^{d}(x_j-\mu_{ij})^2,i=1,L,c$

1、各类的先验概率相等

如果m各类型的先验概率 $p(w_i),i=1,2,…,m$ 都相等，则可忽略判别函数中的 $ln p(w_i)$ 项。使判别函数更加简化；
相邻两类的决策面为超平面，并且与两类均值点连线 $j)(\mu_i-\mu_j)$ 垂直，它们的交点恰好与 $j\mu_i-\mu_j$ 的中点重合
当对某一模式样本x进行分类时，只要计算样本到各类中心(均值向量)的欧氏距离的平方 $x-\mu_i||^2$ ，然后把x归到 $i∣∣min||x-\mu_i||$ 的类，这种分类器称为最小距离分类器。

2、各类的先验概率不相等

判别函数 $g_i(x)是x的线性函数$
决策面为由 $g_i(x)-g_j(x)=0$ 所确定的一个超平面，并且于两类均值点连线 $j\mu_i-\mu_j$ 垂直，它们的交点向先验概率小的那个类型均值点偏移。
决策规则是要求对某个待分类的x，分别计算 $g_i(x),i=1,2,…,c$ 。若： $kg_k(x)=max g_i(x)则决策x\in w_k$

第二种情况： $Σ\Sigma_i=\Sigma$

它表示各类的协方差矩阵都相等，但各类的均值向量是任意的；
从几何上来看，相当于各类样本集中于以该类均值为中心同样大小和形状的超椭球内。
此时的判别函数为：
$i)g_i(x)=-\frac{(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)}{2}+\ln P(w_i)$

1、各类的先验概率相等：

盘被函数是线性的，如果m各类型的先验概率 $p(w_i),i=1,2,…,m$ 都相等，则可忽略判别函数中的 $ln p(w_i)$ 项。使判别函数更加简化；
相邻两类的决策面为超平面，并且与两类均值点连线 $j)(\mu_i-\mu_j)$ 垂直，相交于中点，但并不与两类均值点连线垂直。
决策规则简化为：对x进行分类，只要计算出x到每类样本均值点的马氏距离的平方，最后把x归于距离最小的那个类别

2、各类的先验概率不相等

判别函数是线性的
相邻两类的决策面为超平面，于两类均值点连线 $j)(\mu_i-\mu_j)$ 相交，但并不与两类均值点连线垂直，远离可能性较大的均值。

第三种情况： $Σ\Sigma_i \neq\Sigma$

它表示各类的协方差矩阵不相等，这是最一般的情况
此时的判别函数为：
$i)d_i(x)=-\frac{1}{2}(x-\mu_i)^T\Sigma^{-1}-\frac{1}{2}\ln \Sigma_i+lnP(w_i)$
在两类问题中，对应的判定面为超二次曲面

三、概率密度函数估计

3.1 引言

1、存在的问题:

不知道先验概率 $P(w_i)$ 和类条件概率 $p(x|w_i)$
估计先验概率 $P(w_i)$ 通常没有太大困难;
最大困难在于估计类条件概率密度函数 $p(x|w_i)$ ，因为训练样本不够多，如果特征的维数较大，会产生比较困难的多重积分计算复杂度问题。
就是要寻找某种有效的方法，能利用现有的信息设计出正确的分类器。

2、问题的解决:

目标:
利用已知的笼统和模糊的知识+训练样本——>设计分类器
方法:
利用训练样本估计先验概率和条件密度函数，并把这些估计的结果当作实际的先验概率和条件密度函数，然后再设计分类器。

3、参数估计的方法:

最大似然估计
贝叶斯估计

两种方法的区别:

最大似然估计把待估计的参数看作是确定的量，只是其取值未知;
贝叶斯估计是把待估计的参数看作符合某种先验概率分布的随机变量。

4、参数估计的分类

监督参数估计―—样本所属类别(标签)已知，样本的类条件概率密度函数的形式已知，但参数未知(例如，已知高斯分布，但参数或未知)，即已知规律但未知参数。
非监督参数估计―—已知总体概率密度函数的形式，但样本所属类别未知,要求推断出概率密度函数的某些参数，称为非监督参数估计。

5、参数估计的基本概念

统计量——每一种训练样本都包含着总体的某种信息，一个训练样本集X包含总体的全部信息，针对不同的参数估计要求构造某种函数以便从样本集X中抽取有关信息，这种函数称为统计量。
参数空间——所有未知参数的可能取值的集合称为参数空间，记为 $Θ\Theta$ 。
点估计、估计量和估计值——估计总体分布的一个或几个具体参数叫点估计。针对某未知参数 $i\theta_i$ 构造一个统计量作为 $i\theta_i$ 估计，称 $θ^i\widehat\theta_i$ 为 $i\theta_i$ 的估计量； $θ^i\widehat\theta_i$ 的值叫做 $i\theta_i$ 的估计值。

3.2最大似然估计

1、最大似然估计的基本问题

在一类中独立地按照概率密度 $)p(x|\theta)$ 抽取样本集X,用来估计出未知参数 $θ\theta$

基本假设:
- 参数 $θ\theta$ 是未知的确定性的量;
- 样本集按照类别 $w_i$ 分为c个样本子集,这些样本都是从
  类条件概率密度为 $p(x|w_j)$ 的总体中独立抽取的。
- 类条件概率密度 $p(x|w_j)$ 具有某种确定的函数形式，只是其中的参数 $θ\theta$ 未知。
  不同类别的参数在函数上是独立的（非耦合)，可以分别对每一类进行处理。

2、基本概念和原理
已知某一类样本集包含N个样本，X={x,x2, …x}待估计的未知参数为0，由于假设样本是独立抽取的，那么
$k∣θ)p(X|\theta)= p(x_1,x_2,…….x_N|\theta)=\prod_{k=1}^{N}p(x_k|\theta)$

看做是参数 $θ\theta$ 的函数，称联合概率密度 $)p(X|\theta)$ 为样本集X下的似然函数，通常我们把这个函数用 $)l(\theta)$ 来表示。

为了便于分析(指数分布以及对数函数单调性,还可以定义对数似然函数:
$k∣θ)H(\theta)= \ln \prod_{k=1}^{N}[p(x_k|\theta)=\sum_{k=1}^{N} \ln p(x _k|\theta)$

向量参数 $θ\theta$ 的最大似然估计，就是使 $\theta)$ 达到最大值的那个参数估计向量 $θ^ \widehat\theta$

最有可能出现的样本似然函数最大的样本

3、最大似然估计量

最有可能出现的样本就等价于似然函数最大的样本，所以使似然函数值最大的 $θ^ \widehat \theta$ 是样本集X的函数，记作 $θ^= d ( x1, x2, … , xN)\widehat \theta= d(x_1,x_2,… ,x_N)$ ，它就是我们要求的最大似然估计量。

估计值

估计值就是使似然函数 $\theta)$ 最大化所对应的 $θ\theta$ 值，记作:
$θ^= a r g m a x l ( θ )\widehat \theta=arg max l(\theta)$

4、极大似然估计的求解

求解方法：根据已知的样本集X，使似然函数取极大值时得到的参数，就是我们要找的估计量。
一维变量参数的求解：
- 在似然函数连续、可微的条件下，并且只有一个参数变量的情况下，即 $θ\theta$ 为一维参数，求 $θ\theta$ 就是求解如下微分方程的解：
  $0dl(\theta)/d\theta 或 dH(\theta)/d(\theta)=0$
多维变量参数的求解：
- 若未知参数不止一个，即是由多个未知参数组成的向量时，求解似然函数的最大值，就需要对参数向量 $θ\theta$ 的每一维分量分别求偏导，即用下面的梯度算子：

模式识别基础知识