第四章 特征选择和提取

特征

特征选择和提取目的都是为了在尽可能保留识别信息的前提下,降低特征空间的维数,以达到有效的分类。

特征选择

从度量值集合中按某一准则选取出供分类用的子集,作为降维的分类特征。

特征提取

使经过选择的特征通过某种变换,产生新的分类特征(或称为二次特征)。

特征提取会使特征的维度减少。

特征维数灾难

如果将数目很多的测量值不做分析,全部直接用作分类特征,不但耗时,而且会影响到分类的效果。被称为“特征维数灾难”问题。

模式类别可分性的测度

距离

一般考虑欧氏距离,即 L^2 范数。

散度矩阵

特征选择

  • 穷举法:对每种选法都用训练样本试测出其正确分类率,然后做出性能最好的选择。需要进行 \frac{n!}{m!(n-m)!} 次选取。
  • 使用简便的可分性准则,间接判断每一种子集的优劣。
    • 对于独立特征的选择准则
    • 一般特征的散布矩阵准则

对于独立特征的选择准则

使不同类别模式特征的均值向量之间的距离最大,而属于同一类的模式特征的方差之和最小。

可分型准则函数

G_k = \frac{(m_{ik} - m_{jk})^2}{\theta_{ik}^2 +\theta_{jk}^2}

其中, m\theta 分别为两类的均值向量和方差。G_k 值越大,说明对应分量的有效性更强。应选取 G_k 值最大的数个特征。

假若类概率密度函数不是或不近似正态分布,均值和方差就不足以用来估计类别的可分性,此时该准则函数不完全适用。

一般特征的散布矩阵准则

  • 类内散度矩阵:S_w = \sum_{i = 1}^{n} P(\omega_i) E\{(x-m_i)(x-m_i)^T|\omega_i\}
  • 类间散度矩阵:S_b = \sum_{i = 1}^nP(\omega_i)(m_i - m)(m_i - m)^T

类间离散度越大且类内离散度越小,则可分性越好。

离散K-L变换

K-L变换,全称Karhunen-Loeve变换(卡洛南-洛伊变换),是一种适用于任意概率密度函数的正交变换。

将原来的特征做正交变换,使获得的每个数据都是原来多个数据的线性组合,然后从新的数据中选出少数几个,使其尽可能多地反映各类模式之间的差异,且特征间又尽可能相互独立。

计算步骤

  • 求出随机向量 \mathbf{x} 的自相关矩阵 \mathbf{R} = \mathbb{E}\{\mathbf{x}\mathbf{x}^T\}
  • 求出矩阵 \mathbf{R} 的特征值 \lambda_j 和对应的特征向量 \varphi_j, 得矩阵 \varPhi =(\varphi_1, \varphi_2, ...,\varphi_n)
  • 计算展开式系数 \mathbf{a} = \mathbf{\Phi}^T \mathbf{x}

若采用较大特征值对应的特征向量组成变换矩阵,K-L变换也称为主成分变换(PCA变换)。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注