摘 要 本文提出一种新的多层神经 网络 的特征提取的 方法 。基于所提出的每个特征的评价函数值,此方法能够给出所有特征的排序。该方法在人造数据集和真实数据集上进行了实验。实验结果表明I能够准确地高效地在各种数据集上鉴别出最优特征集。
关键词 特征选取;特征排序;神经网络;多层神经网络
随着信息 科学 技术的快速 发展 ,在 工业 界和学术界有着更复杂和更大的多变量建模 问题 。 研究 人员发现当不相关和冗余的特征向量剔除之后,模式识别技术的性能将显著的提高。由此,特征提取成为了数据预处理和数据挖掘技术的重要的步骤之一。具体来讲,特征提取有助于在线 计算 ,加强系统的可读性,以及提高系统的预测性能。
一般来讲,特征选择有两大步骤:计算评价函数值和特征子集搜寻
[1]。评价函数要能反映出特征向量与数据类信息的匹配度信息,以及分类器性能变化的信息。而就特征子集搜寻来讲,为了避免繁冗的无遗漏搜寻,一些被大多数学者认可的搜寻方法被广泛采用,例如:前向选择,后向删除,双向搜寻等等
[2]。与完全搜寻和随即搜寻相比,这三种顺序的搜寻方法都能简单而快速的执行。
在构造输入数据和输出数据的复杂映射方面,由于多层神经网络(LP)的卓越性能,因而LP被广泛的采用。本文采用LP来作为分类器,来展示各种特征选取方法在各个数据集上的分类性能。
根据Shannn信息 理论 ,一个随机变量的不确定性可以由熵H()来估计。对于两个随机变量X和,条件熵
可以估计当变量X已知时,变量的不确定性。而互信息可以估计变量和变量X的相互依赖性。从而,H() , 和 三者有如下的关系[3]:
,等价于
(1)
训练分类模型的目的是最小化已知训练数据与类属性数据的不确定性。若 比较大,则意味着训练数据集X所包含的信息能够有效地预测它们的类属性;相反地,若 比较小,则意味着训练数据集X所包含的信息不能够有效地预测它们的类属性。所以,训练分类器的过程应该找一组分类器参数Θ,而尽可能增大互信息 。
而对于特征选取而言,其目的是从特征全集中选取一特征子集使得互信息尽可能的大以致于特征子集F能够有效地预测训练数据的类属性。也就是说,共有个F从而即可得到,我们可以选择最大的所对应的F来作为最优的特征集来代表特征全集X。
然而,以上的描述只是考虑到了特征子集F与类属性有最大的相关性,F未必成为最优的特征集。例如若F中每个的特征与属性有最大的相关性时,它们当中有可能含有极大线性或非线性相关的特征甚至重复的特征。所以我们应该剔除掉这些冗余的特征,使得处理后的F成为新的最优的特征集。
即最小化
未完...点击下方链接下载完整文档