论文部分内容阅读
近年来随着数学理论的不断完善,数据挖掘领域有了重大的发展。而大多数的研究偏向于用新理论对各种算法进行改进,却忽略了样本选取的重要性。作为数据挖掘算法的起点,样本的选取有着重要的意义。
本文从理论上分析了选取样本的必要性,并深入探讨样本选取的有效方法。详细剖析了两种有代表性模型的样本选取策略:神经网络和K近邻法。
RBF网络和BP网络是两种典型的具有非线性处理能力的学习模型。RBF的样本选取策略已经有很成熟的方法,本文作了简要的介绍;BP网络的样本选取策略则是当今正在探索的新方向,本文介绍了两种合理的选取策略:基于主属性的样本选取策略和基于相似属性的样本选耳v策略。本文还提出了异构BP网络,推导了其学习算法。
对于K近邻方法,本文主要从优化策略的角度来阐述样本选取对于K近邻分类的重要性。并提出了两种新的搜索方法,经验证可以高速地优化查找。接着介绍了两种选取样本策略:选取样本子集和构造样本。在选取样本子集策略中,利用了基于非相似性度量的原型选择思想,并对其中涉及到的NP完全问题提出了有效的解决方法;在“构造样本策略”中使用了聚类技术,以聚类簇代替原训练样本,达到了缩减样本数量和优化分类效果的目的。