基于类重叠与有效范围的特征选择技术研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:sujinquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技发展带来数据维度的不断升高,对知识发现提出了更高的要求和挑战。从海量数据中发掘有意义的信息是数据挖掘研究的重点,也是各行各业关注的热点。特征选择是降低数据维度的有效方法,从高维数据中选出区分能力强、具有研究意义的特征,不仅能降低数据维度,缩短运行时间,还能提高分类性能,发现数据中潜在的信息和研究价值。数据质量能影响分类性能,从高维数据中选出富含信息、具有区分能力的特征能改善数据的质量,提高分类性能。无关特征具有较少的信息,对数据分布影响较少。特征打乱前后对数据分布的改变,反映了特征所含信息的多少。因此,本文结合特征打乱和类重叠区域R-value,提出了一种融合的无监督特征选择算法EUFSPR,该方法在对特征进行评价时还结合了聚类技术、融合技术、以及数据评价技术。类重叠面积R-value用来度量不同类别样本间的重叠程度;利用聚类技术对样本聚类,以便更好地发现隐藏的数据结构;结合融合的抽样技术可以提高特征选择的稳定性。10个公共数据集的聚类和分类结果表明,该算法在缺少类标信息的指导下也是一种良好的数据预处理方法,能有效地提高数据的质量和分类性能。特征在不同类别样本间的重叠区域反应了特征的区分能力。具有良好区分能力的特征,能将不同类别的样本较好的区分开,使不同类别样本的重叠区域较小。本文根据特征在各类样本中分布的有效范围及每一区域不同类别样本的分布密度,提出一种基于特征有效范围的前向特征选择及融合分类算法FFS-ER.该算法对每个特征建立其相应的单变量分类器,在进行前向搜索的过程中,选取分类性能最好、冗余度最小的单变量分类器,然后对所选取的单变量分类器进行加权融合,构成一个融合分类模型。8个公共数据集的实验结果表明该算法所选特征构建的分类模型的分类性能明显优于FIM算法,且在大多数情况下优于SVM-RFE算法。同时标准偏差的比较说明该算法相对于SVM-RFE和FIM具有较好的稳定性。
其他文献
随着技术的不断进步,材料的物理性能限制了时钟频率和芯片集成度的进一步提高,使得通过这两种方式来提高单核处理器性能已非常困难。为了设计更高性能的处理器以满足用户对速
随着电信市场的开放,电信运营商之间的竞争将越来越激烈,利润的降低使得各运营商必须从粗放的经营转变到集约的经营。为了适应日趋激烈的市场竞争环境,发挥自身的综合优势,实
在网络管理的五大功能域中,网络性能管理作为其中一个重要的功能与其它功能有着密切的关系。在性能管理方法中,根据获取的网络性能参数,可以实时对网络进行监控。如果发现异常,可
在众多安全数据库的数据模型中,MLR模型是非常成功的。MLR模型成功地引入了“数据借用”的概念,解决了多实例等问题,但也带来了安全隐患。在该模型的数据借用操作中,低安全级
随着智能手机等移动设备的日渐普及,人们对于随时随地拍照并进行相关信息检索的需求也与日俱增。在这个背景下,移动视觉检索应运而生。作为一种新兴的移动应用形式,它得到了
搜索引擎的出现,为人们从互联网中查找信息提供了便利,而搜索引擎的关键技术之一,就是对海量网页数据的存储和管理。利用并行文件系统为搜索引擎提供支持则较好的解决了该问题。
不完全信息数据库与关系数据库SQL语言的查询处理是数据库理论的两个重要研究方向,不仅具有重要的理论价值,而且具有很高的应用价值。本文借助于中介逻辑谓词演算系统MFM,对
随着电子商务的迅速崛起,基于Web的应用模式迅速发展,Web应用从局部化发展到全球化,从B2C发展到B2B,从集中式发展到分布式。Web服务作为新一代的平台独立的分布式计算方式,具
随着世界各国汽车数量的急剧增加,城市交通状况日益受到人们的重视。如何有效地进行交通管理,越来越成为各国政府和有关部门所关注的焦点。车辆牌照的自动识别是计算机视觉与
随着计算机科学与其他学科之间的相互渗透和影响,科学家们根据不同原理提出了不同的计算模型。细胞膜计算是一种基于生物细胞膜结构和功能的新型计算模型,近年来得到广泛的研