基于特征抽取的集成学习算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:gbbzwklk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学习系统泛化能力的提升一直是机器学习研究的重点。单一分类器无法避免的局限和不足导致其分类性能的提升遇到瓶颈。集成学习作为新的机器学习模式,采用若干个单一分类器预测同一问题,分类结果由各学习器共同决定,并按某种规则进行集成。集成学习使得各分类器优势互补,极大提升了分类系统的泛化能力和分类性能,被广泛应用于生物医学、信息科学等各个领域。随着互联网技术向社会生活各个领域渗透,待处理的数据也变得愈加复杂。其中,不平衡数据、高维数据、噪声数据等各种类型数据普遍存在。传统的集成学习方法处理规范数据性能较好,而对于复杂数据分类效果有限。因此,在集成学习中融入数据处理方法显得尤为重要。特征抽取是数据分析处理的重要手段之一,在数据降维,消除噪声冗余等方面有着广泛的应用。本文在对集成学习算法深入研究的基础上,将特征抽取等数据处理算法与集成学习算法相结合,提出了改进后的集成学习算法,具体如下:不平衡数据通常会导致分类器对少数类样本分类效果较差。为了降低数据集的不平衡比例,可以采用SMOTE过采样算法对数据预处理。本文使用独立成分分析算法(ICA)消除数据噪声,同时融入SMOTE算法平衡数据,使得处理后的数据对集成学习算法具有较好的适应性。实验结果表明,本文提出的方法能显著提升集成学习算法Bagging对不平衡数据的分类性能。不同类型的数据都存在一定的组织方式和结构信息,属性之间相互关联。经过研究分析,垃圾网页数据集特征属性不仅维度高而且关联度也较高。针对垃圾网页内容特征和链接特征之间的高维性和关联性,本文在对垃圾网页特征属性深入研究的基础上,对其关联属性分组进行主成分分析(PCA),而非整体主成分分析。这在降低维度的同时,一定程度的保护了数据集原有的属性结构。实验结果表明,本文提出的方法在应用于垃圾网页分类时具有较好的性能。
其他文献
随着我国高等教育事业的发展,高校毕业生数量逐年增长,高校毕业生的就业问题已经引起社会及相关学者的广泛关注。如何通过科学合理的方法为毕业生提供就业指导和帮助,提高毕
支持向量机(Support Vector Machines,SVM)是基于统计学习理论,建立在结构风险最小化原理和VC维理论基础上的一种机器学习方法。近几十年来以其优秀的分类能力在很多领域得到
伴随互联网信息资源规模的迅猛增长,用户要在海量信息空间中获得符合自己需求的信息也越发困难。推荐系统作为一种智能个性化信息服务系统,为用户推荐用户感兴趣的信息资源。推
蒙古族历史与文化源远流长,蒙古族的语言文字是蒙古族社会交际的工具。在当今信息化、全球化大背景下,蒙古语言文字的信息化对促进蒙古语言文字的学习、使用、研究和发展具有重
尽管工作流技术在软件开发活动中已经得到广泛运用,但是随着软件规模的扩大和软件需求的变更,工作流模型的柔性不足问题依然存在。为此,本文将构件技术与工作流技术相结合,提
随着国民经济的发展,各行各业对电力的需求不断扩大,如何提早预防、及时发现危害输电线路的自然灾害和意外事故,成为保障电力供应的一项重要基础工作。输电线路图像识别与自动报警系统采用图像技术对输电线路进行监控、分析和处理,能够对输电线路周围危害安全运行的目标进行自动识别与报警,为电力企业的科学决策提供依据,提升对自然灾害和意外事故的应对效率。本文首先论述了开发输电线路图像监控与自动报警系统的必要性,然后
随着传感器网络的研究和应用日益成熟,人类生活必将逐渐依赖于传感器网络,人类社会的发展也将离不开传感器网络。而覆盖问题就是无线传感器网络设计和规划需要面临的一个基本问
云存储正在因为它的可扩展性、方便性和低成本等诸多优点而变得越来越流行。它通过租用基本设施来提供对于文件的服务,包括允许用户在服务器上存储文件,同步位于服务器和用户
近年来我国突发事件频发,生命财产损失重大。如何快速安全地疏散人群具有重要意义。现有数据大都从真实的日常演习获得,突发事件中人群的行为和表现并不能完全真实的被反映。
随着电子商务的发展,出现了越来越多的用户到用户模式的双向推荐,传统个性化推荐的项目到用户的推荐已经无法满足用户的需求,这就催生了时下以在线交友网站为代表的互惠推荐