基于新型多标记集成学习方法的文本分类研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:cnreon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网络的发展与普及,文本资源呈现指数级的增长。作为组织和管理大量文本信息的重要方式,文本分类不仅能够解决如何更好地使用这些文本的问题,而且能够有助于挖掘出潜藏在这些文本资源中的价值。由于文本通常同时与多个类别相关,文本分类往往可看作是一个多标记学习问题。多标记学习作为一种新型的机器学习方法,对于多义性的建模具有十分重要的意义,在信息检索、Web挖掘、生物信息学和自动标注等诸多领域得到了广泛应用。本文以应用多标记学习方法解决文本分类为目标,对文本分类、数据集处理、文本预处理、文本变换、特征选择、特征加权、多标记分类和多标记分类评估等诸多内容进行了研究,并且对特征选择和多标记分类方法进行了改进与优化。本论文研究内容和创新工作主要包括以下三个部分:(1)基于多标记学习的文本分类框架文本分类往往可看作是一个多标记问题。在深入研究文本分类和多标记学习的基础上,本文提出了基于多标记学习的文本分类框架,主要包括了文本变换、多标记学习分类和多标记分类评估等新型的技术。(2)基于集成多标记学习的文本分类算法(En-MLKNN)基于多标记文本分类的框架,集成目前三种主流的特征选择方法,并对最好的多标记学习算法之一MLKNN进行改进,设计了En-MLKNN算法以解决文本分类问题。通过对两个标准数据集的测试,相比其他多标记学习算法,En-MLKNN在多个评估指标下具有优越性。(3)基于代价敏感的集成多标记学习文本分类算法En-MLKNN算法可应用于文本分类并取得了较好的性能,但存在类不平衡问题。基于代价敏感解决类不平衡的思想,本文提出了En-MLCKNN算法。通过对两个标准数据集的测试,相比其他多标记学习算法,En-MLCKNN在多个评估指标下具有优越性。
其他文献
LTE(Long Term Evolution)是3GPP为了应对以WiMAX为代表的宽带无线接入技术对传统3G的挑战,提出的3G向4G通信过渡标准,通常被称为3.9G,并不是真正意义上的4G。然而LTE和4G采
期刊
期刊
作为对有线网络的有效补充和扩展,近年来无线网络通信技术得到了飞速发展和普及,以无线局域网(Wireless Local Area Networks)为代表的无线通信新技术不断涌现。同时一种基于
随着信息技术的迅速发展,Internet已经成为人们日常生活不可缺少的一部分。然而,随着互联网的广泛普及,互联网安全问题已成为人们关注的焦点。网络管理员或用户需要通过漏洞
期刊
在无线通信系统中,滤波器起着重要作用,随着对通信系统的需求越来越高,滤波器系统的设计研究有着更加重要的意义。本文基于网络综合理论和耦合矩阵综合方法,比较全面的研究了滤波
期刊
期刊
进入21世纪,无线通信技术得到了迅速发展。从2G到4G,无线通信系统的数据传输速率显著增加,同时带宽也不断变宽。在任何无线通信系统中,信道估计都是其重要的组成部分,信道估计的精