论文部分内容阅读
随着Internet网络的发展与普及,文本资源呈现指数级的增长。作为组织和管理大量文本信息的重要方式,文本分类不仅能够解决如何更好地使用这些文本的问题,而且能够有助于挖掘出潜藏在这些文本资源中的价值。由于文本通常同时与多个类别相关,文本分类往往可看作是一个多标记学习问题。多标记学习作为一种新型的机器学习方法,对于多义性的建模具有十分重要的意义,在信息检索、Web挖掘、生物信息学和自动标注等诸多领域得到了广泛应用。本文以应用多标记学习方法解决文本分类为目标,对文本分类、数据集处理、文本预处理、文本变换、特征选择、特征加权、多标记分类和多标记分类评估等诸多内容进行了研究,并且对特征选择和多标记分类方法进行了改进与优化。本论文研究内容和创新工作主要包括以下三个部分:(1)基于多标记学习的文本分类框架文本分类往往可看作是一个多标记问题。在深入研究文本分类和多标记学习的基础上,本文提出了基于多标记学习的文本分类框架,主要包括了文本变换、多标记学习分类和多标记分类评估等新型的技术。(2)基于集成多标记学习的文本分类算法(En-MLKNN)基于多标记文本分类的框架,集成目前三种主流的特征选择方法,并对最好的多标记学习算法之一MLKNN进行改进,设计了En-MLKNN算法以解决文本分类问题。通过对两个标准数据集的测试,相比其他多标记学习算法,En-MLKNN在多个评估指标下具有优越性。(3)基于代价敏感的集成多标记学习文本分类算法En-MLKNN算法可应用于文本分类并取得了较好的性能,但存在类不平衡问题。基于代价敏感解决类不平衡的思想,本文提出了En-MLCKNN算法。通过对两个标准数据集的测试,相比其他多标记学习算法,En-MLCKNN在多个评估指标下具有优越性。