基于新型多标记集成学习方法的文本分类研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：cnreon

【摘要】

：

随着Internet网络的发展与普及,文本资源呈现指数级的增长。作为组织和管理大量文本信息的重要方式,文本分类不仅能够解决如何更好地使用这些文本的问题,而且能够有助于挖掘

【作者】

：

张涛

【机构】

：

南京邮电大学

【出处】

：

南京邮电大学

【发表日期】

：

2015年期

【关键词】

：

文本分类多标记学习代价敏感机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet网络的发展与普及,文本资源呈现指数级的增长。作为组织和管理大量文本信息的重要方式,文本分类不仅能够解决如何更好地使用这些文本的问题,而且能够有助于挖掘出潜藏在这些文本资源中的价值。由于文本通常同时与多个类别相关,文本分类往往可看作是一个多标记学习问题。多标记学习作为一种新型的机器学习方法,对于多义性的建模具有十分重要的意义,在信息检索、Web挖掘、生物信息学和自动标注等诸多领域得到了广泛应用。本文以应用多标记学习方法解决文本分类为目标,对文本分类、数据集处理、文本预处理、文本变换、特征选择、特征加权、多标记分类和多标记分类评估等诸多内容进行了研究,并且对特征选择和多标记分类方法进行了改进与优化。本论文研究内容和创新工作主要包括以下三个部分:(1)基于多标记学习的文本分类框架文本分类往往可看作是一个多标记问题。在深入研究文本分类和多标记学习的基础上,本文提出了基于多标记学习的文本分类框架,主要包括了文本变换、多标记学习分类和多标记分类评估等新型的技术。(2)基于集成多标记学习的文本分类算法(En-MLKNN)基于多标记文本分类的框架,集成目前三种主流的特征选择方法,并对最好的多标记学习算法之一MLKNN进行改进,设计了En-MLKNN算法以解决文本分类问题。通过对两个标准数据集的测试,相比其他多标记学习算法,En-MLKNN在多个评估指标下具有优越性。(3)基于代价敏感的集成多标记学习文本分类算法En-MLKNN算法可应用于文本分类并取得了较好的性能,但存在类不平衡问题。基于代价敏感解决类不平衡的思想,本文提出了En-MLCKNN算法。通过对两个标准数据集的测试,相比其他多标记学习算法,En-MLCKNN在多个评估指标下具有优越性。

其他文献

LTE核心技术应用和系统架构研究

LTE(Long Term Evolution)是3GPP为了应对以WiMAX为代表的宽带无线接入技术对传统3G的挑战,提出的3G向4G通信过渡标准,通常被称为3.9G,并不是真正意义上的4G。然而LTE和4G采

学位

LTEOFDMMIMOTDD和FDD对比分析

浅谈市政工程施工企业成本管理

期刊

计算机机房的雷电防护途径研究

期刊

基于IEEE 802.11的无线传感器网络MAC层协议建模与性能研究

作为对有线网络的有效补充和扩展,近年来无线网络通信技术得到了飞速发展和普及,以无线局域网(Wireless Local Area Networks)为代表的无线通信新技术不断涌现。同时一种基于

学位