文本自动分类的研究与实现

来源 :海南大学 | 被引量 : 0次 | 上传用户:show800811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet与Intranet的迅猛发展,电子文本的信息量呈指数增长,人们越来越渴望拥有能帮助其查找、过滤以及管理如此海量信息的工具,文本自动分类就是这样的工具之一。利用文本自动分类,文本信息可以自动地被分配到一个或多个已经定义好的类别中,这在很大程度上就解决了信息杂乱的问题,方便了用户快速、准确、全面地查找信息。而且作为信息过滤、信息检索、搜索引擎、数字化图书馆等领域的技术基础,文本自动分类有着广泛的应用前景。 本文对文本自动分类中的几项关键技术,如文本预处理、文本表示模型、特征选择、分类算法等进行了研究。从提高系统分类性能的角度出发,提出了几种有效的解决方法和改进技术。本文的主要研究内容和创新工作包括以下几点: (1)特征选择方法 特征选择就是在不降低分类性能的前提下,提取能够区分不同类别的特征子集合,从而达到删除冗余特征项,缩减文本特征空间维数,减轻分类器学习负担的目的。目前采用较多的特征选择方法有文档频次、信息增益、χ2统计、互信息等,本文从这些方法的基本原理和分类性能入手,着重分析了χ2统计和互信息这两种特征选择方法的优缺点以及它们之间存在的互补性,并在此基础上提出了一种联合的特征选择方法。在中文文本分类实验中,该方法取得了较高的微平均查全率和微平均查准率。 (2)基于广义向量空间模型的文本自动分类的研究 目前,很多分类方法都是基于传统向量空间模型和布尔模型的。然而在这两种文本表示模型中,特征项之间都被假设为是相互独立的,因此在该前提下讨论文本分类的问题显然不能令人满意。在广义向量空间模型中,不仅特征项之间相互独立的假设被剔除了,而且在该模型中文本能更加准确的表示出来,因此本文在文本自动分类中引入了广义向量空间模型,并在此基础上提出了基于广义向量空间模型的KNN和TFIDF文本分类方法。 (3)对广义向量空间模型下布尔交运算的修正 本文在对基于广义向量空间模型的文本自动分类问题进行研究时,发现广义向量空间模型下的布尔运算定律存在着不能满足吸收律、德.摩根法则的缺陷。本文通过对该定律中布尔交运算进行修正弥补了这一缺陷,并从理论的角度证明了改进后的布尔交运算的有效性。
其他文献
在计算机和通信技术高速发展的今天,大容量的多媒体数据及大规模的多媒体数据库对数字视频技术的要求越来越强烈。作为快速浏览大容量视频数据的有效手段,数字视频摘要起着
传统的身份验证方法已经不能满足现代信息社会的要求,生物特征识别技术以其特有的安全性,可靠性和有效性等越来越受到人们的重视。人脸识别和指纹识别作为两种最常用和方便的
近年来,DDoS攻击已经成为了网络上广泛传播的问题。这种攻击方式利用网络中大量的傀儡机向受害机发送大量的无用分组包,耗尽受害机CPU资源或者网络带宽,给网络安全带来很大的威
近十几年来,随着互联网的快速普及与发展,网上的应用越来越丰富,信息量更是呈指数级、爆炸式增长。互联网已经日益成为了人们获取信息的最重要的资源。然而,面对着如此海量的信息
本文详细分析了“NTN”技术校准宽带取样示波器的不确定度分量,并深入研究了不确定度的评定方法。其主要内容分如下四个部分进行阐述:第一、从原理上介绍“NTN”技术校准宽带
rTMS能影响大脑特定皮质区的功能,提高或抑制大脑皮质的兴奋性,对一些精神疾病病灶的定位和治疗显示了非常独特的功效。rTMS产生不同形式的脉冲磁场刺激方式,引起的神经纤维放电
无线通信技术的发展极大地方便了人们的生活。宽带和多媒体无疑是无线通信技术的发展目标,而稳定高速的无线数据传输则是实现这一目标的基础。正交频分复用技术(OFDM)是近年来
随着J2EE技术的不断发展成熟,性能问题开始暴露和突出。对J2EE应用服务器进行性能的测试和评估具有重要价值。性能良好的J2EE应用服务器有助于保证企业计算的效率。 在众多