基于聚类和分类技术的文本分类研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:shijianwu2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
90年代以来随着信息存储技术和通讯技术的发展,大量的信息爆炸式增长,信息自动分类已经成为人们获取有用信息不可或缺的工具。文本分类是中文信息处理的一个重要的研究领域,其目标是在分析文本内容的基础上,给文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。目前已经有许多方法应用到该领域,如支持向量机方法(SVM)、K近邻方法(KNN)、朴素贝叶斯方法(Naive Bayes)、决策树(DecisionTree)等等。朴素贝叶斯分类以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,是目前公认的一种简单有效的概率分类方法,在某些领域中表现出很好的性能。贝叶斯方法的一大优点是利用了先验信息,能够在不确定性的推理中提供一种模式和处理方法。朴素贝叶斯与其他分类法相比,具有更小的出错率和较高的健壮性和效率。   但是对于中等规模以上的文本数据集,其特征词往往达到数万个,这种高维度的数据对于贝叶斯分类算法来说,影响是致命的。这样会导致其分类速度慢,难以在大规模海量信息处理中得到有效应用。采用k—means聚类算法对待分文本进行聚类分类,降低贝叶斯分类器分类文本维度,有效地解决维数灾难的问题。既能克服贝叶斯分类速度慢的缺陷,又能保持较高的分类准确率,使得贝叶斯文本分类应用更加广泛。本文所做的工作:   1.描述了文本分类和文本聚类技术,着重介绍了文本聚类和文本分类处理过程中所需要的文本表示、文本特征提取、分类器测试等重要步骤。   2.分析了K—means文本聚类和朴素贝叶斯分类方法的优缺点,将K—means文本聚类方法和朴素贝叶斯分类方法相结合,利用K—means文本聚类方法对朴素贝叶斯分类方法速度慢的缺点进行改进。   3.根据文本挖掘的一般过程,构建了一个基于向量空间模型的文本自动分类原型系统。   4.在构建的文本自动分类原型系统中实现了K—means文本聚类方法对朴素贝叶斯分类方法进行改进,验证了其对普通朴素贝叶斯分类方法进行改进的有效性。
其他文献
无线Ad Hoc网络是一种没有基础设施的多跳移动自组织网络。在该网络中,每个节点既可以作为源和目的节点发送和接收数据,同时又可以作为路由器转发来自邻居节点的数据包。所有
随着Web上信息的爆炸式增长,出现了资源迷向、信息过载等诸多问题,传统的信息检索技术已不能解决此类问题。近年来,基于情景的检索技术成为了研究热点。在检索过程中,不论用户,还
长久以来对气候和降水量的预测多采用统计分析学、数值天气预测或插值拟合等方法,着重历史数据和未来数据间的非线性关系,计算量大而且预测结果不能让人满意。虽然这些方法在
伴随着我国经济、社会、文化等领域的不断发展,城市化进程不断加快,随之而来的优势与问题日益凸显。无论是展现国家综合实力的大型文体活动的节目编排,或是应对突发紧急事件
初级运动皮层神经元集群解码是运动型植入式脑机接口发展的核心组成部分。已有的解码算法(直)接利用分类多通道信号所得的所有神经元,以建立其与外部运动参数的联系。本质而
随着网络技术的飞速发展,网络攻击方法与手段日趋复杂多变,使得防火墙、入侵检测系统、杀毒软件等安全技术和产品层出不穷,虽然都能保障信息的安全性,但都因其具有高度的针对
现代社会中信息安全的重要性日益凸显,密码技术作为信息安全的基础和核心,受到了广泛关注和高度重视。作为密码学的一个重要分支,分组密码被广泛应用于各种安全应用和网络协
随着互联网技术(特别是Internet)的发展以及多媒体信息技术的广泛使用,数字信息(包括数字音频、数字视频、数字图像等)的使用变得更加频繁和广泛.随之而来的就是人们对于数字
随着嵌入式技术的发展,嵌入式系统得到了广泛应用。低端微处理器由于成本较低,仍然是许多嵌入式系统的首选目标。目前,基于低端微处理器的应用,主要采用前/后台系统的方式进
本体是一种能够在语义和知识层次上对信息系统进行描述的概念模型,主要应用在对知识的组织、表示和管理等方面。本体已经在信息系统的诸多领域中得到了广泛的应用,例如知识管