论文部分内容阅读
90年代以来随着信息存储技术和通讯技术的发展,大量的信息爆炸式增长,信息自动分类已经成为人们获取有用信息不可或缺的工具。文本分类是中文信息处理的一个重要的研究领域,其目标是在分析文本内容的基础上,给文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。目前已经有许多方法应用到该领域,如支持向量机方法(SVM)、K近邻方法(KNN)、朴素贝叶斯方法(Naive Bayes)、决策树(DecisionTree)等等。朴素贝叶斯分类以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,是目前公认的一种简单有效的概率分类方法,在某些领域中表现出很好的性能。贝叶斯方法的一大优点是利用了先验信息,能够在不确定性的推理中提供一种模式和处理方法。朴素贝叶斯与其他分类法相比,具有更小的出错率和较高的健壮性和效率。
但是对于中等规模以上的文本数据集,其特征词往往达到数万个,这种高维度的数据对于贝叶斯分类算法来说,影响是致命的。这样会导致其分类速度慢,难以在大规模海量信息处理中得到有效应用。采用k—means聚类算法对待分文本进行聚类分类,降低贝叶斯分类器分类文本维度,有效地解决维数灾难的问题。既能克服贝叶斯分类速度慢的缺陷,又能保持较高的分类准确率,使得贝叶斯文本分类应用更加广泛。本文所做的工作:
1.描述了文本分类和文本聚类技术,着重介绍了文本聚类和文本分类处理过程中所需要的文本表示、文本特征提取、分类器测试等重要步骤。
2.分析了K—means文本聚类和朴素贝叶斯分类方法的优缺点,将K—means文本聚类方法和朴素贝叶斯分类方法相结合,利用K—means文本聚类方法对朴素贝叶斯分类方法速度慢的缺点进行改进。
3.根据文本挖掘的一般过程,构建了一个基于向量空间模型的文本自动分类原型系统。
4.在构建的文本自动分类原型系统中实现了K—means文本聚类方法对朴素贝叶斯分类方法进行改进,验证了其对普通朴素贝叶斯分类方法进行改进的有效性。