论文部分内容阅读
随着社会的进步和Internet高速发展,如何快速准确地获取自己所需的信息已经成为目前我们迫切需要解决的问题之一。文本分类和聚类是信息处理的重要技术,因而也成为了目前研究的热点。本文主要研究了文本分类和聚类的相关算法,分析了其中的相关技术以及难点。
首先,介绍了文本分类中所涉及的主要技术:文本表示、特征选择与抽取、分类算法和分类性能的评测。其次,着重剖析了KNN文本分类算法,指出其优点及不足。为了克服KNN分类器速度慢的缺陷,提出采用文本聚类对训练集样本库进行合并,将若干样本合并为少量样本中心来减少计算量。再次,介绍了几种常见的文本聚类算法。对基于划分的分类算法:k-means和k-medoids进行了深入的分析与研究,发现k-means等基于划分的聚类算法对聚类初始点选择十分敏感。应用较多的随机选取聚类初始点的方法虽然简单,但是聚类结果很不稳定,时间开销大。针对这一点,本文提出了基于文档相似度的初始化聚类中心点算法,随后通过实验验证了其优越性,并采用这种基于文档相似度的k-means聚类算法对训练集样本库进行合并。最后,本文设计并初步实现了一个基于聚类算法的快速KNN文本分类系统,通过实验验证了采用文本聚类对训练集样本库进行合并,将若干样本合并为少量样本中心,可以在保证分类准确率的情况下,大幅提高KNN文本分类器速度。