论文部分内容阅读
面对大规模的、高维的文本数据,如何建立有效的、可扩展的文本聚类算法是数据挖掘领域的研究热点。针对这些问题,本文对文本聚类分析所涉及的若干问题进行了较深入的研究,主要包括如下几个方面:提出了一种基于投影寻踪的文本聚类新算法,该方法利用遗传算法寻找最优投影方向,将文本特征空间投影到一维空间上,从而以直观的方式显示出数据的结构特征,实现文本聚类分析的可视化。针对文本特征向量维数高和k-means等方法需要预先确定聚类数的问题。提出了基于LSA、CI、RP及NMF的RPCL文本聚类算法,先运用LSA等方法对文本特征矩阵进行降维处理,再运用RPCL算法进行文本聚类,这些新方法不仅可以有效地降维,还可克服k-means等方法需要预先确定聚类数的困难。基于向量空间模型,提出了一种基于双词关联的文本特征选择新模型,这种模型在向量空间模型的基础上,增加了文本的双词关联信息,使得向量空间模型中所包含的文本特征信息更加丰富、更加准确,结合隐含语义分析方法降维后,不仅有效地降低了维数,还进一步减少噪声凸现文本的语义特征,从而提高文本挖掘的质量。基于文档标引图特征模型,提出了一种新的基于短语的相似度计算方法,并采用变换函数对文档相似度值进行调整以使其获得了更好的可区分特性,从而更加有利于文本的聚类分析、分类等处理。将基于后缀树的聚类方法用于中文文本聚类中,这种方法将文本看成是一些短语的集合,通过后缀表达文本的相似关系,实现文本聚类。这种方法可以解决多主题的文本聚类问题,并克服了k-means等硬聚类算法将文本严格划分类问题,实现文本的软聚类。