论文部分内容阅读
近年来,由于社交网络,即时通讯工具的普及,大量的文本数据涌入我们的生活。如何利用文本挖掘技术,从海量“堆积如山”的文本数据中更快速寻找到有价值的信息,成为各行各业的需求。文本聚类是文本挖掘的重要组成部分,如何有效的对文本大数据进行聚类一直是一个研究热点。 文本数据通常采用矢量空间模型表示。在模型中,每个文本表示成一个向量,向量中的元素表示关键词在文本中出现的频率。文本集中所有关键词的集合构成了文本集合的向量空间。文档中的关键词数以万计,而每个文档只包含部分关键词,文档向量上大部分关键词特征取值为零,造成了文本数据高维稀疏问题。加之文本数据数据量庞大,传统数据挖掘聚类方法在文本数据上面临挑战。层次聚类算法可以任意选择相似度函数,聚类效果稳定,但时间复杂度高,难以应对大数据;基于划分的聚类方法时间复杂度低,但是欧氏距离相似度在超高维稀疏性场景下失效,影响聚类精度。 针对上述问题,本文提出LDA-FG-K-Means双层软子空间文本聚类算法,可对文本数据进行有效聚类。该算法首先基于LDA模型将文本数据中的关键词依据主题进行高效分组,然后在包含分组信息的文本数据集上应用FG-K-Means算法进行聚类。为提高FG-K-Means算法对平衡文本数据集的聚类精度。本文参照Hartigan方法对FG-K-Means算法进行改进,增加对聚类簇样本数量的惩罚因子σ,并给出了新算法Balance-FGKM的参数求解过程。最后,本文将新算法与聚类集框架相结合,进一步提高新算法在文本聚类中的稳定性。实验证明,上述改进方法使文本聚类准确率显著提升。 本文主要贡献为1)将LDA主题模型运用于关键词分组,提出LDA-FG-K-Means文本聚类方法,有效解决对高维稀疏文本数据的聚类;2)改进FG-K-Means算法,提出Balance-FGKM,解决FG-K-Means在文本聚类时聚类簇样本数量失衡问题;3)提出新算法的聚类集成方法,降低了算法初始化条件对Balance-FGKM精度的影响。