论文部分内容阅读
随着互联网的快速发展和全球化趋势的进一步深化,文本数据呈现大规模的增长。同时,自动翻译系统的兴起使得文本数据很容易被翻译成其它语言,从而促进了多语种文本数据的产生,为多语种文本聚类提供了数据支撑。传统的文本聚类算法在对多语种文本数据聚类时,仅考虑多语种文本数据的各个不同的语种信息,忽略了多个语种之间的潜在的关联信息,使数据模式结构中包含单个语种信息带来的偏见。IB方法是一种基于率失真理论的数据分析方法,在对高维稀疏数据进行聚类时具有独特的优势。该方法将数据模式的提取视为一个数据压缩的过程,即将数据对象压缩到一个“瓶颈”变量中,同时最大化地保存数据中的信息量,可有效地发现数据对象间所蕴含的内在模式。目前IB方法已在众多领域中取得成功的应用。多元IB方法是对IB方法的扩展,在处理多语种文本时有着独特的优势,多元IB方法主要有并行IB和对称IB。针对传统文本聚类算法在处理多语种文本时仅考虑多语种文本数据的各个不同的语种信息,忽略了多个语种之间的潜在的关联信息的问题,本文提出一种基于并行IB的多语种文本聚类算法:ML-PIB算法。该算法在对多语种文本数据进行聚类分析时,能够同时考虑多个语种的语种信息,进而有效挖掘各个不同语种信息之间蕴含的关联,有效提高聚类质量。该算法首先针对不同语种,构建相应的相关变量;其次,使用互信息度量多个语种特征信息之间的信息量;最后,采用基于信息论的优化方法来优化其目标函数,保证收敛到局部最优解。通过在Reuters Multilingual数据集上实验结果表明:ML-PIB算法能够有效处理多语种文本的多个语种信息,相对于面向单一语种的sIB算法和传统k-means算法、PLSA算法、LDA算法,ML-PIB算法都得到了更高的聚类精度和标准化互信息,同时ML-PIB算法与现有的5种多语种文本聚类算法相比也具有明显优势。