基于并行IB的多语种文本聚类研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:jerry8006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和全球化趋势的进一步深化,文本数据呈现大规模的增长。同时,自动翻译系统的兴起使得文本数据很容易被翻译成其它语言,从而促进了多语种文本数据的产生,为多语种文本聚类提供了数据支撑。传统的文本聚类算法在对多语种文本数据聚类时,仅考虑多语种文本数据的各个不同的语种信息,忽略了多个语种之间的潜在的关联信息,使数据模式结构中包含单个语种信息带来的偏见。IB方法是一种基于率失真理论的数据分析方法,在对高维稀疏数据进行聚类时具有独特的优势。该方法将数据模式的提取视为一个数据压缩的过程,即将数据对象压缩到一个“瓶颈”变量中,同时最大化地保存数据中的信息量,可有效地发现数据对象间所蕴含的内在模式。目前IB方法已在众多领域中取得成功的应用。多元IB方法是对IB方法的扩展,在处理多语种文本时有着独特的优势,多元IB方法主要有并行IB和对称IB。针对传统文本聚类算法在处理多语种文本时仅考虑多语种文本数据的各个不同的语种信息,忽略了多个语种之间的潜在的关联信息的问题,本文提出一种基于并行IB的多语种文本聚类算法:ML-PIB算法。该算法在对多语种文本数据进行聚类分析时,能够同时考虑多个语种的语种信息,进而有效挖掘各个不同语种信息之间蕴含的关联,有效提高聚类质量。该算法首先针对不同语种,构建相应的相关变量;其次,使用互信息度量多个语种特征信息之间的信息量;最后,采用基于信息论的优化方法来优化其目标函数,保证收敛到局部最优解。通过在Reuters Multilingual数据集上实验结果表明:ML-PIB算法能够有效处理多语种文本的多个语种信息,相对于面向单一语种的sIB算法和传统k-means算法、PLSA算法、LDA算法,ML-PIB算法都得到了更高的聚类精度和标准化互信息,同时ML-PIB算法与现有的5种多语种文本聚类算法相比也具有明显优势。
其他文献
近年来,电力企业在信息化建设方面迈出了可喜的步伐,大部分应用系统采用了大集中的服务器部署模式(服务器集中在省级公司)。毫无疑问,业务种类及并发用户数量的不断增长导致
无线传感器网络是新兴的下一代传感器网络,它有望建立起一种无处不在的网络,渗透到社会生活的方方面面,必将极大地影响或改变人们的工作生活方式。这种新的数据采集与处理技
信息系统的广泛使用及大量医疗数据的存储,使得数据的交换和整合越来越频繁,由于大量异构逻辑数据源的存在,数据挖掘和数据整合技术成为多应用系统整合的关键。本文对美国美中互
学位
问题解决是人类思维最常见的一种形式,是人类重要的高级智能活动之一。认知的信息加工理论认为,问题解决的过程,主要是对问题空间进行搜索的过程。然而,毫无目的盲目的搜索效率很
学位
伴随互联网的迅速发展,网络安全已成为人们普遍关注的课题,网络安全技术越来越受到重视。作为网络安全的第一道防线,防火墙技术已经成为网络安全体系中一个最重要的环节。IPv6协
学位
在社会快速发展,人们对新产品的服务和需求日益强烈的背景下,嵌入式技术需要不断的更新和发展。随着理论研究的进一步深入,建立嵌入式平台的Linux操作系统内核和根文件系统制
在传统的应用程序开发过程中,随着国家政府部门的法律法规的改变、企业的市场竞争策略以及内部管理方式的改变、不同客户的个性化需求的不同,使得信息系统的需求经常性的发生
云计算是随着大规模计算机、个人计算机、互联网的发展而产生的第四次IT产业革命,谷歌首先定义并发展了云计算。而云计算的开源模型Hadoop是一种基于Java的通过运行可分布式
公共对象请求代理体系结构CORBA是为了解决分布式异构环境下对象之间的互操作性问题而提出的基于中间件的分布式对象技术,其核心是一套标准的语言、接口和协议,以支持异构分
学位
信息技术的高速发展导致了海量数据的产生。如何在这些海量数据中发现有用的知识,是我们目前面临的最主要问题。数据挖掘技术的出现,为解决这一问题提供了有力的工具。在这些