基于MapReduce的文本挖掘研究

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:mkl119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网与通信技术的迅猛发展,数据逐渐呈现出海量、异构、多样等特性。在互联网知识呈现的形式中,80%的信息是以文本形式存在,而人们在面对这些海量数据时,尝尝陷入“数据丰富,知识匮乏”的尴尬境地。文本挖掘的出现,使得信息杂乱的问题得到了有效改善。文本分类是文本挖掘与信息检索的重要基础与研究热点,近年来随着研究的广泛,文本分类在信息检索、舆情分析、信息过滤和新闻分类等多个领域取得成功了应用。然而,随着数据规模呈指数级的增长,传统的串行算法难以满足海量文本数据分析处理所要求的计算空间与能力,这也导致文本分类面临许多新的问题和挑战。近年逐步兴起的MapReduce计算模型能够以简单易于理解的框架和强大的并行计算能力解决了海量数据处理问题,并且在学术界与工业界也得到了广泛认可与应用。本文的研究内容主要从文本分类与大数据并行处理两个方面着手,介绍了文本分类的相关理论知识和MapReduce编程模型的相关技术,在并行运算模型的开源实现Hadoop平台上,提出并实现了一种简单、有效的文本分类方法——基于MapReduce的平均朴素贝叶斯文本分类算法。该方法在多项分布假设下,利用了文本特征的tfidf权值,较大限度地保存了文本的语义信息。同时实验了在不同大小,不同语言的语料库上的表现情况,并与普通贝叶斯分类在训练时间、分类性能等方面进行了对比。实验结果表明,由于减小了文本冗余特征信息的影响与并行计算良好的扩展性,该方法适用于处理大数据集,尤其是在传统串行算法无法处理的情况下;针对不同语言的数据集,在实验数据大小相近的情况下,由于文本预处理等方式的差异,英文语料库的分类效果优于中文语料库。最后在分类效果实验中,该方法在分类性能评价上高于一般朴素贝叶斯方法,且具有较好的加速比。
其他文献
本文通过对凯恩斯学派的货币政策传导机制理论、后凯恩斯学派代表人物托宾的资产组合调整理论、莫迪利亚尼的财富效应理论、信用供给可能性理论以及货币学派代表人物弗里德曼
最近几十年来,世界上掀起了不可逆转的区域经济一体化浪潮。欧盟和北美自由贸易区的快速发展,已经成为世界经济中两支重要力量,影响和主导着世界经济格局。在亚洲地区,最近几年区
金融业是国家经济安全的根本,金融稳定实际上是稳定整个经济的关键因素,同时也是稳定整个社会的关键,而银行系统的稳定是金融稳定的核心.所以,国有商业银行上市只能成功,不能