【摘 要】
:
朴素贝叶斯算法(Naive Bayes)是一种基于统计理论的分类算法,其在各种分类任务中有着广泛的应用。针对当前需要对海量的数据进行分类和用于训练的带标记的样本数据非常匮乏等
论文部分内容阅读
朴素贝叶斯算法(Naive Bayes)是一种基于统计理论的分类算法,其在各种分类任务中有着广泛的应用。针对当前需要对海量的数据进行分类和用于训练的带标记的样本数据非常匮乏等问题,本文选取了文本分类任务作为应用场景,然后对朴素贝叶斯分类算法、半监督学习算法与MapReduce分布式计算模型展开研究,论文的主要工作有:首先,本文介绍了云计算技术的背景和现状。其中本文详细讨论了开源的Hadoop分布式计算系统和MapReduce分布式计算模型,特别是对其分布式原理进行了的解释,同时介绍了基于Hadoop系统的两个分布式数据库系统——Hive项目和HBase项目;其次,本文分析了当前基于朴素贝叶斯算法的几种分类方法,并根据各个方法的特点选择了一种比较适合与MapReduce分布式计算模型相结合从而应用于海量数据的半监督的朴素贝叶斯算法,本文将该算法与MapReduce分布式计算模型相结合提出了一种并行化的半监督的朴素贝叶斯分类算法。然后本文将该算法应用于真实的文本数据,并对实验结果进行了分析,从实验结果可以看出该算法可以有效地应对海量的文本数据,同时利用无标记的文本提高分类器的分类性能;最后,本文介绍了一个基于Hadoop分布式平台的面向海量数据的挖掘工具——Dodo工具箱的设计,本文将会介绍如何使用该工具箱的各项功能、该工具箱的设计开发过程及其技术细节与创新点。
其他文献
该论文从领导信息系统的需求及其支撑技术两大方面展开论述.领导信息系统不同于一般的MIS系统,需求不是很容易明确,因为领导常常不能明确地说清楚自己真正的需求,因此正确地
随着经济的全球化和网络的急剧发展,由于Web服务的封装性、松耦合和跨平台性的优点,基于Web服务的应用越来越广泛。也正是因为这些特点,已有Web服务具有的功能比较单一,远远
该文对TCP/IP协议的安全性以及防火墙技术较全面深入的研究,首先论文对计算机网络安全进行了概念,重点从TCP/IP协议安全缺陷的角度分析导到因特网安全问题的原因,然后论文对
目前,三维服装试衣系统成为计算机应用的研究热点之一,而在三维服装CAD系统中,虚拟人是该系统的关键所在,好的拟人模特建模方法直接影响服装款式设计的难易程度和表现效果,然
并行处理已是计算机发展的必然.该课题在分布主存的并行机上基于数据并行和控制并行相结合的模式研制和开发一个并行处理系统.在多处理器的计算机体系结构下,研制开发了基于
该文的研究目的是为地图出版系统与地理信息系统提供一个统一的数据模型,针对地图出版的特点提出完整的数据处理方法,并在此基础之上,建立一个实用化的地图出版软件系统.为此
该文在对ME整体结构分析的基础上,分析了ME寄存器传输门结构的可控制性和可观测性.分析了ME设计中的功能部件,对用VHDL语言编写的功能部件分析了可控制性和可观测性.接着讨论
该文基于小波时-频窗指出小波变换存在"频带分割不到位"的缺陷而且时域的相位调制不能弥补这个缺陷,提出"能量因子"的概念并说明"小波窗口能量不集中"的问题.作为小波变换的
该文通过对一个远程水位监测系统的远程化和网络化的设计与实现,主要对面向对象的放网络通信节点上的数据分布算法进行了研究.为了使水位自动监测远程化、网络化,进而实现全