论文部分内容阅读
                            
                            
                                膜计算(Membrane Computing)是一种新型的自然计算方式,目的是通过模拟活细胞、活细胞组织和活细胞器官的功能和结构,并抽象出其生化反应和物质交流来实现计算过程。膜计算具有分布式、极大并行性以及具有完备计算能力的优点,目前,膜计算模型已经开始应用于生物学、医学、计算机科学、经济学等实际问题。它是一个富有前景的研究领域,预期将在新计算技术领域中起到关键作用。从理论上来讲,一些简单的膜系统就具有和图灵机同等的计算能力,鉴于该计算模型强大的并行计算能力,膜计算可能会超越图灵机或取而代之。因此,对膜计算的研究一直备受学者们的关注。作为数据挖掘技术中一项非常有用的工具,聚类分析也越来越引起人们的关注。聚类分析是一种常见的数据分析工具,已经广泛地应用于许多应用领域,包括市场研究、模式识别、数据分析和图像处理等等。在信息技术快速发展的今天,数据以前所未有的速度在不断地增长和积累,社会进入了大数据时代。数据就是知识财富,如何有效的利用这些大规模数据显得尤其重要。聚类分析的目标就是将杂乱的大量数据按照一定特征分成若干类,使得每类中的数据最大程度地相似,而不同类中的数据最大程度的不同,有助于人们更好地从这些海量数据中挖掘出新的商机。由此,聚类分析将成为大数据挖掘领域中一个非常活跃的研究课题。要处理这些海量数据,现有计算机的运行速度越来越难以满足人类的需求,科学家们开始寻求新的计算模型,希望提高计算机的运行速度。基于膜计算的分布式、极大并行性和非确定性等特点,本论文尝试将膜计算与聚类算法进行结合,在保证聚类质量前提下,利用膜计算模型提高聚类运算速度,以帮助人们更好的应对大数据时代。本论文的主要工作包括:一是将膜计算与改进的K中心点聚类算法进行结合,提出基于类细胞P系统的K中心点聚类算法。设计出膜结构、膜对象、膜规则以及规则优先关系,每一个膜代表一个簇,各个代表数据点的对象进入相异度最小的膜,直到各个膜内的中心点不再发生变化为止;二是将类细胞P系统与MapReduce模型进行结合。在该P系统中,一系列的细胞膜分别表示MapReduce模型中映射、规约阶段的各个worker以及结果输出,数据对象在各个膜内按照一定的规则进行演化,最后输出膜里的对象即为最终的MapReduce处理结果;三是将基于MapReduce结构的类细胞P系统和K均值聚类算法进行结合。根据类细胞P系统与MapReduce模型进行结合的特点和规则设计准则,结合K均值聚类基本算法的核心思想,利用基于MapReduce结构的类细胞P系统去实现K均值聚类算法,使其在保证聚类质量的前提下,用更短的时间完成聚类过程,提高聚类效率。