论文部分内容阅读
本论文主要分两部分,首先介绍一种关于Bayesian网络结构学习的逐步算法,这个算法建立在聚类分析方法思想上,另一部分中给出及证明了ε-加速EM算法的一些理论结果,并提出了ε-加速ECM算法。
图模型(Graphical Models)是一个新兴的统计领域,其在统计学、社会科学、计算科学及经济学中得到广泛的研究和应用。图模型利用图结构描述被研究的系统,并利用图与概率分布联合进行推断。Bayesian网络是一种很常见的图模型,它常用来描述大量变量之间的关系,比如基因网络。聚类分析是一种传统的多元统计方法,利用其可将变量或个体分配到不同类中去。确定类的方法就是使得同一个类中变量(或个体)要比不同类中的变量(或个体)相似度高。比如有相似表达的基因会被聚到一起。在本论文中,我们将网络构建和聚类分析组合在一起,提出了一种网络结构学习的算法。一方面,本算法可以用Bayesian网络描述每个类里面变量之间的关系,另一方面也利用聚类分析辅助网络的构建。在这个逐步的算法中,当几个小的子类汇聚为一个较大的子类时,对应的小子图也合并成为一个大一点的子图。
EM算法是一种迭代算法,其广泛应用于求解极大似然估计的问题中,尤其对于缺失数据或不完全数据问题非常有效。然而,EM算法常因为其收敛速度慢的缺点而被批评。目前已经有很多种算法用于EM算法的收敛加速问题中。由Wynn提出的ε算法是一种非常有用的外推性算法,它可以明显的加快线性收敛序列的收敛速度。Kuroda和Sakakihara提出了一种建立在ε算法基础上的,可用于EM算法加速收敛问题的新算法,ε-加速EM算法。ε-加速EM算法在迭代时并不需要计算信息矩阵,而只需要EM算法得到的迭代序列,从而保持了EM算法的可操作性和简单性。本论文中将给出ε-加速EM算法理论方面的一些结果及相关证明,并将其推广到ECM算法中,提出ε-加速ECM算法。