论文部分内容阅读
                            
                            
                                贝叶斯网络(Bayesian network,BN)是一种基于概率论和图论的相关知识而提出的图模型。它可以利用图的直观性将随机变量间复杂的关系得以呈现,因此在高维数据和复杂系统的研究中得到了很好的应用,逐步发展为现代统计学研究领域的热点。在近几年,关于贝叶斯网络的研究越来越受国内外学者的重视,其中模型选择是个关键问题,然而仅靠专家根据相关领域的知识来构建贝叶斯网络相当困难,甚至是不可能的。因此,通过对数据集的学习,构建贝叶斯网络具有重要意义。在深入研究贝叶斯网络基础理论及模型选择方法的基础上,从不同角度对原有方法进行改进,进而优化了贝叶斯网络模型选择的效果。具体工作有:对模型选择的评价准则进行了改进。在现有的贝叶斯网络模型选择的各种评价准则中,BIC评价准则最为常用。BIC准则的推导是基于大样本前提下进行的,小样本情况下构建的网络连通性不足,过于稀疏。小样本情况下,AIC准则构建的网络却比较复杂。针对这个问题,本文在深入分析这两个评价准则的基础上,引入调整因子,将BIC与AIC准则的惩罚项做加权处理,提出α-BIC评价准则,并结合理论分析和仿真模拟探讨了新准则在小样本条件下改进的合理性和建网的有效性。另外,对于目前越来越多的高维数据集,最大最小爬山法(MMHC)在贝叶斯网络模型选择问题上得到了广泛使用。该方法分两阶段,在第一阶段利用独立性检验降低了第二阶段评分搜索的搜索空间,建网的质量和效率较优,但第二阶段所用到的评价准则BDeu会对网络及参数的先验概率分布提前做假设,然而实际应用时不一定能满足这些概率分布的假设;而且该准则没有考虑对模型的复杂程度进行惩罚。而α-BIC准则综合考虑了所选网络与数据的拟合程度和模型自身的复杂程度,于是本文将α-BIC评价准则应用到MMHC方法中,并通过仿真模拟比较分析大样本情况下,α-BIC准则与BDeu、BIC、AIC准则对MMHC建网效果的影响。