贝叶斯网络的局部定向和部分变量观测数据的学习

来源 :北京大学 | 被引量 : 0次 | 上传用户:Layman_Zhejiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有向无环图(DAG)是表示因果关系的很直观的工具,图中节点表示研究的变量,有向边表示因果关系,如X→Y表示变量X是变量Y的原因。用有向图表示因果在经济学,社会学和心理学中有很多应用,包括结构方程模型和路径分析方法。近十几年来,人们将图的结构通过Markov条件和变量的概率分布联系在一起,一个有向无环图G和一个满足Markov条件的分布P就构成了一个贝叶斯网络(Bayesian Networks),又称为概率网络(Probabilistic networks)或置信网络(Belief networks)。   如何通过观测数据学习潜在有向无环图是一个重要的问题。一方面,它可以从观测数据中挖掘变量之间的因果关系,增加我们的知识,另一方面,它可以用于干预下变量的预测问题。现有的学习算法可以分为基于条件独立性约束的和基于搜索得分的两类。基于独立性检验约束的方法逻辑清晰,可以应用于有隐变量的数据,可以方便的学习贝叶斯网络的局部结构,但是需要忠实性假定,基于独立性检验的学习在样本量趋于无穷时仍然不能消除因第一类错误造成的少边。后者不需要忠实性,可以自然的融合先验信息,能渐近的得到与分布相容的参数最少的模型,但是因为搜索空间太大所以收敛速度不快,且需要对分布做出参数化的假定,在样本量不够大时效果不好且不易推广到隐变量等情况。近来Guyon等人指出,贝叶斯网络结构学习的发展趋势是讲这两种算法结合起来[1],如MMHC算法等。   基于奥莱姆剪刀原理,对于一个分布P,本文定义相容于P的参数最少的有向无环图为”真”模型。对于忠实的分布P,这个”真”模型即与P忠实的有向无环图。对于基于独立性约束的算法,文中指某算法收敛至”真”模型,都是指,结果收敛到代表”真”模型观测等价类的部分有向图(PDAG)。对于贝叶斯方法,指得分最大模型属于”真”模型的观测等价类的概率趋于1。   本文研究了以下三个问题,并提出了自己的方法。   第一,对于学习MB的问题,提出了基于BIC得分的后退算法BIC-MB,并证明了算法和得分的相合性。现有的学习MB的算法都是基于独立性约束方法,只有在忠实性假定和条件独立检验正确的条件下才能保证算法的相合性。而学习MB(T)相当于预测T模型的变量选择问题,对指数分布族中,论文[3]中Haughton证明了BIC得分最大模型的相合性。本文在无约束的离散取值变量中推导了BIC得分,并证明了得分最大模型的相合性,同时提出了基于BIC得分的后退搜索算法,使得我们能仅需计算n(n+1)/2+1个模型的BIC得到的最大得分模型仍依概率收敛于真模型。而且这种相合性不需要忠实性条件。注意,本文中MB(T)定义为使得T()other|MB(T)成立的最小集合。在忠实性下,它是真模型G中T的父节点,子节点以及子节点的父节点的并。   第二,对于寻找目标变量T的父节点集pa(T)以及子节点集ch(T)的局部定向问题,提出了PCDbyPCD算法和MBbyMB算法,证明了在忠实性假定和假设检验正确的条件下,两个算法的结果和潜在模型等价类的结构一样。局部定向问题的研究源于WCCI2008因果挑战问题和NIPS2008的因果挑战问题。前者要求根据观测分布,对干预后的目标变量做出尽可能精确的预测,后者关心贝叶斯网络中目标变量周围的边的方向。他们共同的特点是变量数目很大,几百甚至几千,现有的全局贝叶斯学习算法计算速度都很难达到,且只关心目标变量周围的边及方向,而不关心整个网络的结构。对此,本文提出了PCDbyPCD算法。事实证明,这个算法相比全局算法速度大幅提高,而且模拟结果表明,在模型精度上与全局算法中精度最好的MMHC算法不相上下甚至更高。最终,本文的算法在这两次比赛中均战胜了其他团队提出的学习算法,获得了Best Overall Contribution奖,具体细节见[4][5]。MBbyMB算法借鉴了文[6]中局部学习的想法,在一定的独立性条件下,本文可以保证在部分变量上运行全局学习算法和在所有变量上计算的结果在某些局部一样,从而能够通过对部分变量数据进行学习得到局部定向。   第三,对于部分变量观测数据的贝叶斯网络学习问题,本文给出了一系列充分条件,并给出了这些条件下的学习算法,使得我们可以根据这些服从边缘分布的部分变量观测数据,在样本量充分大的时候,得到和数据完全观测一样好的结果。现实中,随着信息技术的发展,有越来越多的大型公共以及商业数据库建立起来,很多时候,我们并不一定能找到包含所有相关变量的观测数据。并且,有些时候即使我们有完全观测数据,我们也希望能够利用部分变量观测数据的信息提高学习效果。比如当一个数据集有大量数据有个别变量随机缺失时,希望利用那些有缺失的数据。关于在部分变量观测数据下如何学习贝叶斯网络的问题,现有的研究不多,Danks等在文献[7][8][9]中基于首先在每个数据中检验条件独立性,然后再根据这些独立性推断图模型的想法,最后提出了ION算法,整个讨论都是基于条件独立性约束方法。而且没有讨论什么时候我们能根据这个算法得到潜在图模型等价类的问题。本文考虑了如何根据部分观测数据得到和完全观测数据一样好的结果得问题,并给出了一系列条件和算法如下。如果根据ION[7]等算法或者专家经验,对每个变量X,已知集合pa+(X)包含X的所有父节点,且有同时含X和pa+(X)的数据Dx,那么可以通过搜索BIC*得分最大的有向无环图渐近得到真模型。其中BIC*是本文根据BIC的原则提出的定义在部分变量观测数据上的得分。进一步,如果对每个变量X,已知集合pc+(X)的包含X的所有父子节点,且有同时含X和pc+(X)的数据。那么本文提出了与MMHC类似的MMHC*算法,并证明了,在忠实性假定,假设检验正确,样本量充分大的条件下,此算法可得到真模型。同时,本文考虑了部分观测数据下贝叶斯网络的部分定向问题,得到如下结果。如果对每个变量X,已知集合pc+(X)包含X的所有父子节点,且有同时含X和pc+(X)的数据,本文结合独立性约束方法和搜索得分方法,提出了pcdpcd-bayes算法,并证明了在忠实性假设和假设检验正确的条件下,学得的局部定向依概率收敛于潜在图模型等价类的局部定向。最后,如果对每个变量X,已知集合mb+(X)包含X的MB,且有同时含X和mb+(X)的数据,本文提出了与MBbyMB类似的MBbyMB*算法,可以得到和完全数据一样的结果。   本文用LUCAS数据对BIC-MB算法进行了模拟研究。用ALARM网络对PCDbyPCD算法和MBbyMB算法进行了模拟,并介绍了在WCCI2008挑战比赛数据中我们的结果。最后,本文对pcdpcd_bayes算法进行了模拟。本文对所有由笔者得到的定理都给出了证明。  
其他文献
本文围绕环签名进行了相关研究,提出了一种效率较高的基于格的环签名,给出了一种对环签名实现强不可伪造性的方法。   数字签名是数字世界中对手写签名的模拟,在信息社会
随着全球人口老龄化现象日益加剧,养老金的保值、增值问题备受关注。通过投资来实现养老金的保值增值是一种常用的手段。但投资伴随着风险,因此需要寻找最优的投资策略。在实际的风险资产市场中,由于存在许多不确定的事件,像泡沫、灾难、金融危机等,都会对风险资产的收益和方差产生很大的影响。有大量的实证研究表明风险资产(如股票)的收益和方差都是随机的。所以,在风险资产的收益率和方差都是随机的条件下,对养老金计划的
基于非线性偏微分方程求解的迫切需要以及对称在偏微分方程研究中的重要作用,本论文针对一些具有物理意义和现实背景的非线性偏微分方程,运用李群理论和计算机符号计算,展开
优秀传统文化是中华民族宝贵的精神财富,是中国现代文明和先进文化发展的根与魂,将优秀传统文化融于小学语文学习,构建生态学习乐园,是小学语文教学值得研究的问题.
问题设计是初中物理教师很值得重视的问题,因为这关系着学生的听课状态、知识的掌握程度以及思维的活跃程度。本文分析了初中物理教学中的问题设计现状,指出了初中物理教学中
装箱问题是一个经典的组合优化问题,早在70年代初就受到不少学者的关注。然而随着计算机科学和生产技术的不断发展,经典的装箱问题远远不能满足人们生产、生活的需要,随之产生了
为了更好的描述具有结构时变性时间序列的变化情况,1989年Hamilton提出马尔科夫转换模型(Markov Switching Model,MS模型),可以根据时间序列数据表现出不同状态将其划分为不同阶
本论文主要研究了一类传染病模型的概周期解存在性与指数稳定性,以及一类捕食者-食饵模型的周期解的存在性,得到了一系列的新结果,并举例说明了所得结果的有效性,本文的结构如下:
本论文主要对两类生物数学模型进行定性研究,其一是研究具有变系数的带脉冲时滞SI模型的概周期解的问题,其二是研究具有逐段常数的对数群体模型的动力学行为的有关问题,并得到了
近年来,山东省卫生厅与时俱进,开拓进取,通过卓有成效的工作,取得了骄人的业绩,多次受到上级的表彰,仅去年抗击非典以来,该厅就先后获得山东抗击非典集体一等功、抗洪救灾先