复杂数据中因果推断问题的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:wsq27028320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Pearl等人提出的因果图模型是一种重要的因果推断工具,它通过一个拓扑图结构和相应的概率分布来直观地表示多个变量间复杂的条件独立性关系和因果关系,从而可把一些复杂的高维系统进行分解简化。本文利用图模型的这一优点来研究复杂数据中的因果推断问题。这里的复杂数据包括两类情况:一是含有未观测到的隐变量和选择变量的数据;二是既有离散变量又含连续变量且含有异常值的小样本数据。 对于第一类复杂数据,由于传统的有向非循环图(DAG)模型不满足关于条件独立性的边缘化和条件化运算的封闭性,无法刻画观测到的变量上的条件独立性结构和因果结构,而最大祖先图(MAnG)模型作为DAG模型的一种推广,克服了DAG的这一缺陷,有助于解决第一类复杂数据中的因果推断问题。本文利用MAnG模型研究这种复杂数据中的因果推断问题:(i)研究MAnG的Markov等价性问题,给出一个简单直观的判别两个MAnGMarkov等价的充要条件;(ii)若一个MAnG和DAG、无向图或者链图Markov等价,则对它的统计分析就可大大简化,本文给出了判断一个MAnG和DAG、无向图或者链图等价的充要条件,以及把一个MAnG转换成等价的DAG的快速算法。(iii定义一种并图来完全代表一个MAnG等价类,对这种并图进行刻画,给出一个混和图成为一个MAnG等价类的并图所应满足的一些条件,并提出根据一个给定的MAnG来学习其等价类并图的算法。在一定假设下,该算法也可用于从观测数据判断模型中是否存在隐变量或者选择变量,以及推断模型中的因果关系。 除了对因果关系的定性推断外,本文还讨论了当因果图中某些变量未观测时如何定量识别、估计因果效应的问题。对同一模型,可能存在多种识别因果效应的方法。本文在大样本情形下用Guass线性结构方程模型比较了常用的几种不完全观测时因果效应识别方法(后门规则、前门规则、工具变量方法)在估计总效应时的渐近方差,这对选择更精确的方法来估计因果效应具有重要意义。 对于第二类复杂数据中的因果推断问题,本文主要结合医学上一种中药—降脂灵片的药效分析实例来进行探讨。针对该数据的特点,本文首先对数据中的异常值进行修正填补,对变量做了正态性变换,然后在条件Gauss分布假设下,先分析连续变量的边缘模型的结构,把这个结果作为先验信息,用来缩小整个变量上的模型选择的范围,最终通过最大似然规则选出一个最适合数据的链图模型。该链图结构表明降脂灵对提高机体抗氧化能力有显著疗效,对降低血脂水平有一定的效果,但相对前者而言,后者的效果不太显著。
其他文献
学位
本文的灵感来自近年来模型论领域兴起的稳定性和单纯性理论的研究.序和树分别是稳定性理论和单纯性理论研究中的。 本文以量词消去为法为重要的研究工具.这一方法对模型论
本文详细介绍了虚拟仪器技术和先进总线技术研究,介绍了传统多道分析器的工作方式和弱点。详细说明了利用虚拟仪器技术,采用CB公司的PCI-DAS4020/12数据采集卡在LabVIEW软件环境
一、令F是有两个复变元的到加法Abel群的一致函数,若〈x+1,y〉∈Dom(F)对所有的〈x,y〉∈Dom(F)均成立,我们将证明对任何〈x,y〉∈Dom(F)和m,n=1,2,3,…有如下互反律: 同时,本文中将给出此
计算机层析成像技术(CT)是近十几年发展起来的一种新的非接触无损检测技术,它具有检测精度高、重建图像无影像重叠、空间分辨率和密度分辨率高、可以直接进行数字化处理等优点
本篇博士论文的研究方向是正则结构理论和非线性SPDEs的Wong-Zakai逼近。  正则结构理论是M.Hairer在2013年研究时空白噪声驱动的半线性抛物SPDEs局部存在唯一解时提出的。
科技是第一生产力。在人们的创富过程中,以传播科技为宗旨的科技电视节目自当助一臂之力。尤其对于以“草根”代称的广大基层普通百姓来说,农业科技电视节目凭其诸多优势,作
多项式系统根的隔离界,即对于给定的多项式系统及其零点,该零点与多项式系统其他零点之间最小距离的下界。多项式系统根的隔离是多项式系统求解问题中的一项重要内容,也是很多符
在本文中,我们构造了两个主要结果。  第一个结果:对聚合分子动能方程关于小Deborah数展开能导出弹粘性流体模型,这是Degond-Lemou-Picasso[1]在2002年做出的工作。受到这项
本次论文是以国家科技攻关计划课题《青海省察尔汗盐湖大规模氯化钾生产的采卤方案研究》为基础的,主要是从察尔汗盐湖首采区的实际出发,建立卤水运动和反映固液转化的溶质运