论文部分内容阅读
Pearl等人提出的因果图模型是一种重要的因果推断工具,它通过一个拓扑图结构和相应的概率分布来直观地表示多个变量间复杂的条件独立性关系和因果关系,从而可把一些复杂的高维系统进行分解简化。本文利用图模型的这一优点来研究复杂数据中的因果推断问题。这里的复杂数据包括两类情况:一是含有未观测到的隐变量和选择变量的数据;二是既有离散变量又含连续变量且含有异常值的小样本数据。
对于第一类复杂数据,由于传统的有向非循环图(DAG)模型不满足关于条件独立性的边缘化和条件化运算的封闭性,无法刻画观测到的变量上的条件独立性结构和因果结构,而最大祖先图(MAnG)模型作为DAG模型的一种推广,克服了DAG的这一缺陷,有助于解决第一类复杂数据中的因果推断问题。本文利用MAnG模型研究这种复杂数据中的因果推断问题:(i)研究MAnG的Markov等价性问题,给出一个简单直观的判别两个MAnGMarkov等价的充要条件;(ii)若一个MAnG和DAG、无向图或者链图Markov等价,则对它的统计分析就可大大简化,本文给出了判断一个MAnG和DAG、无向图或者链图等价的充要条件,以及把一个MAnG转换成等价的DAG的快速算法。(iii定义一种并图来完全代表一个MAnG等价类,对这种并图进行刻画,给出一个混和图成为一个MAnG等价类的并图所应满足的一些条件,并提出根据一个给定的MAnG来学习其等价类并图的算法。在一定假设下,该算法也可用于从观测数据判断模型中是否存在隐变量或者选择变量,以及推断模型中的因果关系。
除了对因果关系的定性推断外,本文还讨论了当因果图中某些变量未观测时如何定量识别、估计因果效应的问题。对同一模型,可能存在多种识别因果效应的方法。本文在大样本情形下用Guass线性结构方程模型比较了常用的几种不完全观测时因果效应识别方法(后门规则、前门规则、工具变量方法)在估计总效应时的渐近方差,这对选择更精确的方法来估计因果效应具有重要意义。
对于第二类复杂数据中的因果推断问题,本文主要结合医学上一种中药—降脂灵片的药效分析实例来进行探讨。针对该数据的特点,本文首先对数据中的异常值进行修正填补,对变量做了正态性变换,然后在条件Gauss分布假设下,先分析连续变量的边缘模型的结构,把这个结果作为先验信息,用来缩小整个变量上的模型选择的范围,最终通过最大似然规则选出一个最适合数据的链图模型。该链图结构表明降脂灵对提高机体抗氧化能力有显著疗效,对降低血脂水平有一定的效果,但相对前者而言,后者的效果不太显著。