论文部分内容阅读
本文主要探讨图模型的学习问题。对于有向无环图的局部学习问题,提出了POLSL算法;进而探讨了当连续型数据服从非高斯分布,变量间有非线性关系时学习图模型如何作检验的问题;非参数协方差矩阵模型可以视为一类拓展的图模型的前身,即随着一个指标变量的变化而协方差矩阵随之变化的模型。
对于有向无环图的局部学习问题,假设在一个大的因果网络中需要对某个目标变量进行预测,并且预测是在测试集上有外部干预的情形下进行的。本文提出两个算法并统称为部分定向局部结构学习算法(Partial Orientation and LocalStructure Learning,以下称POLSL)。它包括Local—Graph算法和PCD—by—PCD算法(这里PCD代表父节点(Parents]),子节点(Children)和后代节点(Descendants))。使用POLSL算法可以学习出来目标变量的局部结构并部分定向一些边而不用把整个因果网络构造出来。Markov等价类中能定向的边该算法都可以定出向来。这样就可以极大地将结构学习的计算量降下来并提高统计检验的功效。对于存在外部干预和不存在外部干预的不同情况,采取不同的策略选择变量集来建立预测模型。这里使用的是带有L1惩罚的logistic回归模型来作预测。
图学习的算法大体上可以分为两类:一类是constraint—based,一类是score—based。对于constraint—based类型的算法,不可避免要作条件独立性检验。但当条件集包含的变量很多时,样本量往往不足,使得检验的功效很低或根本无法完成:面对连续型数据,人们常常假设数据服从高斯分布,但当该假设不成立或者变量间的关系是非线性时,用一般的高斯分布的条件独立性检验会产生很大的偏差。本文指出,当数据中有降维结构时,可以对条件集进行降维,然后在降维后的数据上作检验。本文还提出一种对于连续型变量的非参数的检验条件独立性的方法。结合这两种新方法,可以相应地提高这些非标准情况下作检验的功效。本文给出了一些模拟结果。
对于服从高斯分布的连续型数据,学习其对应的无向图等价于求它的协方差矩阵的逆。一般来说,给定数据只有一个固定的协方差矩阵。本文试图拓展这个概念,提出一类“变系数协方差矩阵”模型,即对于一个指标变量(index variable),协方差矩阵是这个指标变量的光滑函数(矩阵值函数),即条件协方差矩阵。历史上对条件方差的估计已有很多研究,本文对条件协方差矩阵提出了一个非参数模型。提出了相应的基于核函数的估计量,并详细研究了该估计量的渐近偏差、方差和渐近正态性质。最后应用这个模型在一个实际的数据集上作了分析,得出了很多有趣的结论。