论文部分内容阅读
贝叶斯分析方法由于其统计推断的灵活性,得到众多研究者的青睐。近年来,抽样技术不断进步和计算机性能的不断提升,使得相关计算在实际应用中更加便于实现,拥趸日益增多。本文主要利用贝叶斯方法,处理一些当前比较热门且实用的课题Lasso变量选择法,混合效应模型中的变量选择问题。Lasso方法可以同时实现参数估计与变量选择,且形式简单易懂,被广泛应用于各种学术领域,在实际中也有不俗表现。在贝叶斯框架下,当回归系数被施以独立Laplace先验时,其边际后验众数便与非贝叶斯型Lasso给出的估计一致。现有贝叶斯Lasso方法主要集中于使用MCMC抽样技术的迭代型算法:一种是在E-步使用马尔科夫链蒙特卡罗法(Markov Chain Monte Carlo,以下简称MCMC)的蒙特卡罗期望最大化(Monte Carlo Expectation Maximization,以下简称MCEM)算法,另一种则是采用MCMC技术的全贝叶斯分析方法。值得注意的是,采用MCMC迭代抽样技术,其抽样样本具有很大的相关性,因此很可能存在收敛问题或是收敛速度缓慢,并且计算量较大。为了解决这些难题,我们借助逆贝叶斯公式(Inverse Bayes Formulae,以下简称IBF),给出了两种新型的基于非迭代抽样技术的算法,能够快速有效的解决贝叶斯Lasso问题。混合效应模型常被用于刻画重复测量数据、纵向数据的特征,在生物医药以及计量经济等领域都有广泛应用。在实际应用中,纵向数据常常是非均衡的或是不完整的,换句话说,并不是所有的受试者均在相同的时间点被观测,而且关于每个受试者的观测样本数量、采样条件也不尽相同。在建模时需要考虑到纵向数据的非均衡性,并找到相对稀疏的协方差结构。因此,为了解决这些问题,我们针对这一类型的纵向数据,采用了既包含个体随机效应部分又带有服从自回归过程AR(1)的组间误差模型来进行拟合本文共分四个章节,全文组织如下第一章着重探讨本文的选题意义,并对相关背景知识作以简单的介绍第二章中,我们设计了一种基于IBF抽样的非迭代型抽样技术,采用MCEM算法求得层次模型中回归系数的边际后验众数,即为贝叶斯Lasso问题的解该算法在全条件分布为非显示式时,通过调整重要抽样的权重来实现模拟结果也显示,不论是在预测精度还是变量选择的准确性方面,我们的方法都不输于现行的一些贝叶斯Lasso方法,甚至更为出色,尤其是当样本量相对较大时。第三章中,我们同样就贝叶斯Lasso问题展开讨论,与第二章不同,我们在这里给出的方法本质上是基于一种非迭代算法的全贝叶斯分析法,首先给出一种EM算法得到回归系数的后验众数估计,然后将其作为初始点,借助IBF和重要重抽样算法,抽取一组近似服从后验分布的独立同分布样本,于是避免了MCMC算法所遇到的收敛性问题。基于这些独立同分布的样本,我们便可以很容易地给出回归系数的估计及其区间估计(贝叶斯可信区间)。模拟实验结果显示,我们的方法与现有的贝叶斯Lasso方法不相上下。第四章中,我们将混合效应协方差阵进行修正Cholesky分解,进而对模型参数进行重新参数化,并采用MCMC技术,针对带AR(1)型误差的线性混合模型讨论了其贝叶斯变量选择方法。