论文部分内容阅读
混合模型的历史可以追溯到约100年前的K.Pearson时代.第一篇关于混合模型的论文是K.Pearson(1894)用矩估计方法来估计如下两成分正态混合模型的参数:f(x,π,θ1,θ2,σ1,σ2)=πψ(x;θ1,σ12)+(1-π)ψ(x;θ2,σ22).对于上述模型的5个独立参数,Pearson给出了5个矩方程,然后通过求解这个方程组,得到参数的估计值.
有限正态混合模型无疑是最重要的一类混合模型.几乎可以说,正态混合模型的发展历史其实也就是混合模型的发展历史.比较有趣的是,关于正态混合模型,一个最基本的统计问题,即如何估计模型中的参数,一直未得到圆满的解决.
Pearson(1894)提出的矩方法需要求解非线性方程组,并且模型的阶数(成分数)越高,方程组越复杂,计算上非常困难.随后的理论研究更指出,从渐近性质来看,矩估计不如极大似然估计.
但Day(1969)指出正态混合分布的似然函数无界,这为极大似然方法的应用投下了阴影.到目前为止,统计学家通过对参数空间添加约束,使得似然函数在约束的参数空间上有界,来对付Day(1969)指出的问题.但这些方法在应用时并不能保证约束后的参数空间一定包含参数真值.
我们将用基于惩罚似然函数的方法讨论正态混合模型的参数估计.不改变参数空间,而是通过对似然函数添加一个惩罚项,来消除似然函数无界性的影响,从本质上避免了约束参数空间方法的不足.但如何找到合适的惩罚项,并证明所得的惩罚最大似然估计(PMLE)有理想的性质,则一直没有进展.Ciupercaetal.(2003)声称找到了合适的惩罚函数,并能证明所得的PMLE的强一致性以及渐近正态性.但我们发现,他们的证明中有本质的错误.
通过分析Day(1969)指出的似然函数无界的现象,我们发现,理解这个问题的关键在于估计当σ很小时,
supθ#{i:0<Xi-θ<|σlog(σ)|}的大小.我们证明了,在一个与σ无关的零测集外,当n→∞时,总有supθ#{i:0<Xi-θ<|σlog(σ)|}≤{4(logn)2,8+8Mnσ|logσ|,0<σ≤8/nM,8/nM<σ<ε0.其中M,∈0是正常数.这是本论文第一个主要结果.在这个估计的基础上,我们证明了,当惩罚项p(G)=-n-α(p∑κ=11/σ2κ),α∈(0,1]时,惩罚似然函数的最大值点(PMLE)是模型参数的强一致估计,也是渐近正态估计,并且渐近效率为1.这是本论文第二个重要结果,据我们所知,这是一个首创性的结果.我们进一步发现,在supθ#{i:0<Xi-θ<|σlog(σ)|}的估计的基础上,我们可以判别什么样的惩罚函数是合适的,从而可以设计出新的惩罚函数.作为特例,我们提出了如下的惩罚函数:p(G)=-n-α(p∑κ=11/σ2κ)(p∑κ=1σ2κ),α∈(0,1]这个惩罚函数下得到的PMLE不但仍有强一致性以及渐近正态性(渐近效率为1),而且还是位置尺度变换下的同变估计.这是本论文第三个主要结果.正态混合模型的应用非常广泛,我们相信,本论文的理论成果将有巨大的应用潜力.作为示例,我们分析了一组来自分子生物试验的数据.