论文部分内容阅读
近年来,统计学与机器学习得到了深入的发展,数据正以前所未有的速度产生着,越来越多的统计模型在计算机领域得到了广泛深入的应用,其中logit模型发挥了重要的作用.此外,logit模型在处理经济、生物医药、金融、语音以及图像识别上逐渐显示出良好的特性. 而对于logit模型的参数估计,人们一般根据训练样本构造极大似然函数,结合拟牛顿法或者梯度下降法对目标函数进行逐步优化,来得到模型参数的估计值.这种参数求解方法有以下几个局限性.首先是这种方法对于初值的选取有较大的依赖,而且并不能保证得到全局最优解;其次是进行求解的过程中,迭代的速度以及得到的结果的精度并没有成型的结论. 此外,这种方法只考虑使用模型的离散的输出变量来进行参数估计,并没有考虑数据的内在结构,在实际运用中,受到了较大的限制.由于logit模型在经济、金融、生物等领域取得了不错的成果,所以研究这个模型参数求解的其他方法对于更好地发挥模型的效用有着较大的意义.Logit模型的基本假设是事件发生的对数机会比是各输入变量的线性函数.本文中对样本进行分组的思想正是基于此.在logit模型中,输入变量会对事件发生的概率产生影响.对于给定的一个输入,会以一定的概率得到一个输出.由此,得到这样一个思想,给定一组样本,这组样本的输入变量有的相同,有的不同,我们根据样本数据的输入变量,将输入变量相同的样本分为一组,然后分别统计各组的事件发生频率,这样可以得到多组不同输入条件下的事件发生的频率.这种通过对模型中的潜变量进行估计,继而进行模型的参数估计的方法,克服了极大似然估计参数估计方法忽视数据内在结构的弊端,提高了参数估计的精度.本文在对模型中的潜变量进行估计后,提出了两种基于不同目标函数的参数估计方法.其中,基于分组数据的最小二乘估计方法由于并非是迭代求解,所以对初值的依赖性在这里不存在,而且在样本量比较大时,算法所耗费的时间远远少于通过迭代进行参数估计的算法;此外基于分组数据的EM算法选定了基于核函数的目标函数,并且在目标函数中根据各分组样本量的不同,设置了不同的权重,克服了基于数据分组的最小二乘估计方法对于各分组样本量分布的敏感性.在这两种基于数据分组的参数估计方法中,我们采用事件发生的频率来对事件发生的概率进行估计.其中基于分组数据最小二乘估计方法大大降低了估计的时间与空间的复杂度,基于分组数据的EM估计方法,在迭代求解过程中,对各个分组的样本量以及误差进行了考量,在算法稳定性上表现良好.在实际应用中,我们可以结合三种方法对模型参数进行估计,能够更好地处理各类分类问题.