论文部分内容阅读
在现实社会中,某些部门想要了解一些信息,比如:学校对学生思想素质情况的了解;报社对报纸中比较受欢迎栏目的了解等等。这些问题往往需要以问卷调查的形式来解决,而问卷的设计者为了不遗漏一些有用的信息,可能会设计许多问题,这些问题之间就可能有重复的地方,从另一方面说,由于被调查者所处的环境以及本人所处的社会地位等原因,也可能使回答完的问卷具有雷同现象,那么,如何选择问题以及如何选择样品就显得尤为重要了。
我们要做的是,选择后剩余的问题既能全面反映要了解的信息,又使问卷简化,使被调查者不产生反感,并有兴趣回答,从而提高了问卷的回收率以及问卷的质量,同样,选择好问卷也能达到上述目的。为此,我们利用夏立显和杨毅恒提出的对应分析中变量选择的方法,来进行这方面的研究,由于选择变量(问题)和选择样品(问卷)是对偶问题,(根据多元统计中对应分析理论),所以本文先从样品(问卷)的选择入手。为此,我们从原始数据X=(Xij)nxm出发,令:fi=m∑j=1xij,(i=1,2…,n)gj=∑i=1nxij,(j=1,2,…,m)f=(f1,f2,…,fn)Tg=(g1,g2,…,gm)TF=diag(f1,f2,…,fn)G=diag(g1,g2,…,gm)
y=(y1,y2,…,yn)T其中每一分量看成是样品的得分
A=(a1,a2,…,am)T其中每一分量看成是变量的得分
首先我们求在样品的加权平方和yTFy等于1的条件下,变量得分ATGA=yTXG-1XTy取得最大值时样品y的取值,通过利用Lagrange乘数法得特征向量问题XTG-1Xy=λFy
从而得到此样品得分的特征值和特征向量,我们在其中找p个小于1的大特征值1>λ1>λ2≥…≥λp>0相应的特征向量为y1,y2,…yp这样得到p组变量得分和样品得分,E=(a1,a2…,ap)mxpy=(y1,y2,…,yp)nxp于是我们有XF-1XTy=FEDE=G-1Xy根据对偶原理有Y=F-1XA
事实上,样本的个数要比变量的个数大的多,为降低计算量,我们先求变量得分,再求样品得分。
在本文的第三部分,具体说明了变量的选择方法,这一方法的思想是,选择l(<m)个变量,在p维欧氏空间中作对应分析,将所得的p组样品得分记为Yl,于是用l个变量代替原来的m个变量来刻画n个样品是否可行,就看构形Y与Yl的接近程度如何,设T为p阶正交阵,使Y=YlT。
我们给出三个定义:
(1)Y与YlT的差的模:D(Y,Yl)=minT‖Yl-YtT‖2F/‖Y‖2F把这个值作为两个构形接近的度量。
(2)YYT与YlYlT差的模Q(Y,Y)=‖YYT-YlYlT‖2F/‖YYTT‖2F表示两个构形之间的差异。
(3)Y与Yl之间的RV系数:RV(Y,Yl)=‖YTFYl‖2F/‖YTFY‖‖YlTFYl‖用它来度量构形Y与Yl之间的相似性。
满足以上三条,就认为这两个构形是一致的。之后我们进行删除变量,具体方法步骤文中已给出,有向前选择变量过程和向后删除变量过程,本文给出的例子是利用向后删除变量的过程,记录在表8中,其中记录了每一步删除变量的序号,以及相应的标志删除效果D1-1值,将删除变量36后的样品得分和变量得分列成表,其中表4列出的是其中前20个样品的得分,以后再陆续删除其他变量,D(l-1)值随变量数l减少而增大,但不明显,直到第9次删除变量,即在现存的40个变量中若再将第23号变量删除,相应的D40-1值有明显的跳跃,这表明会引起构型之间较大差异。所以就停止删除变量,保留40个变量。从表中数据看出,没删除变量前的样品得分和删除变量后的样品得分相差不大,说明删除变量对样品得分的构形影响不大。从实际问题的背景来看,被删除的变量也可被若干个内容相近的保留变量所代替,所以说这种删除方法是合理的,这种做法能避免丢失必要的信息,大大简化了抽样调查问卷。