【摘 要】
:
项目反应理论下的测验信度(以下简称IRT信度),能够评价潜在特质估计的可靠性、稳定性,是测验分数精度和稳定性的宏观指标,而测验信息函数和项目信息函数是测验分数精度和稳定性的微观指标,故二者不可相互替代.现有的IRT信度及其估计值的影响因素研究,以及IRT信度估计方法的比较研究,并未涉及模型-数据资料拟合度.本研究将模型-数据资料拟合度以及信度估计方法作为自变量,能够为不同模型-数据资料拟合度水平下
【机 构】
:
江西师范大学心理学院,南昌,330022
论文部分内容阅读
项目反应理论下的测验信度(以下简称IRT信度),能够评价潜在特质估计的可靠性、稳定性,是测验分数精度和稳定性的宏观指标,而测验信息函数和项目信息函数是测验分数精度和稳定性的微观指标,故二者不可相互替代.现有的IRT信度及其估计值的影响因素研究,以及IRT信度估计方法的比较研究,并未涉及模型-数据资料拟合度.本研究将模型-数据资料拟合度以及信度估计方法作为自变量,能够为不同模型-数据资料拟合度水平下IRT信度估计方法的选择提供参考.本研究运用MATLAB R2011b编写计算机模拟程序,采用3*5的两因素混合实验设计,以模型-数据拟合度为被试间变量(“极好拟合”、“较好拟合”和“勉强拟合”三种水平模拟数据),以IRT信度估计方法为被试内变量(总体信度、边际信度、理论信度、经验信度、Nicewander信度三种水平),以信度估计值的误差绝对值(信度真值与信度估计值之差的绝对值)为因变量IRT信度估计值误差的指标.研究结果显示:1.IRT信度估计方法主效应显著,F(4,348)=640.624,P0.01,估计误差最小的是边际信度,估计误差最大的是Nicewander信度;2.模型-数据资料拟合度主效应显著,F(2,87)=52.724,P0.01,模型-数据资料拟合度越低,IRT 信度估计误差越大;3.信度估计方法与模型-数据资料拟合度交互作用显著,F(8,348)=34.456,P 0.01;边际信度的估计误差受到模型-数据资料拟合度影响最小,表现得最为稳定,经验信度稍次,Nicewander信度受到模型-数据资料拟合度的影响最大;4.在“极好拟合”水平下,总体信度估计误差最小,在“较好拟合”和“勉强拟合”水平下,边际信度估计误差最小.
其他文献
心理测量领域目前正朝着智能化的方向发展,例如,利用智能技术进行自动选题组卷,计算机自适应测验,自动评分及反馈等。关于自动选题的方法,前人多有研究,例如,随机法、回溯试探法、遗传算法、模拟退火算法、线性规划法等,但是这些都有各种各样的缺点,如收敛速度慢、易陷入早熟、需要建立复杂的数学模型等。量子遗传算法在普通遗传算法中引入了量子计算的概念,量子态的叠加性、纠缠性。相干性,能够使算法在种群规模很小的情
近些年,神经网络和决策树越来越多地被用于人类认知行为的分类和预测研究,神经网络是联结主义方法的代表,而决策树则是符号处理方法的代表.神经网络是一种高效的分类方法,它是由大量的处理单元互相连接而成的网络,进行识别和训练,而且不需要先验知识.决策树则是采用自顶向下的贪心算法,在每个结点选择分类效果最好的属性,继续这一过程直到该树能准确地分类训练样本,或所有的属性都已经使用过.本研究探讨了神经网络与决策
心理软计算是心理学和软计算结合的产物。软计算是在生物界现象启迪下提出的理论和方法,包括神经网络、遗传算法、粒子群、蚁群算法、支持向量机、模糊集、粗糙集等,它能够对模糊的、粗糙的数据进行分析,能够对变量间不清晰的关系进行建模。
作为新一代教育测量的核心的认知诊断评估倍受关注,认知诊断评估利用被试在标定了项目属性的测试项目上的作答反应,对被试知识、技能或属性的掌握情况进行推断或分类,反馈测试结果给学生、老师等以供补救教学之用。
计算机化自适应测验(CAT)的实施需要大型题库,题库中的项目要有项目参数,目前参数估计多采用统计方法(漆书青等人,2002),它需要有较多的被试和较多的项目,对于样本容量较少的测验,用统计的参数估计方法可能会出现不收敛或精度不够等问题。
研究目的:修订人际价值观环形量表(Circumplex Scales of Interpersonal Values,CSIV),并对其进行信效度检验,以期为未来临床工作评估个体的人际适应发展程度及病理心理机制的研究提供有效、简便的测量工具。研究内容:(1)对量表理论进行文献调研;(2)修订CSIV:根据预调研资料、初测项目分析结果修改CSIV项目,确定CSIV翻译稿;采用方便抽样,对725名大学
现有有关自我宽恕的界定往往缺乏人际间特征与个体内特征的整合.除此之外,本土化研究表明,中国社会是一个“自我主义”社会,相对于西方人的“独立型自我”,中国人更偏向于“互倚型自我”.因此,整合自我宽恕的个体内特征和人际间特征是编制适用于中国大学生的自我宽恕倾向问卷的不可或缺的一部分.在前人有关自我宽恕界定的基础之上,弥补前人研究之不足,结合本土文化,提出自我宽恕倾向的涵义为:个体意识到自己的错事之后,
测验维度是数据背后的潜在能力或者构念的个数以及他们之间的关系.维度评估是一个既有统计学意义又有本质意义的探索项目与潜在变量(特质)的关系,以及项目与维度之间的关系的过程.统计上的意义是确定维度的个数,本质上的意义是确定维度之间、以及项目与维度之间的关系.通过检验测验的维度,研究者就可以将统计结果与本质意义结合起来,达到更好的解释被试与题目的相互作用的目的.对多维测验的维度结构的评估方法有很多,以往
多阶段混合增长模型(Piecewise growth mixture modeling,PGMM)可以同时考察发展趋势不连续和发展群体不同质的问题,在实际研究中具有特殊作用.通过模拟研究,考察潜类别距离和发展形态等因素对模型选择和参数估计的影响,得到以下结论:(1)潜类别距离影响模型选择和分类效果.潜类别间距离较大时,BIC、熵值表现出一致性,均能选出正确的模型,得到正确的分类结果;但当潜类别间的
等值的研究对于考试的公平性、题库建设、教学质量评价和计算机自适应测验都具有重要的意义.随着考试研究的发展,题组形式越来越多地出现在测验中.如何更精确地对含题组的测验等值便成为一大难题.早期多采用项目反应理论(Item Response Theory,IRT)模型进行测验等值,需要满足局部独立性(LI)假设.然而,先前的研究表明,在包含题组的测试中通常存在局部依赖,违背了LI假设.若采用标准的IRT