全站文章页内部300*250广告位
第三章测验的信度 12.信度
A定义:指同一被试在不同时间内用同一测验(或用另一套相等的测验)重复测、
量,所得结果的一致程度。
a理论定义:传统的信度理论认为,每一个测验的实得分数(X)总是由真实分数(T)和误差(E),两个部份构成的,公式为:
X=T+E(公式3-1)
讨论一组测验分数的特性时,可用方差导标具体分数,公式:
(测验实得分数的方差)=(测验真分数的方差)+(测验误差的方差)(3-2)
b操作定义:一组测量分数的真分数方差与总方差(实得分数的方差)的比率,或者是真实分数方差占总方差的的百分比。计算公式:
(公式3-3)
由于真实分数的方差是无法统计的,因此公式3-3可转化为:
(公式3-4)
B信度的指标
a信度系数:大部分情况下,信度是信度系数为指标,它是一种相关系数。理论上说就是真分数方差与实得分数的方差的比值,公式是:
(公式3-5)
b信度指数:是真分数标准差与实得分数的标准差的比值,公式是:
信度指数的平方就是信度系数(公式3-6)
c标准误:指出个人测验分数的变异量。信度系数表示一组测量的实得分数与真分数的符合程度,标注误表示个人测验分数的变异量。
用一组被试两次测量结果来代替同一个人反复实测,有了信度的另一个指标:
(公式3-7)
测量标准误。测量的标准误与信度之间呈反比关系:标准误越小,信度越;标准误越大,信度越低。
C信度与测验分数的解释
a解释真实分数与实得分数的相关:信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。
b比较信度可以接受的水平:一般的能力测验和成就测验的信度系数都在0.90以上;人格测验、兴趣、态度、价值观等测验的信度一般在0.80-0.85。一般原则是:当<0.70时,测验不能用于对个人作出评价或预测,而且不能作团体比较;当0.70≤<0.85时,可用于团体比较;当≥0.85时,才能用来鉴别或预测个人成绩或作为。
c解释个人分数的意义:从信度可以解释个人分数的意义,这是测量标准误的应用。它有两个作用:一是估计真实分数的范围;二是了解实得分数再测时可能的变化情形。
例题:假设在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次他的分数将改变多少?已知该智力测验的标准差是15,信度系数为0.89,则其IQ的测量标准误和可能范围分别为:
SE=15=5.0
IQ=100±1.96x5=100±9.8≈90~110
我们可以说这个被试的真实IQ有95%的可能性落在90与110之间。即若再测一次,他的智商低于90、高于110的可能性不超过5%。
d比较不同测验分数的差异:测量标准误和测验信度在评价两个不同测验的分数是否有明显差异时也非常重要。这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。
例题:某被试在韦氏成人智力测验中言语智商为102,操作智商为108。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.97和0.93。问其操作智商是否显著高于言语智商呢?
首先计算出差异分数的标准误:
在统计上,经常要求两个分数的差异程度达到0.05的显著水平,才能承认不是
误差的影响。因此,将差异标准误(4.74)乘以1.96,结果为9.29,这表明个体在韦氏测验两半得分的差异高于大约10分,才能达到0.05显著水平。上述被试的分数差异(108-102=6)是不显著的。
D信度的类型及估计方法
a重测信度:又称稳定性系数。他的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试前后施测两次测验,求两次得分间的相关系数。
○a最适宜的时距随测验的目的、性质和被试特点而异,一般是两周到四周较宜,间隔时间最好不超过六个月。
○b前提假设:○1所测量的特性必须是稳定的;○2每个人对前一次反应的遗忘程度相同;○3在时间间隔中没有学习另外的与测验有关的东西,或者说每人学习其他东西的程度都一样。
b复本信度:又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。复本信度反映的是测验在内容上的等值性,故称等值性系数。
○a复本信度的高低关键取决于复本测验的选择。
○b如果两个复本的施测相隔一段时间,则称稳定与等值系数。稳定与等值系数既考虑了测验在时间上的稳定性,也考虑了不同题目样本反应的一致性,因而是更为严格的信度考察方法,也是应用较为广泛的方法。
○c在实际应用时,为了抵消施测顺序的效应,应该有半数的被试先作A本再作B本,另一半被试先作B本再作A本。
c内不一致性信度
○a分半信度:指采用分办法估计所得的信度系数。这种方法估计信度系数只需
一种测验形式,实施一次测验。通常是在测验实施后将测验按奇、偶数分为等
值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关
系数。
○1常见的是将测题按其序列号的奇偶分半,这种分法的前提是:测题并非随机排列,而是按某种顺序(如难度)排列;如果随机排列的题目,则必须是所有题目平等的(要么难度相等,要么性质一样);如果测验有多个分量表,应该在分量表内部排好顺序,再把各分量表分两半组合起来求相关。
○2常用的修正公式是:斯皮尔曼-布朗公式:
例题:某测验分为两半后求得的相关系数为0.524,则测验在原长度时的度估计值为:
=斯皮尔曼-布朗公式为经验公式,他的假设条件是两半测验分数的变异数相等,但实际资料有时未必完全符合这一条件。当假设不成立时,可采用:弗朗那根公式或卢伦公式中的任一一个。
○b同质性信度:指测验内部所有题目间的一致性。当各个测题的得分有较高
的正相关时,不论题目的内容和形式如何,测验即为同质的;若所有题目看
起来好像测量的是同一特质,但相关很低或为负相关时,测验即为异质的。
对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不行的,因
而常常采用若干相对异质的分测验,并使每个分测验内容具有同质性,这样
每个分测验就能用来预测异质效标的某一方面。同质性信度的公式主要有:库德-理查逊公式:常用的是K-R20公式,在个各测题难度相同或近似的情况下,还可采用计算更为简便的K-R21公式。
克伦巴赫α系数
d评分者信度:用于测量不同评分者之间所产生的误差。为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据美分测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。
e各种信度系数相应误差方差的来源
信度系数类型误差方差来源
重测信度时间取样
复本信度(连续施测)内容取样
复本信度(间隔施测)时间和内容取样
分半信度内容取样
同质性信度内容的异质性
评分者信度评分者之间的差异
E影响信度的因素
a样本的特征:信度常用信度系数来表示,信服系数就是相关系数,相关系数受样本团体得分分布、样本是否异质及样本团体平均能力水平的影响。
○a样本团体分数分布的影响:当分布范围增大时,其信度估计就较高;当分布范围减小时,相关系数随之下降,信度值则较低。
○b样本团体异质性的影响:若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。
○c样本团体平均能力水平的影响:对于不同水平的团体,题目具有不同的难度,每个题目在难度上的微小差异累计起来便会影响信度。
b测验的长度:
○a测验越长,测验的测题取样或内容取样越有代表性。
○b测验越长,被试的猜测因素影响就越小。
c测验的难度:难度对信度的影响只存在于某些测验中,如智力测验、成就测验、
能力倾向测验等。如果一个测验对某团体而言太容易,会使所得分数都集中在高分端;当题目太困难时,得分就会集中在低分端。两种情况均会使信度样本的分数范围变窄,从而使测验变得不够可靠。从理论上说,只有难度水平为50%时,才能使测验分数分布范围最大,求得的信度也最高。
d测验的时间间隔:以再测法或复本法求信度,两次测验相隔时间越短,其信度系数越大;间隔时间越久,其它变因介入的可能性越大,受外界的影响越大,信度系数便越低。
责任编辑:小草