什么是测量的问卷信度效度检验和效度,怎么样检验,区别

嗨!与君初相识,犹如故人归
您所熟悉的博客已完成她的使命并升级,现在有了更多选择。百度拇指医生
&&&普通咨询
您的网络环境存在异常,
请输入验证码
验证码输入错误,请重新输入关注今日:3 | 主题:197383
微信扫一扫
什么样的问卷可以用德尔菲法代替信效度检测?
页码直达:
如果不是横断面研究的调查问卷,而是检测教学后培训效果的问卷,是不是不能用信效度检测,而是用德尔菲专家咨询法呢?比如在使用A教学法后,调查学生对A教学法的满意度的问卷设计,是不能使用信效度检验的吗?
因为信效度检测后进行因素分析等才能形成成熟可用的问卷,而这我这个情况里,没有进行教学就无法进行问卷调查,所以无法在教学法进行之前进行信效度检验,只能采用德尔菲专家咨询法设计问卷,请问我这个想法对吗?
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
战友没有搞明白信度、效度检验的意义。
所谓“信度”,就是指量表相关信息的一致性。具体来说,就是看同一量表不同测量结果之间是否相似,由此反映量表的可靠程度。
所谓“效度”,就是指“量表能否测量到想要测量的概念”、“量表测量的是否是真实情况的反映”。
任何问卷,都有这两方面的问题。
任何问卷,都是在正式使用前,进行试用来进行改进。
战友所言“没有进行教学就无法进行问卷调查”,从某种意义上来说不对,因为一般是通过前期试用来改进调查问卷的。
而德尔菲专家咨询法能做的是:征询专家关于某问题的统一意见。
用德尔菲专家咨询法,可以征询某个量表的“信度”、“效度”,但真实参数,还是应该从实际数据中来。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
自行设计问卷,须经信、效度检验才能正式运用。效度检验可用德尔菲专家咨询法,但比较麻烦,需要一定数量的专家认真配合,来回反馈好几次才能取得对每个题目和总体设计上的趋于一致的信息,而且设计者每次都要提供各位专家的具体意见和分歧。在一些文献中,只经过一次性的询问就搞定专家咨询法效度,这很值得怀疑专家们是否真的认真参与了对问卷效度的审核。建议用构念效度或区分度效度检验。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
信度即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。
信度系数越大,表示测量的可信程度越大。学者DeVellis(1991)认为,0.60~0.65(最好不要);
0.65~0.70(最小可接受值);0.70~0.80(相当好);0.80~0.90(非常好)。
由此,一份信度系数好的量表或问卷,最好在0.80以上,0.70至0.80之间还算是可以接受的范围;
分量表最好在0.70以上,0.60至0.70之间可以接受。
若分量表的内部一致性系数在0.60以下或者总量表的信度系数在0.80以下,应考虑重新修订量表或增删题项。
效度(Validity)是指测量的的正确性或测量的有效程度,即一个测验能够测量出所要测量特性的程度。
当采用因子分析检验问卷的效度时,应先检验是否满足因子分析的前提条件,即变量之间存在高度相关性,
这可以从两个检验指标上反映出来:一个指标是KMO值,另一个是Bartlett球形检验值。KMO值取值在0到1之间,
主要用于比较变量间简单相关和偏相关系数。如果KMO的值越接近于1,则所有变量之间的相关性越强,
因此越满足因子分析的前提条件。应用因子分析时可以参考以下KMO标准:大于0.9时,非常适合;0.5-0.9时,
适合;小于0.5时,不适合。Bartlett球形检验值用以检验变量间相关系数是否达到统计学显著,
以变量的相关系数矩阵为出发点,如果Bartlett球形检验的统计量值较大,且对应的相位概率值小于0.05,
那么拒绝零假设,接受备择假设,认为相关系数达到显著,说明变量间存在显著相关性,
即适合采用因子分析检验效度。如果显著(即sig.&0.05)则适合做因子分析。
碎石图图中的横坐标为特征根的数目,而纵坐标是各因子相对应的各特征值。
因子的重要程度可以从两点间连线坡度的陡缓程度得到清晰地判断。
较陡的直线表明直线端点对应着有较大特征值的因子,而较缓的直线则对应着
有较小的特征值的因子。碎石图结果表明:前面N个因子特征根大于1,
且下降趋势陡峭,当第N+1个因子开始,特征根值小于1,且趋势变得平缓,
表明主要因子就是这前N个因子,因此认为可提取前面N个因子作为公共因子。
德尔菲法是一致性检验的一种,可以认为属于信度。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园当前位置: >>
测量的信度与效度
第三章 测量的信度与效度第一节 测量的信度 第二节 测量的效度 第一节 信度(reliability)? 一、什么是信度 ? 定义:指的是测量结果的稳定性程度(或叫可靠性)。也指 同一被试在不同时间内用同一测验(或用另一套相等的测验) 重复测量,所得结果的一致程度。 ? 1、理论定义:传统的信度理论认为,每一个测验的实得分 数(X)总是由真实分数(T)和误差(E),两个部份构成 的,公式为: ? X=T+E ? 讨论一组测验分数的特性时,可用方差导标具体分数,公式: ? (测验实得分数的方差)S x2= (测验真分数的方差)ST2+ (测验误差的方差)SE2 2、操作定义:? 定义1:一组测量分数的真分数变异数(方差)与 总变异数(总方差、实得分数的方差)的比率, 或者是真实分数方差占总方差的的百分比。计算 公式: ? rxx=ST2/SX2 ? 定义2:信度乃是一个被试团体的真分数与实得分 数的相关系数的平方。即 ? rxx=ptx2 ? 定义3:信度乃是一个测验X(A卷)与它的任意 一个“平行测验”X/(B卷)的相关系数。即 rxx=pXX`2 二、信度的指标? (一)信度系数:大部分情况下,信度是信度系数为指标, 它是一种相关系数。理论上说就是真分数方差与实得分数的 方差的比值,公式是:rxx=ptx2 ? (二)信度指数:是真分数标准差与实得分数的标准差的比 值,公式是: ? 信度指数的平方就是信度系数 rxx=ST2/SX2 ? (三)标准误:指出个人测验分数的变异量。信度系数表示 一组测量的实得分数与真分数的符合程度,标注误表示个人 测验分数的变异量。 ? 用一组被试两次测量结果来代替同一个人反复实测,有了信 度的另一个指标: ? 测量标准误。测量的标准误与信度之间呈反比关系:标准误 越小,信度越大;标准误越大,信度越低。 三、信度与测验分数的解释? (一)解释真实分数与实得分数的相关:信度系 数可以解释为总的方差中有多少比例是由真实分 数的方差决定的,也就是测验的总变异中真分数 造成的变异占百分之几。 ? (二)比较信度可以接受的水平:一般的 能力测验和成就测验的信度系数都在0.90以 上;人格测验、兴趣、态度、价值观等测 验的信度一般在0.80-0.85。一般原则是: 当 &0.70时,测验不能用于对个人作出评价 或预测,而且不能作团体比较;当0.70≤ &0.85时,可用于团体比较;当 ≥0.85时, 才能用来鉴别或预测个人成绩或作为。 ? (三)解释个人分数的意义:从信度可以 解释个人分数的意义,这是测量标准误的 应用。它有两个作用:一是估计真实分数 的范围;二是了解实得分数再测时可能的 变化情形。 ? 例题:假设在一个智力测验中 某个被试的IQ为 100,这是否反映了他的真实水平?如果再测一 次他的分数将改变多少?已知该智力测验的标准 差是15,信度系数为0.89,则其IQ的测量标准误 和可能范围分别为: ? SE=15 =5.0 ? Q=100±1.96x5=100±9.8≈90~110 ? 我们可以说这个被试的真实IQ有95%的可能性落 在90与110之间。即若再测一次,他的智商低于 90、高于110的可能性不超过5%。 ? (四)比较不同测验分数的差异:测量标 准误和测验信度在评价两个不同测验的分 数是否有明显差异时也非常重要。这种比 较包括两个人不同分数的差别和同一被试 在两个测验上的差别。 ? 例题:某被试在韦氏成人智力测验中言语智商为 102,操作智商为108。已知两个分数都是以100 为平均数,15为标准差的标准分数。假设言语测 验和操作测验的分半信度分别为0.97和0.93。问 其操作智商是否显著高于言语智商呢? ? 首先计算出差异分数的标准误: ? 在统计上,经常要求两个分数的差异程度达到 0.05的显著水平,才能承认不是 ? 误差的影响。因此,将差异标准误(4.74)乘以 1.96,结果为9.29,这表明个体在韦氏测验两半 得分的差异高于大约10分,才能达到0.05显著水 平。上述被试的分数差异(108-102=6)是不显 著的。 四、信度的类型及估计方法? (一)重测信度(再测信度)(test-retest reliabity) ? 1、含义与计算: ? 又称稳定性系数。他的计算方法是采用重 测法,即使用同一测验,在同样条件下对 同一组被试前后施测两次测验,求两次得 分间的相关系数。rxx ??XY ? N? X ? y NXY 例:用同一个算术四则的速度测验,对小学五年级的12 个学生先后施测两次。结果如下,试求其信度。学生序号120220321422523623XY学生序号20 7 23 2321 8 24 2521 9 25 2620 10 26 2623 11 26 2723 12 27 29X Y 由计算器算得: X ? 23.33, ? X ? 2.248, Y ? 23.833, ? Y ? 2.248, ?xy ? 6745 rtt ? ?XY ? N? X ? y NXY 6745 ? 12 ? 23.333 ? 23.833 ? 12 ? 2.248 ? 2.824 ? 0.94 答 : 该测验的重测信度为0.94 2、使用的前提条件? (1)所测量的心理特性必须是稳定的。 ? (2)遗忘和练习的效果基本上相互抵消。 ? (3)在时间间隔中没有学习另外的与测验有关的 东西,或者说每人学习其他东西的程度都一样。 3、优缺点:? 优点: ? 它最符合重复测验的涵义,是重复测验最简单最明确的方 式 ? (2)首测和再测只需要一套测验题目,省时、省力 ? (3)同一套题目无论施测几次,所测的属性是完全相同 的。 ? 缺点: ? (1)同一组被试对同一个测验先后两次作答相互之间是 不独立的。 ? (2)如果两次施测时间间隔较长,在此期间被试的身心 发展,新知识的获得,都会使两次测验结果不相同。 ? (3)同一个被试对现一个测验先后两次作答,对测验的 兴趣不同,影响测验结果。 ? (4)两次施测的环境不同,也是产生测量误差的因素。 4、使用重测信度要注意的问题:? (1)最适宜的时距随测验的目的、性质和被试特 点而异,一般是两周到四周较宜,间隔时间最好 不超过六个月。 ? (2)再测验适用于异质性测验 ? (3)再测信度适用于速度测验或人格测验,而不 适用于难度测验 ? (4)应注意提高被试的积极性。 (二)复本信度 (Alternate-form reliability)? 1、含义与计算: ? 含义:又称等值性系数。它是以两个平行 或复本的测验(等值但题目不同)来测量 同一群体,然后求得被试在两个测验上得 分的相关系数,这个相关系数就代表了复 本信度的高低。复本信度反映的是测验在 内容上的等值性,故称等值性系数。复本 信度的高低关键取决于复本测验的选择。 2、使用的前提条件:? (1)要两份或两份以上真正平行的测验 ? (2)被试要有条件接受两个测验。主要取 决于时间、经费等几方面。 复本等值要符合下列条件:? 各份测验测量的是同一种心理特性。 ? 各份测验具有相同的内容和形式。 ? 各份测验的题目不应重复。? 各份测验题目数量相等,难度和区分度大体相同。? 各份测验的分数分布(平均数和标准差)大致相等。 ? 复本编好后,应再测一次,以确保各份测验的等值。 3、优缺点:? 优点: ? (1)一个测验的复本使得测验数目的增加,对于 所欲测量的属性相联系的行为总体代表性强,因 此,一个测验的两个复本在两三天至一周对同一 组被试施测时,获得的复本信度系数是相当准确 的。 ? (2)测验的两个复本,如果在不同时间使用,其 信度不仅可以反映在不同时间的稳定性,而且还 可以反映对于不同测题的一致性。 ? (3)两个复本在同时使用时,可以避免再测验信 度的缺点。 ? 缺点: ? (1)编制两个完全相等的测验是很困难的, ? (2)复本法只能减少而不能完全排除练习 和记忆的影响。 ? (3)被试同时接受性质相似的两个测验可 能减少完成测验的积极性。 4、 适用范围? (1)如果两个复本的施测相隔一段时间,则称稳 定与等值系数。稳定与等值系数既考虑了测验在 时间上的稳定性,也考虑了不同题目样本反应的 一致性,因而是更为严格的信度考察方法,也是 应用较为广泛的方法。 ? (2)在实际应用时,为了抵消施测顺序的效应, 应该有半数的被试先作A本再作B本,另一半被试 先作B本再作A本。 ? (3)复本测验不仅适用于难度测验,也是估计速 度测验信度的最好方法。 (三)分半信度(split-half reliability)? 1、含义与计算 ? 指采用分半法估计所得的信度系数。这种方法估计信度系 数只需一种测验形式,实施一次测验。通常是在测验实施 后将测验按奇、偶数分为等值的两半,并分别计算每位被 试在两半测验上的得分,求出这两半分数的相关系数。 ? 常见的是将测题按其序列号的奇偶分,这种分法的前提是: 测题并非随机排列,而是按某种顺序(如难度)排列;如 果随机排列的题目,则必须是所有题目平等的(要么难度 相等,要么性质一样);如果测验有多个分量表,应该在 分量表内部排好顺序,再把各分量表分两半组合起来求相 关。 2、计算? (1)两半测验分数的变异数相等(方差齐 性) ? 先计算两半测验的积差相关系数,再进行 校正。常用的修正公式是:斯皮尔曼-布 朗公式:r??2rhh ? 1 ? rhh ? (2)两半测验分数的变异数不等(方差不 齐),可采用: 2 2 ? sa ? sb ? ? 弗朗那根公式 r ? 2 ? 1 ? ? 2?sx?? 或卢伦公式中的任一一个。2 sd r ? 1? 2 sx2 2 其中sd 为两半测验分数之差的变异数,sx 为测验总分的变异数. 例题:被试 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15奇数 题(x)2018232117182017161314131288偶数 题(Y)2022192218151417151614121076[解]:计算两个“半测验”得分的积差相关系数为:0.86。代入校正公式 得:0.92 。 所以,该测验的分半信度系数为0.92。 3、使用条件及范围? 分半信度通常是在只能施测一次或没有复 本的情况下使用。而且,在使用斯皮尔-布 朗公式时要求全体被试在两半测验上得分 的变异数要相等。当一个测验无法分成对 等的两半时,分半信度不宜使用。 4、注意的问题:? (1)如遇到有牵连的项目或一组解决同一 问题的项目时,这些项目应放在同一半, 否则将会高估信度的值。 ? (2)当试卷中存在选题或试卷为速度测验 时,不宜采用分半法。 作业:1、用某量表测验14名学生,得分记为X.为了考察测量结 果的可靠性,于16天后用原量表对这14名学生再测一次, 得人记为Y,如表中所示,问测验结果是否可靠?被试 X Y 被试 X Y 1 60 62 8 41 67 2 62 80 9 46 65 3 53 77 10 58 68 4 57 65 11 51 68 5 59 67 12 55 69 6 49 53 13 78 58 7 48 58 14 74 58 作业:? 2、设有14名学生,经过一项测验,成绩如下表:本拟再 测一次以估计其信度,由于学生放假离校,不便再测。现 拟估计其测验结果的信度。用什么方法估计?测验的信度 系数如何??14名学生某项测验成绩如表 (四)同质性信度 (homogeneity reliability)? 1、含义:指测验内部所有题目间的一致性。 ? 题目的一致性有两层含义:其一是指所有 题目都测的是同一种心理特质;其二是指 所有题目之间都具有较高的正相关。总之, 同质性信度就是一个测验所测内容或特质 的相同程度。 2、测量同质性的基本公式:Krij 1 ? (k ? 1)rijrkk ?其中K为构成测验的项目数, rij为项目间相关系数的平均数, rkk 为同质性信度值. 3、库德-理查逊公式:适用于客观性试题 (0、1记分) K ? R20公式:?pi qi ? ? k ?? rkk ? ? ? ? ?1 ? 2 Sx ? k ?1 ? ? ? K 表示构成测验的题目数, pi为通过第i题的人数比例, qi为未通过第i题的人数比例, s 为测验总分的变异数.2 x K ? R21公式: r kk kpi qi k ? ?? ?? ? ?1 ? 2 k ? 1 S ? ?? x ? ? ?2 kS x ? X (k ? X ) ? 2 ( k ? 1) S xK 表示构成测验的题目数, X 为测验总分的平均数, s2 x为测验总分的变异数. 3、克伦巴赫系数(多重记分测验)?S ? k ? ?? ?1 ? ? k ?1 ? S ? 其中K 为测验的题目数,2 i 2 xS 为某一题目分数的变异数, S 为测验总分的变异数.2 x2 i 例,用6个论文题的测验对5个学生施测,其结果如 表所示,试估计测验的内在一致性信度.学生 n=51题序(K=6)1 3 2 4 3 3 4 2 5 1 6 4总分 Xt17236133415244652816456523211254321917 ? 例题:某态度量表共7题,100个被试在各 题上的得分方差分别是 0.81,0.82,0.79,0.83,0.85,0.76,0.77,测验总 分的方差为14.00,则此测量的的信度为多 少? ? 4、注意: ? 当各个测题的得分有较高的正相关时,不论题目 的内容和形式如何,测验即为同质的;若所有题 目看起来好像测量的是同一特质,但相关很低或 为负相关时,测验即为异质的。 ? 对于一些复杂的、异质的心理学变量,采用单一 的同质性测验是不行的,因而常常采用若干相对 异质的分测验,并使每个分测验内容具有同质性, 这样每个分测验就能用来预测异质效标的某一方 面。 (五)评分者信度(scorer reliability)? 1、含义与计算:指的是多个评分者给同一批人的 答卷进行评分的一致性程度。是用于测量不同评 分者之间所产生的误差。?R2 iW??Ri ? ? ? N21 2 3 K ?N ? N ? 12? 式中W为和谐系数,K为评分者的人数,N为被评 对象数,RI为每一对象被评的等级总和。 例子:假设有三位专家给六篇论文评等级, 结果如表所示,试计算此次评分者的评分 者信度。 2 3 4 5 6 专家 11 2 2 3 4 4 1 1 5 5 6 6 3 23Ri385131341461827 解 : 分别求出各篇论文等级之各R i , 则有?Ri ? 63, ?Ri2 ? 811, k ? 3, n ? 6 W ? ?R2 i?Ri ? ? ? N2?1 ? 32 (63 ? 6) 12 ? 0.951 K2 ?N3 ? N ? 12 632 811 ? 6 2、注意的问题:? 为了衡量评分者之间的信度高低,可随机 抽取若干份测验卷,由两位评分者按评分 标准分别给分,然后再根据每份测验卷的 两个分数计算相关,即得评分者信度。一 般要求在成对的受过训练的评分者之间平 均一致性达0.90以上,才认为评分是客观的。 当多个评分者评定多个对象 ,并以等级法 记分时,可采用肯德尔和谐系数作为评分 者信度的估计。 五、标准参照测验的信度估计? 1、对相关法信度系数进行校正 ? 为了对标准参照测验的信度做出较为准确 的估计,利文斯顿提出了对相关法信度系 数的校正公式:rCR ? rNR S ? ? X ? C ?2 2S ?? X ?C?22式中rCR为标准参照测验的信度, rNR为任何一种相关法信度系数, S为分数的标准差, X 为分数的均值, C为达标分数或分数线. 2、用决策的一致性作为信度指标 林德曼与梅伦达的一致性公式:nb ? sf C? nb ? v(n ? b ? v)? C为一致性,n为在两次施测中均未达到标 的人数,b为在两次施测中均已达标的人数, f为只在第一次施测中达标的人数,s为只在 第二次施测中达标的人数,v为f或s中较小 的值。 ? 六、各种信度系数相应误差方差的来源 ? 信度系数类型 误差方差来源 ? 重测信度 时间取样 ? 复本信度(连续施测) 内容取样 ? 复本信度(间隔施测) 时间和内容取样 ? 分半信度 内容取样 ? 同质性信度 内容的异质性 ? 评分者信度 评分者之间的差异 七、影响信度的因素? (一)样本的特征:信度常用信度系数来表示,信度系数 就是相关系数,相关系数受样本团体得分分布、样本是否 异质及样本团体平均能力水平的影响。 ? 1、样本团体分数分布的影响:当分布范围增大时,其信 度估计就较高;当分布范围减小时,相关系数随之下降, 信度值则较低。 ? 2、样本团体异质性的影响:若获得信度的取样团体较为 异质的话,往往会高估测验的信度,相反则会低估测验的 信度。 ? 3、样本团体平均能力水平的影响:对于不同水平的团体, 题目具有不同的难度,每个题目在难度上的微小差异累计 起来便会影响信度。 (二)测验的长度:? 1、测验越长,测验的测题取样或内容取样 越有代表性。 ? 2、测验越长 ,被试的猜测因素影响就越小。 ? 3、测验的项目越多,在每个项目上的随机 误差就可以相互抵消。 Krxx rkk ? 1 ? (k ? 1)rxx 式中k为改变后长度与原长度之比,rxx为原测验的信度, rkk 为测验长度是原来的k倍时的信度估计. 例如:由50题组成的儿童心理学测验,其信度系数0.72,若 再增加30个与原测验相近且同质性的题目,问长度增加 后的测验信度系数是多少?Krxx ? 1 ? ( k ? 1) rxxrkk50 ? 30 ? 0.72 50 ? 50 ? 30 1? ( ? 1) ? 0.71 50 ? 0.80 例如,原测验的信度系数为0.75,现将信度提高到 0.90,问测验的长度要增加到原测验长度的多少 倍?rkk (1 ? rxx ) k? rxx (1 ? rkk ) 0.90(1 ? 0.75) ? 0.75(1-0.90) ?3 式中k为改变后长度与原长度之比,rxx为原测验的信度, rkk 为测验长度是原来的k倍时的信度估计. ? (三)测验的难度:难度对信度的影响只存在于 某些测验中,如智力测验、成就测验、 ? 能力倾向测验等。如果一个测验对某团体而言太 容易,会使所得分数都集中在高分端;当题目太 困难时,得分就会集中在低分端。两种情况均会 使信度样本的分数范围变窄,从而使测验变得不 够可靠。从理论上说,只有难度水平为50%时, 才能使测验分数分布范围最大,求得的信度也最 高。 ? (四)测验的时间间隔:以再测法或复本 法求信度,两次测验相隔时间越短,其信 度系数越大;间隔时间越久,其它变因介 入的可能性越大,受外界的影响越大,信 度系数便越低。 作业3、对4个学生以由5道论述题组成的测验, 其成绩如下表,试估计测验的内在一致性信度。学生 序号 1 2 3 4 总和 题目 总分16 4 2 4 1627 3 4 5 1936 5 3 4 1848 3 2 5 1855 4 1 4 14 32 19 12 22 85 作业4:5位评分者对5个学生的摄影比赛的排列 名次如下表,试估计评分者之间的信度。学生 序号 1 2 3 4 评分者11 4 2 321 3 4 232 1 4 541 2 3 452 1 4 3555355 作业5:? 力学测验的信度为0.80,欲将信度提高为 0.95,问测验的长度最低限度应增加到原测 验长度的多少倍? 第二节 测验的效度? 在测量活动中,测量者对所使用的测量工 具非常信任,他会采取复测行为以判断测 量有无误差;如果测量者对所使用的测量 工具发生怀疑,那他往往会去找一公认非 常准确的测量工具对先前的测值进行检验。 这种在原测量工具之外寻求新的证据来肯 定或否定某一测量工具准确性的做法就是 在研究测量的效度问题。心理测量是一种 间接测量,心理测量更重视测量的效度研 究。 一、效度(validity)? (一)定义:效度是指所测量的与所要测 量的心理特点之间符合的程度,或者简单 地说是指一个心理测验的准确性。或是指 一个测验或量表实际能测出其所要测的心 理特质的程度。 ? 1、关于效度的概念,我们要特别注意以下几点: ? (1)效度是一个相对的概念。这种相对性表现在 两个方面: ? ①效度是相对于一定的测量目的而言的。 ? ②心理特质是较隐蔽的特性,只能通过他的行为 表现来进行推测,因此,心理测量不可能达到百 分之百的准确,而只能达到某种程度的准确。 ? (2)效度是测量的随机误差和系统误差的综合反 映。任一误差的存在,测量的效度都会受到影响 ? (3)判断一个测量是否有效要从多方面收集证据 ? 2、在测验理论中,效度被定义为在一组测 量中,与测量目标有关的真实方差(或称 有效方差,由所要测量的变因引起的有效 变异)与总方差(实得变异数)的比率,即2 rxy 2 sv ? 2 sx ? 3、一组测验分数的总方差等于真实方差与 误差方差之和,而真实方差又可分为两部 分,即有关的方差和无关的但稳定的方差, 后者也就是所谓系统误差带来的方差 ? SX2=SV2+SI2+SE2 ? 由于有效方差是一个理论值,无法测量, 所以效度和信度一样是一个理论上的概念。 二、效度和信度的关系? (一)信度是效度的必要而非充分条件。 ? 当随机误差的变异数()减小时,真实分数的变 异数()增加,测验的信度随之提高。信度的提 高只给有效变异数(的增加提供了可能)至于是 否能提高效度,还要看系统误差变异数的大小, 可见信度高效度不一定就高。但一个测验要想效 度高,真分数的变异数必须占较大的比重,即测 验的信度必须高。效度高必然信度高,而信度高 并不一定保证效度高,说明信度高只是效度高的 必然条件,并不是效度高的充分条件。 (二)效度是受信度制约的:信度系数的 平方根是效度系数的最高限度,2 2 s s 2 T 根据效度和信度的定义(rxy ? v , r ? )以及 xx 2 2 sx sx 2 2 公式( ST ? SV ? S I2 )可得到: 2 2 2 s ? S S 2 I rxy ? T 2 I ? rxx ? 2 sx sxS I2 ? 02 ? rxy ? rxx可见,一个测验的效度总是受它的信度所制约。 二、效度的类型及评估方法? (一)内容效度(Content Validity) ? 1、定义:指的是项目对欲测的内容或行为 范围的取样的适当程度。也即测验题目对 有关内容或行为取样的适用性,从而确定 测验是否是所欲测量的行为领域的代表性 取样。 ? 一个测验要具备较好的内容效度必须满足 两个条件: ? (1)要确定好内容范围,并使测验的全部 项目均在此范围内。所谓内容范围可以是 具体知识或技能,也可以是复杂的行为。 要对所测量的心理特性有个明确的概念, 并划定出哪些行为与这心理特性有关。 ? (2)测验题目应是所界定的内容范围的代 表性取样。 2、内容效度的评估方法:? (1)专家判断法:请有关专家对测验题目与原定内容的 符合性作出判断,看测验的题目是否代表规定的内容,这 种估计效度的方法,是一个逻辑分析的过程,所以内容效 度有时也可称为“逻辑效度”。具体方法是: ? ①定义好内容总体,并描绘出有关知识与技能的轮廓; ? ②划分细纲目,并根据重要性规划好各个纲目的加权比例, 作出尽可能详细的描述; ? ③确定每道题所测的知识和技能,将自己的分类与测验编 制的纲目作比较; ? ④制订评定量表,从各方面对测验作出评定。 (2)统计分析法? A、复本法出了描述性语言外,内容效度的确定 也可采用一些统计分析方法,符合程度越高越能 反映测验的内容效度。克伦巴赫提出,内容效度 可由一组被试在独立取得自同样内容范围的两个 测验复本上得分之相关来作数量的估计。 ? B、再测法也可用于内容效度的评估,被试学习 某种知识之前作一次测验,在学过该知识后再作 同样的测验。若成绩显著提高,则说明所测内容 正是被试新近所学的内容,进而证明该测验对这 部分内容而言具有较高的内容效度。 ? (3)经验推测法:通过实践来检验效度。 如果通过率是随着年龄的增加而增加,就 可以推测该测验有内容效度。 3、内容效度的应用? (1)是编制任何测验应加以考虑的基本方面。 ? (2)较适用于评价教育成就测验和职业选拔测验。 ? (3)对标准参照测验更为重要,是因为在标准参照测验 中我们主要关心的是被试对一定范围的知识、技能掌握得 如何。 ? (4)注意内容效度与表面效度的关系:经常混淆。表面 效度是由外行对测验作表面上的检查确定的,它不反映测 验实际测量的东西,只是指测验表面上看来好像是所要测 的东西。表面效度只考虑题目与测量目的之间的明显的、 直接的关系,内容效度则考虑到题目与测量目的和内容总 体之间逻辑的微妙关系。在编制测验时,表面效度是一个 必须考虑的特性,最高作为的测验通常要求有较高的表面 效度;典型行为测验要求有较低的表面效度。 ? (5)它缺乏可靠的数量指标,因而妨碍了各测验间的相 互比较。 (二)构想效度(construct Validity)? 1954年提出,有人翻译为构思效度,也有 叫结构效度。它是指测验能够测量到理论 上的构想和特质的程度,即测验的结果是 否能证实或解释某一理论的假设、术语或 构想,解释的程度如何。 1、构想效度的特点:? (1)其大小首先取决于事先假定的心理特质理论 ? (2)当实际测量的资料无法证实我们的理论假设 时,并不一定就表明该测验结构效不高,因为还 有可能是理论假设不成立,或者该实验设计不能 对该假设作适当的检验等情况,当然这就使得结 构效度的获取更为困难。 ? (3)结构效度通过测量什么、不测量什么的证据 累积起来给以确定,因而不可能有单一的数量指 标来描述结构效度。 ? 结构效度主要应用于智力测验、人格测验等一些 心理测验方面。 2、结构效度的确定方法:? (1)提出理论假设,并把这一假设分解成 一些细小的纲目,以解释被试在测验上的 表现。 ? (2)依据理论框架,推演出有关测验成绩 的假设。 ? (3)用逻辑和实证的方法来验证假设。 3、构想效度的估计方法:? (1)测验内法(对测验本身的分析):A、 测验的内容效度可以作为构思效度的证据; ? B、测验的同质性指标可以推断测验是测量 单一特质还是测量多种特质,从而为评估 测验构思效度提供证据; ? C、分析被试对题目的反应特点也可以作为 构思效度的证据。 (2)测验间的相互比较:? ①相容效度 ? ②区分效度 ? ③因素效度: ①相容效度? 通过分析几个测验间的相互关系,找出其 共同之处,进而推断这些测验测量的特质 是什么,也可以确定这些测验的构思效度。 最简单的是计算两种测验之间得分的相关, 其中一个测验是待研究效度的,另一个是 已有效度证据的成熟的测验,但两者测量 的是同一种心理特质。两测验的相关系数 的平方即是两组测验分数所共同解释的变 异大小,所以称这一相关为相容效度,相 容效度是构思效度的一个证据。 ? ②区分效度是构思效度的又一个证据。 ? ③因素效度:通过对一组测验进行因素分 析,找到影响测验分数的共同因素,每个 测验在共同因素上负荷量即每个测验与共 同因素的相关,称作测验的因素效度。因 素分析法也是建立构思效度的常用方法, 通过对一组测验进行因素分析,可以找到 影响测验分数的共同因素,这种因素可能 就是我们要测量的心理特质(构思)。 ? (3)效标关联法,效度的研究证明:一个 测验若效标度理想,那么该测验所预测的 效标的性质和种类就可以作为分析测验构 思效度的指标,另一种证实构思效度的方 法是心理特质的发展变化。 ? (4)实验法和观察法证实:观察实验前和 实验后分数的差异是验证构思效度的方法。 3、对构想效度的评价? (1)构想效度促使研究者把着眼点放在提 出假设上、检验假设上,使得测验成为理 论研究的重要工具,而不再只是实际决策 的辅助工具,从而使测验有了更广阔的发 展情景。 ? (2)主要缺点是,有些构想概论模糊,没 有一致的定义,确定效度时没有明确的操 作步骤,没有单一的数量指标来描述有效 程度。 (三)效标效度? 1、定义:又称实证效度,反映的是测验预 测个体在某种情境下行为表现的有效性程 度。被预测的行为是检验效度的标准,简 称效标。由于这种效度是看测验对效标预 测如何,所以叫效标效度。这种效度需在 实践中检验,所以又称为实证效标。 ? 2、分类:根据效标资料是否与测验分数同 时获得,又可分为同时效度和预测效度两 类。同时效度即测验所得分数可与效标同 时验证,通常与心理特征的评估及诊断有 关。 ? 所谓的效标就是衡量一个测验是否有效的 外在标准,它是独立于测验并可以从实践 中直接获得的我们感兴趣的行为。 ? 一个好的效标必须具备以下条件: ? (1)必须能最有效地反映测验的目标,即 效标测量本身必须有效; ? (2)效标必须具有较高的信度,稳定可靠, 不随时间等因素变化; ? (3)效标可以客观地加以测量,可用数据 或等级来表示; ? (4)效标的测量的方法很简单,省时省力, 经济实用。 ? 3、效标和效标测量:效标,即衡量测验有 效性的参照标准,指的是可以直接而且独 立测量的我们感兴趣的行为。效标可以分 为两个层次,其一是理论水平的观念效标, 其二是操作定义水平的效标测量。 4、常用的效标包括:? ○1学业成就; ? ○2实际工作表现:是最满意的效标测量,为一般智力测 验、人格测验和一些能力倾向测验的效标; ? ○3特殊训练成绩:是能力倾向测验常用的效标,其中也 包括中间效标和最后效标的问题; ? ○4精神病诊断; ? ○5等级评定:是观察者根据测验欲测量的心理特质在被 试身上的表现而作出的一种个人判断; ? ○6效标团体的比较:即找出两个在效标表现上有差别的 团体,比较他们在测验分数上的差别; ? ○7先前有效的测验:一个新测验与先前有效的测验的相 关也经常作为效度检验的证据。 5、效标效度的表示方法? (1)相关法:效度系数是最常用的效度指 标,尤其是效标效度。它是以皮尔逊积差 相关系数来表示的,主要反映测验分数与 效标测量的相关。当测验成绩是连续变量, 而效标资料是二分变量时,计算效度系数 可用点二列相关公式或二列相关公式;当 测验分数为连续变量,效标资料为等级评 定时,可用贾斯朋多系列相关公式计算。 ? (2)区分法:是检验测验分数能否有效地 区分由效标所定义的团体的一种方法。算 出t值后,便可知道分数的差异是否显著。 若差异显著,说明该测验能够有效地区分 由效标定义的团体,否则,测验是无效的。 重叠百分比可以通过计算每一组内得分超 过(或低于)另一组平均数的人数百分比 得出;另外,还可以计算两组分布的共同 区的百分比。重叠量越大,说明两组分数 差异越小,即测验的效度越差。 ? (3)命中率法:是当测验用来做取舍的依 据时,用其正确决定的比例作为效度指标 的一种方法。命中率的计算有两种方法, 一是计算总命中率,另一种是计算正命中 率。 命中表测验预测效 标 成 绩失败(-)成功(+)成功(+) 失败(-)A(失误) C(命中)B(命中) D(失误) 命中 C?B 总命中率:PCT ? ?100% ? ?100% 命中 ? 失误 A? B ?C ? D 成功人数 B 正命中率 : PCP ? ?100% ? ?100% 选择人数 A? B ? (4)预期表法:是一种双向表格,预测分 数排在表的左边,效标排在表的顶端。从 左下至右上对角线上各百分数字越大,而 其它的百分数字越小,表示测验的效标效 度越高 ;反之,数字越分散,则效度越低。 ? (5)功利率法:使用测验所花掉的费用与 得到的利益进行比较,此种效度指标叫功 利率。 五、标准参照测验的效度? 标准参照测验主要用来检验学习结果,看 对指定的内容范围掌握得如何或是否达到 某种标准。 ? 1、衡量测验优劣的主要指标是内容效度, 前面的方法均可,专家评判法可作为指标。 ? 2、效标效度的命中率法和预期表法 ? 3、构想效度不合适 六、影响效度的因素? (一)测验本身的因素 ? 1、测验题目的质量。(测验的指导语和试题 的答案说明要明确,试题编制符合测验的 目的,试题难度要适中。) ? 2、测验的长度。(一般而言,增加测验的长 度通常可以提高测验的信度,而信度又制 约着效度,因此增加测验的长度也能提高 测验的效度。) (二)测验实施中的干扰因素? 1、主试的影响因素。测验实施过程中主试的因素 会影响效度。对于效标效度,测验与效标二者实 施时间间隔时间越长,测验与效标越容易受到很 多机遇因素的影响,因此所求的相关必然很低。 测验情镜,如场地的布置、材料的准备、测验场 所有无噪音和其他干扰因素等也会影响到测验的 效度。 ? 2、被试的影响因素。被试在测验时的兴趣、动机、 情绪、态度和身心状况、健康状态等都会影响测 验的效度。(被试的反应定势也会降低测验的效 度。) (三)样本团体的性质? 1、样本团体的异质性。如果其它条件相同,样本 团体越同质,分数分布范围越小,测验效度就越 低;样本团体越异质,分数分布范围越大测验效 度就越高。 ? 2、干涉变量。样本团体的性质对效度的影响还表 现在:对于同性质的团体,同一测验的效度会有 很大的不同。这些样本团体的特质包括:年龄、 性别、教育水平、智力、动机、职业和任何有关 的特征。由于这写特征的影响,使得测验对于不 同的团体具有不同的预测能力,故测量学上称这 些特征为干涉变量。 ? 吉赛利提出的如何找出干涉变量的一套方 法: ? ○1利于回归方程求得每个人的预测效标分 数; ? ○2根据样本团体的组成分析; ? ○3对于欲测团体,根据某些易见的干涉变 量将其区分为预测性高和预测性低的两个 亚团体。 (三)效标的性质? 1、效标与测验分数之间的关系是否线性关 系是一个很重要的因素; ? 2、效标测量本身的可靠性如何亦是值得考 虑的一个问题。
更多搜索:
All rights reserved Powered by
文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 信度效度检验 的文章

 

随机推荐