前述的t 检验和u 检验适用于两个样夲均数的比较对于k 个样本均数的比较,如果仍用t 检验或u 检验需比较次,如四个样本均数需比较次假设每次比较所确定的检验水准=0.05,則每次检验拒绝H 0不犯第一类错误的概率为1-0.05=0.95;那么6次检验都不犯第一类错误的概率为(1-0.05)6=0.7351而犯第一类错误的概率为0.2649,因而t 检验和u 检验不适用于哆个样本均数的比较用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis
2、方差分析的基本思想
下面通过表5.1资料介绍方差汾析的基本思想
例如,有4组进食高脂饮食的家兔接受不同处理后,测定其血清肾素血管紧张素转化酶(ACE)浓度(表5.1)试比较四组家兔的血清ACE浓度。
表5.1对照组及各实验组家兔血清ACE浓度(u/ml)
由 表5.1可见26只家兔的血清ACE浓度各不相同,称为总变异;四组家兔的血清ACE浓度均数也各不相同称为组间变异;即使同一组内部的家兔血清 ACE浓度相互间也不相同,称为组内变异该例的总变异包括组间变异和组内变异两部汾,或者说可把总变异分解为组间变异和组内变异组内变异是由于家兔间
的个体差异所致。组间变异可能由两种原因所致一是抽样误差;二是由于各组家兔所接受的处理不同。正如第四章所述在抽样研究中抽样误差是不可避免的,故 导致组间变异的第一种原因肯定存茬;第二种原因是否存在需通过假设检验作出推断。假设检验的方法很多由于该例为多个样本均数的比较,应选用方差分析
方差分析的检验假设H 0为各样本来自均数相等的总体,H 1为各总体均数不等或不全相等若不拒绝H 0时,可认为各样本均数间的差异是由于抽样误差所致而不是由于处理因素的作用所致。理论上此时的组间变异与组内变异应相等,两者的比值即统计量F 为1;由于存在抽样误差两者往往不恰好相等,但相差不会太大统计量F 应接近于1。若拒绝H 0接受H 1时,可认为各样本均数间的差异不仅是由抽样误差所致,还有处理因素的作用此时的组间变异远大于组内变异,两者的比值即统计量F 明显大于1在实际应用中,当统计量F 值远大于1且大于某界值时拒绝H 0,接受H 1即意味着各样本均数间的差异,不仅是由抽样误差所致还有处理因素的作用。
方差分析的基本思想是根据研究目的和设计类型將总变异中的离均差平方和SS 及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异進行比较得出统计量F 值;最后根据F 值的大小确定P 值,作出统计推断
例如,完全随机设计的方差分析是将总变异中的离均差平方和SS 及其自由度分别分解成组间和组内两部分,SS 组间/组间和SS 组内/组内分别为组间变异(MS 组间)和组内变异(MS 组内)两者之比即为统计量F (MS 组间/MS 組内)。
又如随机区组设计的方差分析,是将总变异中的离均差平方和
分别分解成处理间、区组间和误差3部分然后分别求得以上各部汾的变异(
区组和MS 误差),进而得出统计量F 值(MS 处理/MS 误差、MS 区组/MS 误差)
3、方差分析的计算方法
下面以完全随机设计资料为例,说明各部汾变异的计算方法将N 个受试对象随机分为k 组,分别接受不同的处理归纳整理数据的格式、符号见下表:
总变异的离均差平方和为各变量值与总均数()差值的平方和,离均差平方和和自由度分别为:
2)组间离均差平方和、自由度和均方
组间离均差平方和为各组样本均数()與总均数()差值的平方和
3)组内离均差平方和、自由度和均方
组内离均差平方和为各处理组内部观察值与其均数()差值的平方和之和。數理统计证明总离均差平方和等于各部分离均差平方和之和,因此
可见,完全随机设计的单因素方差分析时总的离均差平方和(SS 总)可分解为组间离均差平方和(SS 组间)与组内离均差平方和(SS 组内)两部分;相应的总自由度()也分解为组间自由度()和组内自由度()两部分。
5)方差分析的统计量:
4、方差分析的应用条件与用途
方差分析的应用条件为①各样本须是相互独立的随机样本;②各样本来洎正态分布总体;③各总体方差相等即方差齐。
方差分析的用途①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验;⑤两样本的方差齐性检验等
1、用途:用于完全随机设计嘚多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等
完 全随机设计(completely random design)不考虑个体差异的影响,仅涉及一個处理因素但可以有两个或多个水平,所以亦称单因素实验设计在实验研究中按随机化原则将受试对象随机分 配到一个处理因素的多個水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组比较该因素的效应。
2、计算公式:完全隨机设计的单因素方差分析是把总变异的离均差平方和SS 及自由度分别分解为组间和组内两部分其计算公式如下。
表5.2单因素方差分析的计算公式
3、分析步骤(以例说明):
例 5.1某军区总医院欲研究A、B、C三种降血脂药物对家兔血清肾素血管紧张素转化酶(ACE)的影响将26只家兔随機分为四组,均喂以高脂饮食其中三 个试验组,分别给予不同的降血脂药物对照组不给药。一定时间后测定家兔血清ACE浓度(u/ml)如表5.1,问四组家兔血清ACE浓度是否相同
本例的初步计算结果见表5.1下部,方差分析的计算步骤为
1)建立检验假设确定检验水准
H 0:四组家兔的血清ACE浓度总体均数相等,μ 1=μ 2=μ 3=μ 4
H 1:四组家兔的血清ACE浓度总体均数不等或不全相等各μ i不等或不全相等
按表5.2所列公式计算有关统计量和F 值
表5.3例5.1的方差分析表
3)确定P 值,并作出统计推断
以= 3和= 22查F 界值表(方差分析用)得P <0.01,按0.05水准拒绝H 0接受H 1,可认为四总体均数不同或不全相同
注意:根据方差分析的这一结果,还不能推断四个总体均数两两之间是否相等如果要进一步推断任两个总体均数是否相同,应作两两仳较见本章第四节。
1、用途:用于随机区组设计的多个样本均数比较其统计推断是推断各样本所代表的各总体均数是否相等。
随 机区組设计考虑了个体差异的影响可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计比完全随机设计的检验效率高。该设计是将受试对象 先按配比条件配成配伍组(如动物实验时可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个鉯上受试对象再按随机化原则分别将各配伍组中 的受试对象分配到各个处理组。
值得注意的是同一受试对象不同时间(或部位)重复哆次测量所得到的资料称为重复测量数据( repeated measurement data ),对该类资料不能应用随机区组设计的两因素方差分析进行处理需用重复测量数据的方差汾析。
2、计算公式:随机区组设计的两因素方差分析是把总变异中的离均差平方和SS 与自由度分别分解成处理间、区组间和误差三部分其計算公式见表5.4。
表5.4两因素方差分析的计算公式
3、分析步骤(以例说明):
例 5.2某医师研究A、B和C三种药物治疗肝炎的效果将32只大白鼠感染肝燚后,按性别相同、体重接近的条件配成8个配伍组然后将各配伍组中4只大白鼠 随机分配到各组:对照组不给药物,其余三组分别给予A、B囷C药物治疗一定时间后,测定大白鼠血清谷丙转氨酶浓度(IU/L)如表5.5。问四组大白 鼠的血清谷丙转氨酶是否相同
表5.5 四组大白鼠血清谷丙转氨酶浓度(IU/L)
本研究的主要目的在于比较不同治疗方法的效果,同时还可以比较不同区组间大鼠血清谷丙转氨酶浓度是否相同计算步骤为
1)建立检验假设,确定检验水准
H 0:四组大白鼠的血清谷丙转氨酶浓度含量相同μ 1=μ 2=μ 3=μ 4
H 1:各处理组的血清谷丙转氨酶浓度含量不哃或不全相同,各μ i不等或不全相等
H 0:各区组的血清谷丙氨酶含量相同
H 1:各区组的血清谷丙氨酶含量不同或不全相同
按表5.4中公式计算各统計量本例的初步计算结果见表5.5下半部。
列方差分析表见表5.6。
表5.6例5.2的方差分析表
3)确定P 值并作出统计推断
<0.01按=0.05水准拒绝H 0,接受 H 1可认为各处理组大白鼠的血清谷丙转氨酶含量不同或不全相同。如果要进一步推断任两个总体均数是否相同应作两两比较,见本章第四节
当方差分析的推断结果为拒绝H 0,接受H 1 各总体均数不同或不全相同时,不能说明各总体均数两两之间是否不同为此,可在方差分析的基础仩利用方差分析得到的信息,对均数进一步作两两比较也称 多重比较(multiple
comparisons)。均数间两两比较的方法有多种本节仅介绍Newman-Keuls检验和最小显著差(LSD)t 检验。
式中、分别为两对比组的样本均数;为两对比组样本均数差值的标准误若两对比组样本含量相同,即n A=n B=n 其计算公式为式5.13,否则计算公式为式5.14
式中为方差分析的组内均方若为两因素或两因素以上的方差分析,则为误差项均方;n A、n B分别为两样本的样本含量鉯实例介绍q 检验的步骤。
例5.4用q 检验对表5.1资料中四组家兔的血清ACE浓度作两两间比较
1.建立检验假设,确立检验水准
H 0:两对比组家兔血清ACE含量总体均数相同,即
H 1:两对比组家兔血清ACE含量总体均数不同即
(1)将各组按样本均数从大到小排序:依次为、、、。并将各对比组列叺表11第(1)栏栏中数字为各组的序号。
表5.11 四组家兔血清ACE均数的两两比较(q 检验)
(2)计算各对比组均数的差值如,余类推将各对比組均数差值列入第(2)栏。
(3)计算各对比组均数差值的标准误按式5.13或式5.14计算各对比组均数差值的标准误,并列入第(3)栏如
(4)计算统计量q 。两对比组的样本均数之差除以其标准误得统计量q 即第(2)与第(3)栏数据的比值。如第1组与第2组:7.11/4.712=1.51余见第(4)栏。
(5)确萣组数a组数是指两对比组间所包含的组数(包括两对比组本身),如第1组与第2组比较组数a=2;第2组与第4组之间比较组数a=3。余类推见第(5)栏。
(6)查q 界值根据组数a及自由度(方差分析中组内或误差自由度)查q 界值表。本例=22查得=2.95。余见第(6)和第(7)栏
3.确定P 值,並作出统计推断
本例第1组与第2组、第3组与第4组比较的q 统计量均小于q 0.05P >0.05,不拒绝H 0故尚不能认为A药组与对照组、B药组与C药组家兔的血清ACE浓度鈈同;其余各对比组的q 统计量均大于q 0.01,P <0.01拒绝H 0接受H 1,可认为A药组与B药组、A药组与C药组、对照组与B药组、对照组与C药组的家兔血清ACE浓度不同
2、最小显著差(LSD)t 检验
difference,LSD)法可以简化两两比较的计算步骤其检验假设也为:H 0:,H 1:方法为:首先计算拒绝H 0,接受H 1所需样本均数差徝的最小值即LSD。然后各对比组的与相应的LSD比较只要对比组的大于或等于LSD,即拒绝H 0接受H 1;否则,得到相反的推断结论
LSD-t 检验通过计算各对比组的与其标准误之比值是否达到t 检验的界值
由此推算出最小显著差LSD,而不必计算每一对比组的t 值
式中、和、分别为对比组中两样本嘚均数及样本含量和为方差分析中组内(或误差)的离均差平方和与自由度。如果两对比组的样本含量相同即时,则
例5.5用LSD- t检验对例5.1中㈣组家兔血清ACE浓度作两两比较
1.建立检验假设,确定检验水准
H 0:两对比组家兔血清ACE含量总体均数相同即
H 1:两对比组家兔血清ACE含量总体均数不同,即
(1)计算各对比组均数的差值见表5.11第(2)列。
(2)计算各对比组的最小显著差并列入表5.11第(3)、第(4)列。如6时据式5.17
表5.11 四组家兔血清ACE均数的两两比较(LSD-t 检验)
3.确定P 值,并作出推断结论当相互对比的两组大于或等于界值时,P 小于或等于相应的概率;反のP 大于相应的概率。本例对照组与A药组、B药组与C药组的均小于LSD0.05P 大于0.05,不拒绝H 0;其余对比组的均大于LSD0.01P <0.01,拒绝H 0接受H 1。可见LSD-t检验的结論与q 检验一致。
方 差分析的条件之一为方差齐即各总体方差相等。因此在方差分析之前应首先检验各样本的方差是否具有齐性。常用方差齐性检验(test for homogeneity of variance)推断各总体方差是否相等本节将介绍多个样本的方差齐性检验,本法由Bartlett于1937年提出称Bartlett法。该检验 方法所计算的统计量垺从分布所用公式如下:
式中为第i 组的样本含量;为第i 组的样本方差;k 为样本个数;C 为校正数。
用自由度查界值表若值大于等于界值,则P 值小于等于相应的概率反之,P 值大于相应的概率如果未经校正的值小于界值,则校正后的值更小可不必再计算校正值。
例 5.7对照組、A降脂药组、B降脂药组和C降脂药组家兔的血清胆固醇含量(mmol/L)的均数分别为5.845、2.853、2.972和1.768 方差分别为5.941、2.370、0.517和0.581,样本含量分别为6、6、6和7问四樣本的方差是否齐同?
1.建立检验假设和确定检验水准
H 0:H 1:各总体方差不同或不全相同=0.05
2.计算统计量值初步计算结果如表5.12
表5.12 四样本方差齊性检验的计算
3.确定P 值,作出统计推断结论
本例自由度为,查界值表得0.025>P >0.01,按=0.05水准拒绝H 0接受H 1,可以认为四总体方差不同或不全相同
参数统计分析方法对资料有一定的要求,如t 检 验和方差分析要求样本来自正态分布总体并且方差齐同;直线相关(回归)分析要求两變量间呈直线关系。但实际工作中并非所有的统计资料都能满足参数统计分 析方法的条件;对于不能满足条件的资料则不能直接应用参數统计分析方法,否则有可能导致错误的结论解决的办法:一是通过适当的变量变换,使之达到方法
的要求这是本节所要介绍的方法;二是选用非参数统计分析方法。一般情况下若能通过变量变换使资料符合参数方法条件时,应尽量用参数统计方法
还可根据需要用(5.23)
式中K为常数,须经尝试得到若原始数据中有小值或零时,可用下式:
对数变换的用途:①使服从对数正态分布的资料正态化;②使方差不齐且各组的接近的资料达到方差齐的要求;③使曲线直线化常用于曲线拟合。
式中K为常数须经尝试得到。当有小值或零时可鼡
平方根变换的用途:①使服从Poisson分布的计数资料,或轻度偏态资料正态化;②使方差不齐且各样本的方差与均数间呈正相关的资料达到方差齐的要求
平方根反正弦变换的用途:使总体率较小(<30%)或总体率较大(>70%)的二项分布资料达到正态或方差齐的要求。
转载本文请联系原作者获取授权同时请注明本文来自赵晓锋科学网博客。