方差与均方误差的关系和方差是一个东西吗

均值表示信号中直流分量的大小用E(x)表示。对于高斯白噪声信号而言它的均值为0,所以它只有交流分量

均值的平方,用{E(x)}^2表示它表示的是信号中直流分量的功率。

均方值表示信号平方后的均值用E(x^2)表示。均方值表示信号的平均功率信号的平均功率 = 信号交流分量功率 + 信号直流分量功率

例如:x、y、z 3项求均方值。均方值=(x的平方+y的平方+z的平方)/3

均方差(mean square error)用MSE表示。均方差是各数据偏离真实值的距离平方和的平均数也即误差平方和的平均数,计算公式形式上接近方差它的开方叫均方根误差,均方根误差才和标准差形式上接近均方差有时候被认为等同于方差

均方根误差用RMSE(root mean square error)表示。它是观测值与真值偏差的平方和观测次数n比值的平方根在实际测量中,观测次数n总是有限的真值只能用最可信赖(最佳)值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感,所以均方根误差能够很好地反映出测量的精密度。均方根误差有時候被认为是标准差

方差用variance或deviation 或Var表示 方差描述信号的波动范围,表示信号中交流分量的强弱即交流信号的平均功率。

注意上面除以的昰n-1只有这样由样本值估计出的方差才是无偏的,即上面式子的期望才是X的方差但是有的地方也有用除以n来表示方差,只不过这样求出嘚结果不是方差的无偏估计计算结果的数学期望并不是X的方差,而是X方差的

标准差(Standard Deviation)用σ表示,有的时候标准差又可以被称为均方根误差RMSE 标准差是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根用σ表示,标准差能反映一个数据集的离散程度。

標准差σ, 反映了测量数据偏离真实值的程度,σ越小,表示测量精度越高,因此可用σ作为评定这一测量过程精度的标准

有了方差为什麼要使用标准差?标准差比方差有什么优势

因为方差与我们要处理的数据的量纲是不一致的,虽然能很好的描述数据与均值的偏离程度但是处理结果是不符合我们的直观思维的。 
举个例子:一个班级里有60个学生平均成绩是70分,标准差是9方差是81,成绩服从正态分布那么我们通过方差不能直观的确定班级学生与均值到底偏离了多少分,通过标准差我们就很直观的得到学生成绩分布在[61,79]范围的概率为0.6826即約等于下图中的34.2%*2 。

(1)总的来说均方差,均方根误差和方差标准差是不能够等同的,尽管它们的公式相似我们需要从真实值和均值の间的关系来区分它们

(2)对于方差和标准差而言,它们反映的是数据序列与均值的关系

(3)对于均方差和均方根误差而言,它们反映嘚是数据序列与真实值之间的关系

组AX=0其中A是n阶矩阵,r(A)=r<n∴将A施行初等行变换

化成行最简形矩阵,其中A有r个非零行AX=0就有n-r个自由变量每一

n-r个自由变量对应着n-r个解这n-r个解构成AX=0的基础解系∴基础解系含囿n-r个解.

前述的t检验和u检验适用于两个样夲均数的比较对于k个样本均数的比较,如果仍用t检验或u检验需比较次,如四个样本均数需比较次假设每次比较所确定的检验水准=0.05,則每次检验拒绝H0不犯第一类错误的概率为1-0.05=0.95;那么6次检验都不犯第一类错误的概率为(1-0.05)6=0.7351而犯第一类错误的概率为0.2649,因而t检验和u检验不适用于哆个样本均数的比较用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis

2、方差分析的基本思想

下面通过表5.1资料介绍方差汾析的基本思想

例如,有4组进食高脂饮食的家兔接受不同处理后,测定其血清肾素血管紧张素转化酶(ACE)浓度(表5.1)试比较四组家兔的血清ACE浓度。

表5.1对照组及各实验组家兔血清ACE浓度(u/ml)

由 表5.1可见26只家兔的血清ACE浓度各不相同,称为总变异;四组家兔的血清ACE浓度均数也各不相同称为组间变异;即使同一组内部的家兔血清 ACE浓度相互间也不相同,称为组内变异该例的总变异包括组间变异和组内变异两部汾,或者说可把总变异分解为组间变异和组内变异组内变异是由于家兔间 的个体差异所致。组间变异可能由两种原因所致一是抽样误差;二是由于各组家兔所接受的处理不同。正如第四章所述在抽样研究中抽样误差是不可避免的,故 导致组间变异的第一种原因肯定存茬;第二种原因是否存在需通过假设检验作出推断。假设检验的方法很多由于该例为多个样本均数的比较,应选用方差分析

方差分析的检验假设H0为各样本来自均数相等的总体,H1为各总体均数不等或不全相等若不拒绝H0时,可认为各样本均数间的差异是由于抽样误差所致而不是由于处理因素的作用所致。理论上此时的组间变异与组内变异应相等,两者的比值即统计量F为1;由于存在抽样误差两者往往不恰好相等,但相差不会太大统计量F应接近于1。若拒绝H0接受H1时,可认为各样本均数间的差异不仅是由抽样误差所致,还有处理因素的作用此时的组间变异远大于组内变异,两者的比值即统计量F明显大于1在实际应用中,当统计量F值远大于1且大于某界值时拒绝H0,接受H1即意味着各样本均数间的差异,不仅是由抽样误差所致还有处理因素的作用。

方差分析的基本思想是根据研究目的和设计类型將总变异中的离均差平方和SS及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异進行比较得出统计量F值;最后根据F值的大小确定P值,作出统计推断

例如,完全随机设计的方差分析是将总变异中的离均差平方和SS及其自由度分别分解成组间和组内两部分,SS组间/组间和SS组内/组内分别为组间变异(MS组间)和组内变异(MS组内)两者之比即为统计量FMS组间/MS組内)。

又如随机区组设计的方差分析,是将总变异中的离均差平方和

分别分解成处理间、区组间和误差3部分然后分别求得以上各部汾的变异(

区组和MS误差),进而得出统计量F值(MS处理/MS误差、MS区组/MS误差)

3、方差分析的计算方法

下面以完全随机设计资料为例,说明各部汾变异的计算方法将N个受试对象随机分为k组,分别接受不同的处理归纳整理数据的格式、符号见下表:

总变异的离均差平方和为各变量值与总均数()差值的平方和,离均差平方和和自由度分别为:

2)组间离均差平方和、自由度和均方

组间离均差平方和为各组样本均数()與总均数()差值的平方和

3)组内离均差平方和、自由度和均方

组内离均差平方和为各处理组内部观察值与其均数()差值的平方和之和。數理统计证明总离均差平方和等于各部分离均差平方和之和,因此

可见,完全随机设计的单因素方差分析时总的离均差平方和(SS总)可分解为组间离均差平方和(SS组间)与组内离均差平方和(SS组内)两部分;相应的总自由度()也分解为组间自由度()和组内自由度()两部分。

5)方差分析的统计量:

4、方差分析的应用条件与用途

方差分析的应用条件为①各样本须是相互独立的随机样本;②各样本来洎正态分布总体;③各总体方差相等即方差齐。

方差分析的用途①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验;⑤两样本的方差齐性检验等

1、用途:用于完全随机设计嘚多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等

完 全随机设计(completely random design)不考虑个体差异的影响,仅涉及一個处理因素但可以有两个或多个水平,所以亦称单因素实验设计在实验研究中按随机化原则将受试对象随机分 配到一个处理因素的多個水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组比较该因素的效应。

2、计算公式:完全隨机设计的单因素方差分析是把总变异的离均差平方和SS及自由度分别分解为组间和组内两部分其计算公式如下。

表5.2单因素方差分析的计算公式

3、分析步骤(以例说明):

例 5.1某军区总医院欲研究A、B、C三种降血脂药物对家兔血清肾素血管紧张素转化酶(ACE)的影响将26只家兔随機分为四组,均喂以高脂饮食其中三 个试验组,分别给予不同的降血脂药物对照组不给药。一定时间后测定家兔血清ACE浓度(u/ml)如表5.1,问四组家兔血清ACE浓度是否相同

本例的初步计算结果见表5.1下部,方差分析的计算步骤为

1)建立检验假设确定检验水准

H0:四组家兔的血清ACE浓度总体均数相等,μ1=μ2=μ3=μ4

H1:四组家兔的血清ACE浓度总体均数不等或不全相等各μi不等或不全相等

按表5.2所列公式计算有关统计量和F

表5.3例5.1的方差分析表

3)确定P值,并作出统计推断

以= 3和= 22查F界值表(方差分析用)得P <0.01,按0.05水准拒绝H0接受H1,可认为四总体均数不同或不全相同

注意:根据方差分析的这一结果,还不能推断四个总体均数两两之间是否相等如果要进一步推断任两个总体均数是否相同,应作两两仳较见本章第四节。

1、用途:用于随机区组设计的多个样本均数比较其统计推断是推断各样本所代表的各总体均数是否相等。

随 机区組设计考虑了个体差异的影响可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计比完全随机设计的检验效率高。该设计是将受试对象 先按配比条件配成配伍组(如动物实验时可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个鉯上受试对象再按随机化原则分别将各配伍组中 的受试对象分配到各个处理组。

值得注意的是同一受试对象不同时间(或部位)重复哆次测量所得到的资料称为重复测量数据(repeated measurement data),对该类资料不能应用随机区组设计的两因素方差分析进行处理需用重复测量数据的方差汾析。

2、计算公式:随机区组设计的两因素方差分析是把总变异中的离均差平方和SS与自由度分别分解成处理间、区组间和误差三部分其計算公式见表5.4。

表5.4两因素方差分析的计算公式

3、分析步骤(以例说明):

例 5.2某医师研究A、B和C三种药物治疗肝炎的效果将32只大白鼠感染肝燚后,按性别相同、体重接近的条件配成8个配伍组然后将各配伍组中4只大白鼠 随机分配到各组:对照组不给药物,其余三组分别给予A、B囷C药物治疗一定时间后,测定大白鼠血清谷丙转氨酶浓度(IU/L)如表5.5。问四组大白 鼠的血清谷丙转氨酶是否相同

表5.5 四组大白鼠血清谷丙转氨酶浓度(IU/L)

本研究的主要目的在于比较不同治疗方法的效果,同时还可以比较不同区组间大鼠血清谷丙转氨酶浓度是否相同计算步骤为

1)建立检验假设,确定检验水准

H0:四组大白鼠的血清谷丙转氨酶浓度含量相同μ1=μ2=μ3=μ4

H1:各处理组的血清谷丙转氨酶浓度含量不哃或不全相同,各μi不等或不全相等

H0:各区组的血清谷丙氨酶含量相同

H1:各区组的血清谷丙氨酶含量不同或不全相同

按表5.4中公式计算各统計量本例的初步计算结果见表5.5下半部。

列方差分析表见表5.6。

表5.6例5.2的方差分析表

0

3)确定P值并作出统计推断

<0.01按=0.05水准拒绝H0,接H1可认为各处理组大白鼠的血清谷丙转氨酶含量不同或不全相同。如果要进一步推断任两个总体均数是否相同应作两两比较,见本章第四节

当方差分析的推断结果为拒绝H0,接受H1 各总体均数不同或不全相同时,不能说明各总体均数两两之间是否不同为此,可在方差分析的基础仩利用方差分析得到的信息,对均数进一步作两两比较也称 多重比较(multiple comparisons)。均数间两两比较的方法有多种本节仅介绍Newman-Keuls检验和最小显著差(LSD)t检验。

式中、分别为两对比组的样本均数;为两对比组样本均数差值的标准误若两对比组样本含量相同,即nA=nB=n其计算公式为式5.13,否则计算公式为式5.14

式中为方差分析的组内均方若为两因素或两因素以上的方差分析,则为误差项均方;nA、nB分别为两样本的样本含量鉯实例介绍q检验的步骤。

例5.4用q检验对表5.1资料中四组家兔的血清ACE浓度作两两间比较

1.建立检验假设,确立检验水准

H0:两对比组家兔血清ACE含量总体均数相同,即

H1:两对比组家兔血清ACE含量总体均数不同即

(1)将各组按样本均数从大到小排序:依次为、、、。并将各对比组列叺表11第(1)栏栏中数字为各组的序号。

表5.11 四组家兔血清ACE均数的两两比较(q检验)

(2)计算各对比组均数的差值如,余类推将各对比組均数差值列入第(2)栏。

(3)计算各对比组均数差值的标准误按式5.13或式5.14计算各对比组均数差值的标准误,并列入第(3)栏如

(4)计算统计量q。两对比组的样本均数之差除以其标准误得统计量q即第(2)与第(3)栏数据的比值。如第1组与第2组:7.11/4.712=1.51余见第(4)栏。

(5)确萣组数a组数是指两对比组间所包含的组数(包括两对比组本身),如第1组与第2组比较组数a=2;第2组与第4组之间比较组数a=3。余类推见第(5)栏。

(6)查q界值根据组数a及自由度(方差分析中组内或误差自由度)查q界值表。本例=22查得=2.95。余见第(6)和第(7)栏

3.确定P值,並作出统计推断

本例第1组与第2组、第3组与第4组比较的q统计量均小于q0.05P>0.05,不拒绝H0故尚不能认为A药组与对照组、B药组与C药组家兔的血清ACE浓度鈈同;其余各对比组的q统计量均大于q0.01,P<0.01拒绝H0接受H1,可认为A药组与B药组、A药组与C药组、对照组与B药组、对照组与C药组的家兔血清ACE浓度不同

2、最小显著差(LSD)t检验

difference,LSD)法可以简化两两比较的计算步骤其检验假设也为:H0:,H1:方法为:首先计算拒绝H0,接受H1所需样本均数差徝的最小值即LSD。然后各对比组的与相应的LSD比较只要对比组的大于或等于LSD,即拒绝H0接受H1;否则,得到相反的推断结论

LSD-t检验通过计算各对比组的与其标准误之比值是否达到t检验的界值

由此推算出最小显著差LSD,而不必计算每一对比组的t

式中、和、分别为对比组中两样本嘚均数及样本含量和为方差分析中组内(或误差)的离均差平方和与自由度。如果两对比组的样本含量相同即时,则

例5.5用LSD- t检验对例5.1中㈣组家兔血清ACE浓度作两两比较

1.建立检验假设,确定检验水准

H0:两对比组家兔血清ACE含量总体均数相同即

H1:两对比组家兔血清ACE含量总体均数不同,即

(1)计算各对比组均数的差值见表5.11第(2)列。

(2)计算各对比组的最小显著差并列入表5.11第(3)、第(4)列。如6时据式5.17

表5.11 四组家兔血清ACE均数的两两比较(LSD-t检验)

3.确定P值,并作出推断结论当相互对比的两组大于或等于界值时,P小于或等于相应的概率;反のP大于相应的概率。本例对照组与A药组、B药组与C药组的均小于LSD0.05P大于0.05,不拒绝H0;其余对比组的均大于LSD0.01P<0.01,拒绝H0接受H1。可见LSD-t检验的结論与q检验一致。

方 差分析的条件之一为方差齐即各总体方差相等。因此在方差分析之前应首先检验各样本的方差是否具有齐性。常用方差齐性检验(test for homogeneity of variance)推断各总体方差是否相等本节将介绍多个样本的方差齐性检验,本法由Bartlett于1937年提出称Bartlett法。该检验 方法所计算的统计量垺从分布所用公式如下:

式中为第i组的样本含量;为第i组的样本方差;k为样本个数;C为校正数。

用自由度查界值表若值大于等于界值,则P值小于等于相应的概率反之,P值大于相应的概率如果未经校正的值小于界值,则校正后的值更小可不必再计算校正值。

例 5.7对照組、A降脂药组、B降脂药组和C降脂药组家兔的血清胆固醇含量(mmol/L)的均数分别为5.845、2.853、2.972和1.768 方差分别为5.941、2.370、0.517和0.581,样本含量分别为6、6、6和7问四樣本的方差是否齐同?

1.建立检验假设和确定检验水准

H0:H1:各总体方差不同或不全相同=0.05

2.计算统计量值初步计算结果如表5.12

表5.12 四样本方差齊性检验的计算

3.确定P值,作出统计推断结论

本例自由度为,查界值表得0.025>P>0.01,按=0.05水准拒绝H0接受H1,可以认为四总体方差不同或不全相同

参数统计分析方法对资料有一定的要求,如t检 验和方差分析要求样本来自正态分布总体并且方差齐同;直线相关(回归)分析要求两變量间呈直线关系。但实际工作中并非所有的统计资料都能满足参数统计分 析方法的条件;对于不能满足条件的资料则不能直接应用参數统计分析方法,否则有可能导致错误的结论解决的办法:一是通过适当的变量变换,使之达到方法 的要求这是本节所要介绍的方法;二是选用非参数统计分析方法。一般情况下若能通过变量变换使资料符合参数方法条件时,应尽量用参数统计方法

还可根据需要用(5.23)

式中K为常数,须经尝试得到若原始数据中有小值或零时,可用下式:

对数变换的用途:①使服从对数正态分布的资料正态化;②使方差不齐且各组的接近的资料达到方差齐的要求;③使曲线直线化常用于曲线拟合。

式中K为常数须经尝试得到。当有小值或零时可鼡

平方根变换的用途:①使服从Poisson分布的计数资料,或轻度偏态资料正态化;②使方差不齐且各样本的方差与均数间呈正相关的资料达到方差齐的要求

平方根反正弦变换的用途:使总体率较小(<30%)或总体率较大(>70%)的二项分布资料达到正态或方差齐的要求。

我要回帖

更多关于 方差与均方误差的关系 的文章

 

随机推荐