与期望频数的差异显著性分析多大才算有显著差异显著性分析

  摘 要: 本文主要研究的是卡方分布的性质和卡方分布在现实生活中的应用。本文的重点是通过典型实例分析了卡方检验在单因素拟" />
免费阅读期刊
论文发表、论文指导
周一至周五
9:00&22:00
卡方分布的性质与应用探讨
2016年1期目录
&&&&&&本期共收录文章20篇
  摘 要: 本文主要研究的是卡方分布的性质和卡方分布在现实生活中的应用。本文的重点是通过典型实例分析了卡方检验在单因素拟合度检验和多因素独立性检验的应用。在单因素拟合度检验中,介绍了卡方分布在检验数据之间有无差异性以及样本分布与理论分布模型之间的拟合度中的应用;在多因素卡方独立性检验中,讨论了列联表独立性检验和齐一性卡方检。 中国论文网 /4/view-7194118.htm   关键词:卡方检验 & &列联表 & &独立性检验 & &拟合度检验 & &显著性水平    中图分类号:G633.6 文献标识码:A & & &文章编号:(9-02   一、卡方分布的理论概述   若n个相互独立的随机变量 & & 、 & & 、...... & & &,均服从标准正态分布,则这n个均服从标准正态分布的随机变量的平方和 & & & & & &构成一个新的随机变量,其分布规律称为卡方分布。其中参数n称为自由度,自由度不同卡方分布就不同。从以上的定义介绍中我们可以看出,卡方分布实际上是由正态分布构造而成的一个新的分布,这也正说明了正态分布在数理统计中的重要作用。卡方分布是概率论和统计学中重要的一种开率分布。卡方分布常用于假设检验和置信区间的计算。   二、卡方分布的性质   1.卡方分布的图像分布在第一象限,且呈正偏态.   2.卡方分布随着自由度增加而逐渐趋向于对称,df很大时接近正态分布,当df趋向于正无穷大时,分布即为正态分布。   3.卡方分布只有一个参数,即自由度n,不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。   4.卡方分布的均值为自由度n,记作Eχ2=n,这里的符号“E”是表示对随机变量取平均值的意思;卡方分布的方差为二倍的自由度,即为Dχ2=2n,这里的符号“D”表示对随机变量求方差。   5.卡方分布具有可加性:如果k个服从卡方分布而且相互独立的随机变量,则它们的和仍然服从卡方分布,这个新的卡方分布的自由度为原来的k个卡方分布自由度之和。   6.不管自由度n是多少,卡方分布曲线下的面积都是1.   7.卡方值都是正数。   三、卡方检验的应用   1.卡方检验的简单介绍   卡方检验的基本步骤是:第一步,建立原假设 & & & (正常情况下结论,不以否定的)和备择假设;第二步,根据理论分布或者理论经验建立期望频数;第三部,由实际频数和计算出来的期望频数来计算样本的卡方值,卡方检验的基本公式是:      其中, & & &表示实际频数, & & &表示期望频数, & & &2表示卡方值。在实际应用中,调查资料或者实验得出的若干个实际频数与理论频数之间的差别可以用公式一来表示,如果样本量足够大,要是大于40而且理论频数大于5,则公式一就近似服从卡方分布,样本来那个越大,近似程度就越好;第四步,根据显著性水平α和自由度在卡方分布概率表中找出相对应的卡方临界值,如果卡方临界值小于运算得出的卡方值,就接受原假设,如果卡方临界值大于运算得出的卡方值,就拒绝原假设,接受备择假设。在卡方分布的应用研究中,常用于两种情况:拟合度检验和独立性检验,下面我们就论证了这两种应用。   2.单一因素的卡方拟合度检验   我们都知道,影响一个事物的因素可能是多种多样的。同样的,在非参数检验过程中,只有一个因素改变的检验成为单因素检验,多个因素同时改变的检验成为多因素检验。拟合度检验是对已经制作好的预测模型进行检验,比较它们的预测结果与实际发生情况之间的吻合度。   2.1检验数据之间有无差异性   检验观测的数据之间的差异性是比较简单的单因素卡方检验,只是简单的检验了分成多项的频数之间在数量上有无明显的差异。下面这个例子是这一检验在语言研究中的应用。   例 为了了解学生学习数学的动机,我们做了一次小范围的问卷调查,这次问卷分为了5个项目,调查了100名普通高校大一学生,调查问卷的结果如表二所示。现在的问题是,从问卷调查结果分析学生学习数学的动机有无显著性差异?   表一 学生学习英语的动机实际频数表   上表所给的数据是计数数据而且样本量不大,比较适合用卡方拟合度检验。问题具体分析步骤如下:   (1)建立原始假设和备择假设。原始假设认为每个学生学习数学的动机之间没有明显的差异;备择假设则认为学生学习英语的动机有明显的差异。   (2)计算出期望频数。如果学生学习数学的动机没有明显的差异,则100名学生对5个项目的选择概率应该是相等的,所以期望频数的公式是:期望频数=总数/分类的项目数   将表一中的数据代入公式2,得出的结果是:期望频数=总数/分类的项目数 =100/5=20   (3)计算卡方值。   (4)计算自由度。在这个问题中共有5个分类项目,即比较5个分类项目的频数,但是在实际计算中,最后一个分类项的频数是由全部频数减去前面4个频数所得到的,因此实际上只有4个独立信息。所以计算这类检验的自由度公式是:df=n-1=5-1=4,所以自由度是4.   (5)查表。查表可知,当自由度为4时,显著性水平位0.05,卡方临界值是9.49。   (6)得出结论。由于计算出的卡方值23.9大于12.6,这说明观测数据之间存在着明显的差异,因此拒绝原假设接受备择假设,也就是说学生学习数学的动机是存在着明显差异的。
  2.2检验样本分布与理论分布模型之间的拟合度   单因素卡方检验中的另一个重要的用途是检验样本分布与特定分布模型或者某一理论分布模型是否拟合,下面这个例子是检验样本是否服从孟德尔遗传定律。   例 按照孟德尔的遗传定律,让开淡红色花的豌豆随机交配,子代可以开出红花、淡红花、白花三类,它们的比例是1:2:1,为了验证这个理论,我们特别安排论了一个实验,实验得到的开红花、淡红花、白花的豌豆的株数分别是26,,66,28,现在的问题是验证这些数据与孟德尔遗传定律是否一致。   如果以 & & & & & & & & & &分别表示随机交配的豌豆开红花、淡红花、白花这一事件,那么孟德尔遗传定律认为,   ,为了验证这些数据与孟德尔遗传定律是否一致,就是要检验   现在共进行了n=26+66+28=120次观测,其中 & & & & & & & & & & &发生的频数分别是26,66,28,而在原始假设下期望的频数是30,60,30,所以   查阅卡方分布概率表得,在自由度为2,显著性水平为0.05时,卡方分布的临界值是5.991,大于1.267,因此不能拒绝原始假设,即实际数据与孟德尔的理论模型没有显著差异。   3.多因素卡方检验   卡方检验除了能进行拟合度检验之外,还能进行分析俩个或多个因素之间有无关联。下面我们来介绍卡方检验在列联表独立性检验和四个表独立性检验中的应用研究。   3.1列联表独立性检验   随机试验的结果往往要记录各个研究对象的两个或者多个分类属性。这时样本中具有各个属性的频数统计就需要按照各个属性的交叉分类进行。特别的,在两个分类属性时,往往要用一个矩形表来列出两个属性交叉分类下每种组合的频数,这种表就称作为列联表。有一种2×2的列联表叫做四格表。   3.2齐一性的卡方检验   汇总在两向列联表中的数据,在采集的时候可有各种不同的情况。有时候其中两个属性不能都看为是随机的。   例如在流行病的研究中,为了研究得病与否与某个生活习惯的关系,往往预先规定对一定数量的患者与非患者进行观测。例如,在下表中就是对262名心血管病人和519名(大体上两倍)无心血管疾病的公民询问他们是否有吸烟史的调查结果。希望由此来比较在这两个人群中有吸烟史的比例是不是相同。   在上表所示的数据中,被调查的心血管病患者与非心血管病患者的比列是262::519。这个采样比例是根据研究的需要确定的,但是这个比列并不能反映出整个人群中患病的人与不患病的人的比例。因此在分析这个数据的时候,不应该将患病与否这个属性作为随机的。而是应该讲这两个人群分别作为不同的总体,在这两个总体中比较其吸烟者的比列。   四、结束语   综上所述,我们主要研究的是卡方分布的八条性质和卡方分布在现实生活中的应用。本文的难点就是在研究列联表独立性检验和齐一性卡方检验时,卡方统计量的推导以及列联表独立性检验和齐一性卡方检验的区别,也就是说不是很明确在什么情况下用列联表独立性检验,什么时候用齐一性检验,虽然最后的卡方统计量的计算公式是一样的,但是其中的原理确实有很大差异的。
转载请注明来源。原文地址:
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。统计学非参数检验ppt下载_PPTOK【程序员眼中的统计学(11)】卡方分布的应用
1 题引和基本知识介绍
1 什么是卡方分布?
若n个相互独立的随机变量ξ?、ξ?、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和
Q=∑i=1nξ2iQ=∑i=1nξi2
构成一新的随机变量,其卡方分布规律称为x^2,分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个x2x2正态分布一样,自由度不同就是另一个分布。记为 Q~x^2(k). 卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,X^2分布近似为正态分布。 对于任意正整数k, 自由度为 k的卡方分布是一个随机变量X的机率分布。
2 为什么要引用卡方分布?
以特定概率分布为某种情况建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常的小幅度波动?还是建模错误?此时,利用卡方分布分析结果,排除可疑结果。【事实与期望不符合情况下使用卡方分布进行检验】
3 生活中又怎样的事例(抽奖机之谜)会出现这种现象呢?
抽奖机,肯定都不陌生,现在一些商场超市门口都有放置。正常情况下出奖概率是一定的,基本商家收益。倘若突然某段时间内总是出奖,甚是反常,那么到底是某阶段是小概率事件还是有人进行操作了?抽奖机怎么了?针对这种现象或者类似这种现象问题则可以借助卡方进行检验,暂且不着急如何检验,还是补充一下基础知识,再逐步深入解决问题。【常规事件中出现非常规现象,如何检查问题所在的情况下使用卡方分布】
4 问题描述:抽奖机之谜?
问题一:卡方检验拟合优度案例
下面是某台抽奖机的期望分布,其中X代表每局游戏的净收益(每局独立事件):
实际中人们收益的频数为:
在5%的显著性水平下,看看能否有足够证据证明判定抽奖机被人动了手脚。
1、算出每个x值的实际频率与根据概率分布得出的期望频率进行比较? 2、利用抽奖机的观察频率和期望频率表计算检验统计量?3、要检验的原假设是什么?备择假设是什么?4、自由度为4且5%水平的拒绝域是多少?5、检验统计量是多少?6、检验统计量是在拒绝域以内还是拒绝域以外?7、你将接受还是拒绝原假设?
问题二:卡方检验独立性案例
下表显示各位庄家的观察频数,
以1%的显著性水平进行假设检验,看看赌局结果是否独立于坐庄庄家。
1、你是任务是算出所有期望频数。2、根据上面所求期望频数,计算检验统计量X^2.3、确定要进行检验的假设以及备择假设。4、求出期望频率和自由度?5、确定用于做决策的拒绝域。6、计算检验统计量X^2 7、看看检验统计量是否位于拒绝域内。8、作出决策。
2 卡方检验拟合优度(问题一)
问题简述:抽奖机平常收益者总是商家,突然一段时间总是出奖。本来小概率事件频发,我们利用卡方的检验拟合优度看看能否有足够证据证明判定抽奖机被人动了手脚
1 知识储备:期望频数计算
期望频数=(观察频数之和(1000)) X (每种结果的概率) 如:X=(-2)的期望频数:977=(0.977)X(1000)利用卡方假设检验观察频数和期望频数之间的差别。
1、算出每个x值的实际频率与根据概率分布得出的期望频率进行比较?解答:
2 知识储备:卡方检验评估差异
卡方分布:通过一个检验统计量来比较期望结果和实际结果之间的差别,然后得出观察频数极值的发生概率。计算统计量步骤: (期望频数总和与观察频数总和相等)
1、表里填写相应的观察频数和期望频数
2、利用卡方公式计算检验统计量:(O代表观察期望,E代表期望频数)
x2=∑(O-E)2Ex2=∑(O-E)2E
注释: 其中x^2表示检验统计量,O表示观察频数,E代表期望频数。
即:对于概率分布的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望频数,然后将所有结果相加。检验统计量意义:O与E之间差值越小,检验统计量越小。以E为除数,令差值与期望频数成比例。卡方检验的标准:如果统计量值(X^2)很小,说明观察频数和期望频数之间的差别不显著,统计量越大,差别越显著。
2、利用抽奖机的观察频率和期望频率表计算检验统计量?解答:
3 知识储备:卡方假设检验
卡方分布的用途:检查实际结果与期望结果之间何时存在显著差异。
1、检验拟合优度:也就是说可以检验一组给定数据与指定分布的吻合程度。如:用它检验抽奖机收益的观察频数与我们所期望的吻合程度。
2、检验两个变量的独立性:通过这个方法检查变量之间是否存在某种关系。自由度V:用于计算检验统计量的独立变量的数目。
1、自由度希腊字母V,读作“纽”,v影响概率分布
2、当v等于1或者2时:卡方分布先高后低的平滑曲线,检验统计量等于较小值的概率远远大于较大值的概率,即观察频数有可能接近期望频数。图形:
3、当v大于2时:卡方分布先低后高再低,其外形沿着正向扭曲,但当v很大时,图形接近正态分布。图形:
4、特定参数v(缪)的卡方分布以及检验统计量可以记作:
5、v的计算: (如例子:v=5-1)
v=(组数) - (限制数)显著性: 卡方分布指出观察频数与期望频数之间差异显著性,和其他假设一样,这取决于显著性水平。
1、显性水平α进行检验,则写作:(常用的显著性水平1%和5%)
2、检测标准:卡方分布检验是单尾检验且是右尾,右尾被作为拒绝域。于是通过查看检验统计量是否位于右尾的拒绝域以内,来判定期望分布得出结果的可能性。
3、卡方概率表的使用:卡方临界值表是给定可以查询的
例如: 5%的显著性水平,8的自由度进行检验。查出15.51,因此只要检验统计量大于15.51,检验统计量就位于拒绝域内。
卡方分布假设检验: (总是使用右尾) 步骤:
1、确定要进行检验的假设(H0)及其备择假设H1.
2、求出期望E和自由度V.
3、确定用于做决策的拒绝域(右尾).
4、计算检验统计量.
5、查看检验统计量是否在拒绝域内.
6、做出决策.卡方分布检验其实就是假设检验的特殊形式。
3、要检验的原假设是什么?备择假设是什么?解答:
4 知识储备:拒绝域求解
例如: 5%的显著性水平,8的自由度进行检验。查出15.51,因此只要检验统计量大于15.51,检验统计量就位于拒绝域内。
4、自由度为4,5%水平的拒绝域是多少? 解答:
5 知识储备:计算检验统计量
前面已经求过。
5、检验统计量是多少?解答:
6 知识储备:检验统计量拒绝域内外判定
1、求出检验统计量a2、通过自由度和显著性水平查到拒绝域临界值b3、a&b则位于拒绝域内,反之,位于拒绝域外。
6、检验统计量是在拒绝域以内还是拒绝域以外? 解答:
7 知识储备:决策原则
如果位于拒绝域内我们拒绝原假设H0,接受H1。 如果不在拒绝域内我们接受原假设H0,拒绝H1
7、你将接受还是拒绝原假设?解答:
注:只有能得到一组观察频数且算出期望频数,卡方可以检验任何概率分布的拟合优度。
揭晓谜底:抽奖机被人动了手脚!!!!!
3 卡方检验两个变量的独立性(问题二)
【问题简述】:抽奖机被人动过手脚,经过技术人员处理得以解决,但是现在新问题出现了,因为老板发现负责二十一点赌桌的庄家佩服的钱高于合理值。怀疑庄家是内鬼。究竟赌局结果是否取决于坐庄的庄家,即庄家是否暗箱操作,赌局结果与庄家是否有关?此问题需要卡方分布检查独立性破案。
【问题二】下表显示各位庄家的观察频数,
以1%的显著性水平进行假设检验,看看赌局结果是否独立于坐庄庄家。
1 知识储备:利用概率求期望频数
1、独立性检验:用于判断两种因素是否相互独立,或者两者是否有联系。2、期望概率求解步骤:
1、算出赌局结果和庄家频数以及各项总和,如下表称为列联表
2、算出庄家A的赢局期望。
a、求出赢局概率:P(赢)=赢局合计/总和
b、庄家A坐庄概率:P(A)=合计A/总和
c、假设庄家A和赌局结果独立,其坐庄出现赢局概率:P(A坐庄赢局)=P(赢) X P(A)
c、赢局的期望频数=总和*P(A坐庄赢局)
3、推广:期望频数= 行合计 X 列合计 / 总和 4、求出检验统计量:(与前面一样)
x2=∑(O-E)2Ex2=∑(O-E)2E
1、你是任务是算出所有期望频数。解答:
2、根据上面所求期望频数,计算检验统计量X^2.解答:
3、确定要进行检验的假设以及备择假设。解答:
4、求出期望频率和自由度? 解答:
5、确定用于做决策的拒绝域。解答:
6、计算检验统计量X^2 解答:
7、看看检验统计量是否位于拒绝域内。解答:
8、作出决策。解答:
2 自由度计算方法归纳:
列联表自由度计算,表如下k列,h行 v=(h-1) X (k-1) 注释:每行计算到最后一个,用总数-其他之后,故一个数限制,同列一列限制。故如上式。
1、在拟合优度检验中,v=组数 - 限制数2、在两个变量独立性检验中,如列联表为h行k列则:v=(h-1) X (k-1)
4 本章小结
1 为什么要引用卡方分布?
以特定概率分布为某种情况建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常小幅度波动或是在建模错误如何判别?此时,利用卡方分布分析结果,排除可疑结果。【事实与期望不符合情况下使用卡方分布进行检验】
2 卡方检验拟合优度案例
期望计算:
期望频数=(观察频数之和(1000)) X (每种结果的概率) 如:-2:977=(0.977)X(1000)
通过一个检验统计量来比较期望结果和实际结果之间的差别,然后得出观察频数极值的发生概率。
计算统计量步骤:(期望频数总和与观察频数总和相等)
1、表里填写相应的观察频数和期望频数
2、利用卡方公式计算检验统计量:(O代表观察期望,E代表期望频数)
x2=∑(O-E)2Ex2=∑(O-E)2E
即:对于概率分布的每一个概率,取期望频数和实际频数的差,求差的平方数,再除以期望频数,然后将所有结果相加。
检验统计量意义
O与E之间差值越小,检验统计量越小。以E为除数,令差值与期望频数成比例。 卡方检验的标准:如果统计量值(X^2)很小,说明观察频数和期望频数之间的差别不显著,统计量越大,差别越显著。
卡方分布的用途
检查实际结果与期望结果之间何时存在显著差异。
1、检验拟合优度:也就是说可以检验一组给定数据与指定分布的吻合程度。如:用它检验抽奖机收益的观察频数与我们所期望的吻合程度。
2、检验两个变量的独立性:通过这个方法检查变量之间是否存在某种关系。
用于计算检验统计量的独立变量的数目。
1、自由度希腊字母V,读作“纽”,v影响概率分布
2、当v等于1或者2时:卡方分布先高后低的平滑曲线,检验统计量等于较小值的概率远远大于较大值的概率,即观察频数有可能接近期望频数。
3、当v大于2时:卡方分布先低后高再低,其外形沿着正向扭曲,但当v很大时,图形接近正态分布。
4、特定参数v(缪)的卡方分布以及检验统计量
5、v的计算: (如例子:v=5-1)
v=(组数) - (限制数)
卡方分布指出观察频数与期望频数之间差异显著性,和其他假设一样,这取决于显著性水平。
1、显性水平α进行检验,则写作:(常用的显著性水平1%和5%)
2、检测标准:卡方分布检验是单尾检验且是右尾,右尾被作为拒绝域。于是通过查看检验统计量是否位于右尾的拒绝域以内,来判定期望分布得出结果的可能性。
3、卡方概率表的使用:卡方临界值表是给定可以查询的
卡方分布假设检验步骤: 总是使用右尾
1、确定要进行检验的假设(H0)及其备择假设H1.
2、求出期望E和自由度V.
3、确定用于做决策的拒绝域(右尾).
4、计算检验统计量.
5、查看检验统计量是否在拒绝域内.
6、做出决策.卡方分布检验其实就是假设检验的特殊形式。
如果位于拒绝域内我们拒绝原假设H0,接受H1。 如果不在拒绝域内我们接受原假设H0,拒绝H1
卡方检验两个变量的独立性(问题二)
独立性检验:
用于判断两种因素是否相互独立,或者两者是否有联系。
期望概率求解步骤:
1、算出赌局结果和庄家频数以及各项总和,如下表称为列联表
2、算出庄家A的赢局期望。
a、求出赢局概率:P(赢)=赢局合计/总和
b、庄家A坐庄概率:P(A)=合计A/总和
c、假设庄家A和赌局结果独立,其坐庄出现赢局概率:P(A坐庄赢局)=P(赢) X P(A)
c、赢局的期望频数=总和*P(A坐庄赢局)
期望频数= (行合计 X 列合计) / 总和
求出检验统计量:(与前面一样)
x2=∑(O-E)2Ex2=∑(O-E)2E
自由度计算方法归纳:
列联表自由度计算,表如下k列,h行
v=(h-1) X (k-1)
注释:每行计算到最后一个,用总数-其他之后,故一个数限制,同列一列限制。故如上式。
1、在拟合优度检验中,v=组数 - 限制数2、在两个变量独立性检验中,如列联表为h行k列则:v=(h-1) X (k-1)
5 内容扩展
统计检验量Java代码实现
* 检验统计量计算公式
* x^2=\sum\frac{(O-E)^2}{E}
* 其中x^2表示检验统计量,O表示观察频数,E代表期望频数
* @param O int,表示观察频数
* @param E int,表示期望频数
* @return TS=x^2 double型保留两位小数,检验统计量
public static double TestStatistic(double[][] data)
int len = data[0].
double TS = 0;//检验统计量
//循环叠加计算期望值
for (int i = 0; i & i++) {
TS += (Math.pow((data[0][i]-data[1][i]),2))/data[1][i];//根据检验统计量公式x^2=\sum\frac{(O-E)^2}{E}计算
//并将结果保留3位小数
TS=NumFormat.DecFormat(3,TS);
System.out.println("检验统计量:"+TS);
return TS;
卡方独立性之期望频数Java代码实现
* 卡方独立性之期望频数
* 公式:期望频数=((行合计)*(列合计))/总和
* @param sum1 double,行合计
* @param sum2 double,列合计
* @param sum
double,总和
* @return Enum
double,期望频数
public static double ExpFre(double sum1,double sum2,double sum)
double Enum=0;
Enum=(sum1*sum2)/
NumFormat.DecFormat(2,Enum);
System.out.println("独立性期望频数:Enum="+Enum);
计算自由度Java代码实现
* 计算自由度: 用于计算检验统计量的独立变量的数目。
* 公式:v=(h-1)-(k-1)
* h表示表示表格行,k表示列
* @param h int,组数
* @param k int,限制数:影响计算结果的数目
* @return V
int,拟合自由度
public static int NiheFreeNum(int h,int k)
v=(h-1)*(k-1);
System.out.println("拟合自由度:V="+v);
计算自由度Java代码实现
* 计算自由度: 用于计算检验统计量的独立变量的数目。
* 公式:v=(h-1)-(k-1)
* h表示表示表格行,k表示列
* @param h int,组数
* @param k int,限制数:影响计算结果的数目
* @return V
int,拟合自由度
public static int NiheFreeNum(int h,int k)
v=(h-1)*(k-1);
System.out.println("拟合自由度:V="+v);
卡方的期望和方差
分布的均值为自由度 n,记为
E(X2)=nE(X2)=n
分布的方差为2倍的自由度(2n),记为
D(x2)=2nD(x2)=2n
1)分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 n 的增大,分布趋近于正态分布;卡方分布密度曲线下的面积都是1. 2)分布的均值与方差可以看出,随着自由度n的增大,χ2分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来&越大)。 3)不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。拟合优度检验 - 搜狗百科
拟合优度检验
是用卡方进行统计的重要内容之一。它是依据状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。
拟合优度检验
卡方进行统计
goodness of fit test
检验(goodness of fit test)主要是运用 判定系数和回归 标准差,检验模型对样本的拟合程度。当解释变量为多元时,要使用调整的 拟合优度,以解决变量元素增加对拟合优度的影响。拟合优度检验是检验来自总体中的一类数据其分布是否与某种理论 分布相一致的 。 eg. 一个总体可分为r类,现从该总体获得了一批,现在需要我们从这些分类数据中出发,去判断总体各类出现的概率是否与已知的概率相符。譬如要检验一颗骰子是否是均匀的,那么可以将该骰子抛掷若干次,记录每一面出现的次数,从这些数据出发去检验各面出现的概率是否都是1/6.
词条标签:
合作编辑者:
搜狗百科词条内容由用户共同创建和维护,不代表搜狗百科立场。如果您需要医学、法律、投资理财等专业领域的建议,我们强烈建议您独自对内容的可信性进行评估,并咨询相关专业人士。
点击编辑词条,进入编辑页面4531人阅读
近来在学习chaid算法时涉及到了卡方检验的知识,于是补习了下,在此分享出来。
1.什么是卡方检验
卡方检验是一种用途很广的计数资料的方法。它属于的范畴,主要是比较两个及两个以上样本率(
构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。它在分类资料中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的等。
2.卡方检验的基本原理及其思想
卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有;否则就不能拒绝无效假设,尚不能认为所代表的实际情况和理论假设有差别。
χ2值表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下。
  (1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
  (2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此,总和仍然为0,为此可以将残差平方后求和。
  (3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
  进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家在1900年首次提出的,因此也称之为Pearson&χ2,其计算公式为
  (i=1,2,3,…,k)
  其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ti等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的。
由卡方的计算公式可知,当观察频数与期望频数完全一致时,χ2值为0;观察频数与期望频数越接近,两者之间的差异越小,χ2值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,χ2值越大。换言之,大的χ2值表明观察频数远离期望频数,即表明远离假设。小的χ2值表明观察频数接近期望频数,接近假设。因此,χ2是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果χ2值“小”,研究者就倾向于不拒绝H0;如果χ2值大,就倾向于拒绝H0。至于χ2在每个具体研究中究竟要大到什么程度才能拒绝H0,则要借助于卡方分布求出所对应的P值来确定。
3.卡方检验的类型
一、四格表资料的x2检验
&&& 例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?
表20-11 两种疗法治疗卵巢癌的疗效比较
有效率(%) 
化疗加放疗组 
&&& 表内用虚线隔开的这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)从该资料算出的两种疗法有效率分别为44.2%和77.3%,两者的差别可能是抽样误差所致,亦可能是两种治疗有效率(总体率)确有所不同。这里可通过x2检验来区别其差异有无统计学意义,检验的基本公式为:
&&& 式中A为实际数,以上四格表的四个数据就是实际数。T为理论数,是根据检验假设推断出来的;即假设这两种卵巢癌治疗的有效率本无不同,差别仅是由抽样误差所致。这里可将两种疗法合计有效率作为理论上的有效率,即53/87=60.9%,以此为依据便可推算出四格表中相应的四格的理论数。兹以表20-11资料为例检验如下。
&&& 检验步骤:
&&& 1.建立检验假设:
&&& H0:π1=π2
&&& H1:π1≠π2
&&& α=0.05
&&& 2.计算理论数(TRC),计算公式为:
&&& TRC=nR.nc/n 公式(20.13)
&&& 式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。
&&& 第1行1列: 43×53/87=26.2
&&& 第1行2列: 43×34/87=16.8
&&& 第2行1列: 44×53/87=26.8
&&& 第2行2列: 4×34/87=17.2
&&& 以推算结果,可与原四项实际数并列成表20-12:
表20-12 两种疗法治疗卵巢癌的疗效比较
19(26.2) 
24(16.8) 
化疗加放疗组 
34(26.8) 
10(17.2) 
&&& 因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=26.2),则其余三项理论数都可用同行或同列合计数相减,直接求出,示范如下:
&&& T1.1=26.2
&&& T1.2=43-26.2=16.8
&&& T2.1=53-26.2=26.8
&&& T2.2=44-26.2=17.2
&&& 3.计算x2值 按公式20.12代入
&&& 4.查x2值表求P值
&&& 在查表之前应知本题自由度。按x2检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查x2界值表(附表20-1),找到x20.001(1)=6.63,而本题x2=10.01即x2>x20.001(1),P<0.01,差异有高度统计学意义,按α=0.05水准,拒绝H0,可以认为采用化疗加放疗治疗卵巢癌的疗效比单用化疗佳。
&&& 通过实例计算,读者对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,x2值越小;如两者相同,则x2值必为零,而x2永远为正值。又因为每一对理论数和实际数都加入x2值中,分组越多,即格子数越多,x2值也会越大,因而每考虑x2值大小的意义时同时要考虑到格子数。因此自由度大时,x2的界值也相应增大。
&&& 二、四格表的专用公式
&&& 对于四格表资料,还可用以下专用公式求x2值。
&&& 式中a、b、c、d各代表四格表中四个实际数,现仍以表20-12为例,将上式符号标记如下(表20-13),并示范计算。
表20-13 两种疗法治疗卵巢肿瘤患者的疗效
43(a+b) 
化疗加放疗组 
44(c+d) 
53(a+c) 
34(b+d) 
&&& 计算结果与前述用基本公式一致,相差0.01用换算时小数点后四舍五入所致。
&&& 三、四格表x2值的校正
&&& x2值表是数理统计根据正态分布中的定义计算出来的。&&&
是一种近似,在自由度大于1、理论数皆大于5时,这种近似很好;当自由度为1时,尤其当1<T<5,而n>40时,应用以下校正公式:
&&& 如果用四格表专用公式,亦应用下式校正:
&&& 例20.8某医师用甲、乙两疗法治疗小儿单纯性消化不良,结果如表20-14.试比较两种疗法效果有无差异?
表20-14 两种疗法效果比较的卡方较正计算
26(28.82) 
7(4.18) 
36(33.18) 
2(4.82) 
&&& 从表20-14可见,T1.2和T2.2数值都<5,且总例数大于40,故宜用校正公式(20.15)检验。步骤如下:
&&& 1.检验假设:
&&& H0:π1=π2
&&& H1:π1≠π2
&&& α=0.05
&&& 2.计算理论数:(已完成列入四格表括弧中)
&&& 3.计算x2值:应用公式(20.15)运算如下:
&&& 查x2界值表,x20.05(1)=3.84,故x2<x20.05(1),P>0.05.
&&& 按α=0.05水准,接受H0,两种疗效差异无统计学意义。
&&& 如果不采用校正公式,而用原基本公式,算得的结果x2=4.068,则结论就不同了。
&&& 如果观察资料的T<1或n<40时,四格表资料用上述校正法也不行,可参考预防医学专业用的医学统计学教材中的精确检验法直接计算概率以作判断。
&&& 四、行×列表的卡方检验(x2test for R×C table)
&&& 适用于两个组以上的率或百分比差别的显著性检验。其检验步骤与上述相同,简单计算公式如下:
&&& 式中n为总例数;A为各观察值;nR和nC为与各A值相应的行和列合计的总数。
&&& 例20.9北方冬季日照短而南移,居宅设计如何适应以获得最大日照量,增强居民体质,减少小儿佝偻病,实属重要。胡氏等1986年在北京进行住宅建筑日照卫生标准的研究,对214幢楼房居民的婴幼儿712人体检,检出轻度佝偻病333例,比较了居室朝向与患病的关系。现将该资料归纳如表20-15作行×列检验。
表20-15居室朝向与室内婴幼儿佝偻病患病率比较
检查结果 
居室朝向 
西、西南 
东、东南 
北、东北、西北 
患病率(%) 
&&& 该表资料由2行4列组成,称2×4表,可用公式(20.17)检验。
&&& (一)检验步骤
&&& 1.检验假设
&&& H0:四类朝向居民婴幼儿佝偻病患病率相同。
&&& H1:四类朝向居民婴幼儿佝偻病患率不同。
&&& α=0.05
&&& 2.计算x2值
&&& 3.确定P值和分析
&&& 本题v=(2-1)(4-3)=3,据此查附表20-1:
&&& x20.01(3)=11.34,本题x2=15.08,x2>x20.01(3),P<0.01,按α=0.05水准,拒绝H0,可以认为居室朝向不同的居民,婴幼儿佝偻病患病率有差异。
&&相关文章推荐
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:13706次
排名:千里之外
原创:14篇
转载:13篇
(2)(1)(1)(1)(11)(10)(1)

我要回帖

更多关于 多组数据的显著性差异 的文章

 

随机推荐