相关系数r数

推荐这篇日记的豆列
······spearman相关系数_百度百科
spearman相关系数
本词条缺少信息栏,补充相关内容使词条更完整,还能快速升级,赶紧来吧!
spearman相关系数:对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。此时可采用秩相关(rank correlation),也称等级相关,来描述两个变量之间的关联程度与方向。
这类方法对原始变量分布不作要求,属于非参数统计方法。其中最常用的统计量是spearman秩相关系数
,又称等级相关系数,介于
为负相关,
为正相关。秩相关系数是总体秩相关系数
的估计值。
若数据中无重复值,且两个变量完全单调相关时,spearman相关系数=+1或-1.
计算步骤:
⑴编秩:将两变量X、Y成对的观察值分别从小到大顺序编秩,用pi表示xi的秩次;用qi表示yi的秩次。若观察值相同取平均秩次。
⑵将秩次带入公式计算:
⑶由样本算得的秩相关系数是否有统计学意义,应作假设检验。
⑴建立假设检验,确定检验水准:
⑵计算检验统计量:
查秩相关系数界值表,若
超过界值表,则拒绝
方积乾,徐勇勇,陈峰.卫生统计学.北京:人民卫生出版社,2012:200-201相关系数(Correlation coefficient)   
什么是相关系数
  相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。   著名统计学家设计了统计指标——相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按计算,同样以两变量与各自平均值的为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。   依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为);将反映两变量间曲线相关关系的统计指标称为、;将反映多元线性相关关系的统计指标称为、复判定系数等。
相关系数的公式
  相关系数用r表示,它的基本公式为:
  相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:   当r&0时,表示两变量正相关,r&0时,两变量为负相关。   当|r|=1时,表示两变量为完全线性相关,即为函数关系。   当r=0时,表示两变量间无线性相关关系。   当0&|r|&1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。   一般可按三级划分:|r|&0.4为低度线性相关;0.4≤|r|&0.7为显著性相关;0.7≤|r|&1为高度。   例:某财务软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相关表,见表1:   表1  广告费与月平均销售额相关表  单位:万元 年广告费投入月均销售额
参照表1,可计算相关系数如表2:
序号广告投入(万元)x月均销售额(万元)yx^2y2xy
12345678910
12.515.323.226.433.534.439.445.255.460.9
21.223.932.934.142.543.249.052.859.463.5
156.25234.09538.24696.961122.251183.361552.362043.043069.163708.81
449.44571.211082.411162.811806.251866.242401.002787.843528.364032.25
265.00365.67763.28900.241423.751486.081930.602386.563290.763867.15
  相关系数为0.9942,说明广告投入费与月平均销售额之间有高度的线性正相关关系。
各种相关系数介绍与对比
  按照变量的不同测量层次对各种相关系数简单介绍:   1、 定类变量——定类变量 用于测量两个定类变量的相关系数,主要有Lambda 与Tau-y两种。
  (1)Lambda(λ)系数分为:对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。非对称形式——测量两个变量间的关系有自变量与因变量之分。   (2) Tau-y系数:用于测量变量间非对称关系的。   2、 定序变量——定序变量 如果测量两个定序尺度变量间的关系,可用Gamma系数、dyx系数和。   (1) Gamma(G)系数:分析两个变量间的对等关系,即无自变量与因变量之分。   (2) dyx系数:等级相关系数,两个变量间的关系是非对称的。   (3) 斯皮尔曼(Spearman)等级相关系数(ρ):考虑单个个案在两个变量上的等级差异,测量两变量间对等相关关系。   3、 定距变量——定距变量   测量两个定距变量相关系数的最常用指标是皮尔森(Pearson)相关系数(γ)。(要求N≥50而且两个变量的分布应近似于正态分布。)   4、 定类变量——定距变量 两个变量中,自变量为定类变量,因变量为定距变量时,采用相关比率来测量两者间相关程度。(又称eta平方系数E)   5、 定类变量——定序变量   对一个定类变量例如性别,与一个定序变量例如收入水平关系的分析:第一,用theta系数(θ),专门测量定类变量与定序变量间关系有无和强度,非对称关系。第二,采用λ系数和Tau-y系数,即将定序变量作为定类变量处理。   6、 定序变量——定距变量 处理一个定序变量例如教育水平,与一个定距变量如年均收入之间的关系,采用二种办法:   第一, 将定序变量看作定类变量,采用相关比例测量法。   第二, 将定序变量看作定距变量,采用γ相关系数。 小结:在分析两个变量关系时,选择哪种相关系数,主要考虑两个方面:   1、 变量的测量层次;   2、 变量关系的类别,即是对等的还是非对称的。
相关系数的缺点
  需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。   例如,就我国深沪两股市与之间的相关关系做研究。发现1999年资产负债率前40名的上市公司,二者的相关系数为r=–0.6139;资产负债率后20名的上市公司,二者的相关系数r=0.1072;而对于沪、深全部上市公司(基金除外)结果却是,r沪=–0.5509,r深=–0.4361,根据三级划分方法,两变量为显著性相关。这也说明仅凭r的计算值大小判断相关程度有一定的缺陷。
本词条由以下会员参与贡献
→如果您认为本词条还有待完善,请
词条内容仅供参考,如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
暂无同义词
关于本词条的评论 (共0条)及旗下全部分类
打开微信扫一扫,关注圣才:
sc100xuexi
认证官方微博
认证官方微博
相关系数分析工具
发布人:&&发布日期: 09:23&&共1450人浏览
  十一、相关系数分析工具
  (一)简介:此分析工具可用于判断两组数据之间的关系。可以使用&相关系数&分析工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个集合的较大数据相对应(正相关);或者一个集合的较小数据是否与另一个集合的较小数据相对应(负相关);还是两个集合中的数据互不相关(相关系数为零)。
  (二)操作步骤:采用图附-3 表中的数据,可按如下步骤计算变量x,y,z之间的相关系数。1.用鼠标点击表中待分析数据的任一单元格。
  2.选择&工具&菜单的&数据分析&子菜单。
  3.用数据分析工具中的&相关系数&选项。
  4.填写完&相关系数&对话框,单击&确定&按扭即可得到各个变量的相关系数矩阵,结果如图附-36 所示。
  (三)结果说明:以上下三角矩阵计算出三个变量x,y,z 两两之间的相关系数,如变量x,y 之间的相关系数为:0.929167,所以可以判断x,y 之间存在着较高的正线性相关关系。
  十二、协方差分析工具
  协方差分析的操作步骤同&六&的相关系数分析较为相似,只须在第3步中将&相关系数&选项替换成为&协方差&选项即可。
  十三、自回归模型的识别与估计
  (一)简介:时间序列分析已广泛的应用于科研,生产,社会生活的方方面面。它通过对时间序列作统计规律性的分析,构造出拟合时间序列的最佳模型。构造出的时间序列模型一方面浓缩了时间序列的信息,可简化对时间序列的表示,另一方面可以用来预测时间序列未来的可能取值,作为人们科学决策的重要依据。例子如图附-37 所示,表中是自1999年4 月1 日起的20 个交易日内的上证指数的时间序列,试用自回归模型加以拟合。
  (二)操作步骤
  1.数据的零均值化处理。如图附-37 中所示,在C1 中输入序列名&Z&,在C2 中输入公式&=上证指数-AVERAGE(上证指数)&,然后在C2 单元格中,拖动Excel&填充柄&将公式复制到C3 至C22 单元格,即可生成上证指数的零均值化序列。
  2.计算自相关函数。在E1 和F1 单元格分别输入标志项Lag 和ac ,
  在E2 到E9 单元格中分别输入置后期数1 至8。在F2 单元格输入计算自相关函数的公式&=SUMPRODUCT(OFFSET(C$2,0,0,20-E2),OFFSET(C3,0,0,20-E2))/VAR($C$2:$C$21)/19&,然后利用&填充柄&将F2 单元格公式复制到F3:F9 单元格,结果如图附-38 所示。
  2.计算偏自相关函数。计算偏自相关函数的步骤较为复杂,必须利用Excel 的逆矩阵等函数求解Yule-Walker 方程组,由于我们选择了置后期数为8,为了求解偏自相关函数,我们必须求解8 个Yule-Walker方程组。首先,利用自相关函数的计算结果,填写H2:O9 范围内对称矩阵如图附-39 中H2:O9 单元格所示。其次,利用Excel 数组公式分别求解8 个方程组的结果,结果分别放在&1i 至&8i 的八列之中,第一个方程组的结果放在H12 中,第二个方程组的结果放在I12:I13 中,第三个方程组的结果放在J12:J14 中,以此类推。所输入的8 个数组公式分别为:
  &MMULT(MINVERSE(OFFSET(H2,0,0,1,1)),OFFSET(F2,0,0,1))&,
  &MMULT(MINVERSE(OFFSET(H2,0,0,2,2)),OFFSET(F2,0,0,2))&,
  &MMULT(MINVERSE(OFFSET(H2,0,0,3,3)),OFFSET(F2,0,0,3))&,
  &MMULT(MINVERSE(OFFSET(H2,0,0,4,4)),OFFSET(F2,0,0,4))&,
  &MMULT(MINVERSE(OFFSET(H2,0,0,5,5)),OFFSET(F2,0,0,5))&,
  &MMULT(MINVERSE(OFFSET(H2,0,0,6,6)),OFFSET(F2,0,0,6))&,
  &MMULT(MINVERSE(OFFSET(H2,0,0,7,7)),OFFSET(F2,0,0,7))&,
  &MMULT(MINVERSE(OFFSET(H2,0,0,8,8)),OFFSET(F2,0,0,8))&。
  (说明1.在Excel 中输入数组公式时,先用鼠标选定所有需放置结果的单元格地址范围然后输入数组公式,例如&=MMULT(MINVERSE(OFFSET(H2,0,0,2,2)),OFFSET(F2,0,0,2))&,然后同时按下&CTRL+SHIFT+回车&三个按键,完成数组公式的输入,公式会自动加上一对大括号,它由Excel 自动添入。2.以上数组公式中包含的各个函数的含义及其用法请参看附表1。)最后,将每一个方程组的最后一个解,用值复制的方式复制到pac 这一列,即可得到8 个偏自相关系数。如图附-39,表中H12:O19 单元格的8列分别给出了8个数组公式计算的结果,F12:F19 单元格的内容即是所要求解的8 个偏自相关系数。
  3.模型的识别与估计。自相关函数序列呈现明显拖尾性,而偏自相关
  函数序列在k>1 之后,都在区间)2096 .1 ,2096 .1 (.,即(-0.438,0.438)之间,因此可以认为自相关函数在K>1 之后截尾,因此我们选用AR(1)模型进行数据拟合。复制C2:C20 的数据,将之以值复制的形式复制到D3:D21 的单元格,并在D1 中填入标志项&Z(-1)&。选择&工具&菜单的&数据分析&子菜单,双击&回归&选项,弹出回归分析对话框。按图附-40 所示的方式填写对话框。然后单击&确定&按扭,即可得到AR(1)模型的估计结果。
  (三)结果分析:按以上操作步骤,可得到图附-41 所示AR(1)模型
结果。因此,零均值化模型的估计结果是^Z =1.06284*Z(-1),还原成上证指数,最终的时间序列模型是:上证指数估计值-上证指数的平均值=1.06284(上一天上证指数-上证指数平均值)。十四、季节变动时间序列的分解分析
(一)简介:分解分析法是分析时间序列常用的统计方法。季节时间序列是趋势变动(T)、季节变动(S)、随机变动(I)综合影响的结果,分解过程要从原始序列中消除随机变动,然后分别识别出季节变动和趋势变动的变化模式。下面结合具体例子介绍在Excel 中如何实现时间序列的分解分析。如图附-42 所示,表中A1 至B13 单元格是1996 至1998 年各季度某海滨城市旅游人口数(千人),试预测1999 年各季度旅游人口数。
  (二)操作步骤:
  1.计算一次移动平均,消除随机波动。在C3 单元格填入公式
  &=AVERAGE(B2:B5)&,然后用&填充柄&将公式复制到C4:C11 单元格。
  2.中心化移动平均数。在D4 单元格输入公式&=AVERAGE(C3:C4)&,然后用&填充柄&将公式复制到D5:D11 单元格。
  3.计算各个季节指数。在E4 单元格输入公式&=B4/E4&,然后用&填充柄&将公式复制到E5:E11 单元格。
  4.计算平均季节指数。在F4 单元格中输入公式&=AVERAGE(E4,E8)&,然后用&填充柄&将公式复制到F5:F7 单元格。
  5.计算调整后的季节指数。为了让季节指数的总平均为1,必须对季节指数加以调整。在G4 单元格中输入公式&=F4/AVERAGE($F$4:$F$7)&,然后用&填充柄&将公式复制到G5:G7 单元格。G4:G7 就是最终计算出的季节指数,按G4:G7 给出的4 个季度的季节指数,将季节指数填充到G2:G13 的其它单元格。
  6.消除旅游人数序列中的季节变动。在H2 单元格中输入&=B2/F2&,然后用&填充柄&将公式复制到H3:H13 单元格。则H 列就是消除季节变动之后的旅游人数时间序列。
  7.对消除季节变动的旅游人数进行回归分析。在I 列填入时间序号1至12,如图附-42 所示。选择&工具&菜单的&数据分析&子菜单,双击&回归&选项,弹出回归分析对话框。按图附-43 所示的方式填写对话框。然后单击&确定&按扭,即可得到剔除了季节波动的时间序列的线性趋势模型。估计结果如图附-44 所示,其中B35 单元格是线性趋势模型的截距,B36 单元格是斜率。
  8.预测。在G14:G17 单元格中分别填入刚才计算出的四个调整后的季节指数,在B14 单元格中输入公式&=($B$35+I14*$B$36)*G14&,然后利用&填充柄&将公式复制到B15:B17 单元格,B14:B17 单元格中就是
  (三)结果分析:以上步骤完成了整个季节时间序列的分析和预测过程。使用了分解分析的方法,能将时间数列的各个影响因数都分解出来,由这种方法得到的预测模型和预测结果都比直接使用回归分析要更为可靠合理。参看以上分析步骤,用类似的方法还可以进行月份时间序列、双循环变动时间序列等的分解分析和预测。
我的电子书CodingLabs - 期望、方差、协方差及相关系数的基本运算
keep coding, keep foolish
作者 张洋 | 发布于
这篇文章总结了概率统计中期望、方差、协方差和相关系数的定义、性质和基本运算规则。
设\(P(x)\)是一个离散概率分布函数,自变量的取值范围为\(\{x_1, x_2, \cdots, x_n\}\)。其期望被定义为:
\[E(x)=\sum_{k=1}^n{x_kP(x_k)}\]
设\(p(x)\)是一个连续概率密度函数。其期望为:
\[E(x)=\int_{-\infty}^{+\infty}{xp(x)dx}\]
1、线性运算规则
期望服从线性性质(可以很容易从期望的定义公式中导出)。因此线性运算的期望等于期望的线性运算:
\[E(ax+by+c)=aE(x)+bE(y)+c\]
这个性质可以推广到任意一般情况:
\[E(\sum_{k=1}^{n}{a_ix_i}+c)=\sum_{k=1}^{n}{a_iE(x_i)}+c\]
2、函数的期望
设\(f(x)\)为x的函数,则\(f(x)\)的期望为:
\[E(f(x))=\sum_{k=1}^n{f(x_k)P(x_k)}\]
\[E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}\]
一定要注意,函数的期望不等于期望的函数,即\(E(f(x)) \ne f(E(x))\)!。
3、乘积的期望
一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。因此,如果x和y相互独立,则\(E(xy)=E(x)E(y)\)。
期望的运算构成了统计量的运算基础,因为方差、协方差等统计量本质上是一种特殊的期望。
方差是一种特殊的期望,被定义为:
\[Var(x)=E((x-E(x))^2)\]
1、展开表示
反复利用期望的线性性质,可以算出方差的另一种表示形式:
\[\begin{array}{l l l}
Var(x) & = & E((x-E(x))^2) \\
& = & E(x^2-2xE(x)+(E(x))^2) \\
& = & E(x^2)-2E(x)E(x)+(E(x))^2 \\
& = & E(x^2)-2(E(x))^2+(E(x))^2 \\
& = & E(x^2)-(E(x))^2
\end{array}\]
2、常数的方差
常数的方差为0,由方差的展开表示很容易推得。
3、线性组合的方差
方差不满足线性性质,两个变量的线性组合方差计算方法如下:
\[Var(ax+by)=a^2Var(x)+b^2Var(y)+2Cov(x,y)\]
其中\(Cov(x,y)\)为x和y的协方差,下一节讨论。
4、独立变量的方差
如果两个变量相互独立,则:
\[Var(ax+by)=a^2Var(x)+b^2Var(y)\]
作为推论,如果x和y相互独立:\(Var(x+y)=Var(x)+Var(y)\)。
两个随机变量的协方差被定义为:
\[Cov(x,y)=E((x-E(x))(y-E(y)))\]
因此方差是一种特殊的协方差。当x=y时,\(Cov(x,y)=Var(x)=Var(y)\)。
1、独立变量的协方差
独立变量的协方差为0,可以由协方差公式推导出。
2、线性组合的协方差
协方差最重要的性质如下:
\[Cov(\sum_{i=1}^m{a_ix_i}, \sum_{j=1}^n{b_jy_j})=\sum_{i=1}^m{\sum_{j=1}^n{a_i b_j Cov(x_i, y_j)}}\]
很多协方差的计算都是反复利用这个性质,而且可以导出一些列重要结论。
作为一种特殊情况:
\[Cov(a+bx,c+dy)=bdCov(x,y)\]
另外当x=y时,可以导出方差的一般线性组合求解公式:
\[Var(\sum_{k=1}^n{a_ix_i})=\sum_{i=1}^n{\sum_{j=1}^n{a_ia_jCov(x_i,x_j)}}\]
相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:
\[Corr(x,y)=\frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}\]
相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。
2、统计意义
值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。

我要回帖

更多关于 相关性分析 的文章

 

随机推荐