在spss回归分析析中,R-squared的值应该取多大?

在回归分析中,R-squared值应该为多大? 就像经常被问到,在回归分析中,R平方应该为多大才表示回归模型是好的?我经常能够听到这类问题,在没回答这个问题之前,我会解释如
何来解释R平方值,我也会阐述为何这个数值可能是一个误导性的统计量,因为小的R平方值不代表模型就拟合的很差,相反,R平方值很大
也不代表模型就拟合的很好。
很明显,&R平方应该为多少&这个问题的答案取决于以下内容
在这个问题点上,我将帮助大家来更精确的解释这个问题,然而,恕我直言,因为我将告诉大家如果你问了这个问题,就相当于你问了一个错
误的问题,我将告诉你你应该如何来问这个问题,且如何来回答这个问题。
为何这是一个错误的问题
R平方的值应该为多少?对这个问题只有一个可能的答案,R平方必须等于基于线性模型能够解释的响应变量变异源的百分比大小,不多也不
少 当你问这个问题的时候,其实你最想知道的是回归模型能否满足你的期望目标,模型能否满足你的需求?接下来我将帮助你询问和回答正
确的问题,问题取决于对于线性回归模型你主要的目标是:
描述预测变量和响应变量之间的关系或者预测响应变量的数值
R平方和自变量及响应变量之间的关系
这个问题比较简单,如果你的主要目标是判断哪些预测变量是显著的并且预测变量在变化的时候响应变量将如何变化,那么R平方就是完全不
切题的指标了。
如果你正确的指定了回归模型,R平方并不会影响你如何判断自变量和因变量之间的关系。
假设你拟合出了自变量和因变量的关系,通过P值判断自变量是显著的,系数为2,其它所有的假设都满足要求。
这个结果说明自变量变化一个单位,与之相关的因变量就会变化2个单位,不管R平方是25%还是95%,这个解释都是正确的。
询问&R平方应该为多大&从这点上来说就是讲不通的,因为它没有起到什么作用。一个小的R平方并不会否定预测变量的显著性或者改变系数
的均值。R平方可以简单到任何一个值,它并不需要任何专门的数值用来做有效的解释。
为了相信你的解释,将改用问哪个问题呢?
R平方和预测的响应变量
如果你的主要目标是分析预测的精度,R平方就是一个要关心的参数了,预测并不是像只预测值那样简单,因为其包含了实验误差,精度越高
,误差就会越小。
因为较小的R平方表明模型中就有较大的误差,因此,R平方如果越小,就说明模型的精度越差,你不能使用R平方来决定你的预测值是否足
够精确里满足你的需求。
这就是为什么&R平方应该为多少&这个问题是不正确的。
那么该怎么来问呢?基于上面的解释,你应该这样询问:
预测区间是否足够的精确来满足我的需求?
预测区间和精度
预测区间代表在指定了设置的预测变量的设置后,一个新的观察的范围。这些区间就是平均预测误差。窄预测区间显示更精确的预测。
阅读(...) 评论()后使用快捷导航没有帐号?
查看: 5026|回复: 9
使用R对内置鸢尾花数据集iris(在R提示符下输入iris回车可看到内容)进行回归分析...
中级会员, 积分 236, 距离下一级还需 264 积分
论坛徽章:6
1. iris数据集介绍& & 鸢尾花(iris)是数据挖掘常用到的一个数据集,包含150种鸢尾花的信息,每50种取自三个鸢尾花种之一(setosa,versicolour或virginica)。每个花的特征用下面的5种属性描述萼片长度(Sepal.Length)、萼片宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)、类(Species)。& & 观察这5个变量,我们发现Species是字符变量、非连续,难以直接进行线性分析。故首先应对定义哑变量处理离散变量Species。& & 在这里了我参考了“练数成金”论坛数据分析与数据挖掘技术板块“fjchenxd”的文章以及“夕阳无语”的文章
2& & 样本多重线性检查2.1&&求方阵,并对其标准化、中心化2.2&&求方阵的条件数,即kappa值
& & kappa = 291.2384,易知100kappa1000,多重共线性处于可忍受范围。2.3&&求解矩阵的特征值与相应的特征根
3.& &一元线性回归分析3.1& && && &观察散点图 & & 通过plot(iris_demo)命令,我们目测得到Petal.Width与Petal.Length有很强的线性关系。3.2& &对Petal.Width与Petal.Length做一元线性回归分析& & 我们发现回归系数中,截距与因变量都有3颗*,t值很大,Pr值很小,拒绝系数不正确的假设检验。相关系数平方:0.9271,数据相当好。3.3& &对Petal.Width与Petal.Length做一元线性回归诊断 & & P&&= 1.68e-08 &0.05,具有统计学意义,拒绝原假设,说明自变量Petal.Width不服从正态分布。(?) & & 残差图正常,模型的残差服从正态分布。 结论:& & 综上,关于Petal.Width与Petal.Length的一元线性回归模型样本服不服从正态分布假设,误差满足独立性,等方差。线性回归模型的系数通过假设检验,相关系数平方和接近1。此一元线性回归模型合理有效。4 多元线性回归分析4.1变量进行逐步回归4.2&&多元线性回归模型的探索4.2.1 包含全部变量& & 回归系数中Petal.length和isVerisicolor只有一颗星,而根据step结果,如果去掉这两个,AIC值只会从-389增大到-386,所以尝试去掉这两个值:
& & 去掉Petal.Length和 isVersicolor后,截距的假设检验效果提升至两颗*,但Petal.Width的Pr值反而增大。更严重的是,相关系数平方和从0.6352降至0.5871。效果反而变差。4.2.2尝试加上二次项增加了Sepal.Length^2项后,相关系数提升到了0.6365。 4.2.3 增加乘积项
& & 在增加了乘积项后,多元线性回归模型更加合理。4.2.4 在所有变量的基础上直接加乘积项
& & 此模型的相关系数0.6728,相比4.2.3的模型更好,但是变量isVersicolor假设检验只有一颗* . 5. 回归诊断& &对4.2.3与4.2.4的两个多元线性回归模型进行回归诊断: 5.1 变量正态分布检验对变量进行正态分布检验,P值均小于0.05,拒绝了原假设(样本服从正态分布)。 5.2&&残差图& &(1)4.2.3 多元线性回归模型残差图
& & (2)4.2.4 多元线性回归模型残差图
由以上两幅图可知残差分布正常,服从正态分布。& &结论:& && &综上,采用4.2.4回归模型更优。
【题目2】& & 使用R对内置longley数据集进行回归分析,如果以GNP.deflator作为因变量y,问这个数据集是否存在多重共线性问题?应该选择哪些变量参与回归?
解答:1.& & longley数据集1.1&&longley数据集简介& & Longley数据集来自J.W.Longley(1967)发表在JASA上的一篇论文,是强共线性的宏观经济数据,包含GNP deflator(GNP平减指数)、GNP(国民生产总值)、Unemployed(失业率)、ArmedForces(武装力量)、Population(人口)、year(年份),Emlpoyed(就业率)。& & LongLey数据集因存在严重的多重共线性问题,在早期经常用来检验各种算法或计算机的计算精度。1.2& &观察散点图& & 通过散点图观察,我发现变量GNP.deflator、GNP、Population、Employed分别与year的函数图像趋势相近,可能隐含多重共线性。2.& &样本多重共线性检查2.1&&求方阵,并对其标准化、中心化2.2&&求方阵的条件数,即kappa值
& & kappa = 14550.47, kappa1000,多重共线性非常严重。2.3&&求解矩阵的特征值与相应的特征根2.4 删选变量& & 可以看到变量4,5,6的特征值都非常小,逐步缩小所取变量数:
& & 故删除变量Population,Year,Employed,只选取1:4共4个变量:
3.& &逐步删选变量3.1 原始模型
& & 可以看到此回归模型自变量Uemployed,Armed.Froces没有很好地拒绝假设检验。3.2&&使用step函数逐步回归分析
& & 逐步回归分析显示减去Armed.Forces和Uemployed变量,对AIC的影响不大3.3 去掉Armed.Forces和Uemployed的线性模型& & 以上线性回归模型截距与回归系数均有3颗*,很好的拒绝了假设检验。& & 同时线性相关系数平方:0.9832,模型线性程度非常高。4.& &样本回归诊断4.1 样本正态分布假设检验& & 由正态假设检验可得:自变量GNP的p值&0.5接受了假设检验,符合正态分布;& & 因变量GNP.deflator的 p值 = 0.,具有较强统计学意义,拒绝了假设检验。4.2&&残差分析结论:& &线性回归模型 lm(formula = GNP.deflator ~ GNP, data =long_1)符合正态分布假设,误差满足独立性,等方差,不存在多重共线性。& &回归系数Pr值很小,拒绝假设检验(假设系数不正确),相关系数十分接近1。综上,该线性模型合理。
【题目3】 (可选)对课程幻灯片里的top1000 sites(数据集上传在课程资源里)分析进行改进,使到带pageviews的预测模型的检验指标比幻灯片里所显示的更加理想1.& & 读入top_1000数据集2.& & 定义哑变量
3.& &&&多元线性回归分析
无截距多元线性回归模型:& & formula= log(PageViews) ~ HasAdvertisingYes + HasAdvertisingNo+ log(UniqueVisitors) +InEnglishYes& && && && && && && & + InEnglishNo – 1& & 该回归模型相关系数平方:0.9969,数据令人满意。但是自变量中有多余变量。4.&&逐步回归分析
逐步回归分析结果:
根据逐步回归分析结果编写新模型:
5.& & 结论:log(PageView)~1.164519*log(UniqueVisitors) + 1.006265*InEnglishNo-0.311884*HasAdvertisingNo各自变量拒绝系数不正确的假设检验,Multiple R-squared结果高达0.9969。该模型相较于课堂所讲模型,更具合理性!
中级会员, 积分 236, 距离下一级还需 264 积分
论坛徽章:6
5.& & 结论:
log(PageView)~1.164519*log(UniqueVisitors) + 1.006265*InEnglishNo-
0.311884*HasAdvertisingNo
各自变量拒绝系数不正确的假设检验,Multiple R-squared结果高达0.9969。
该模型相较于课堂所讲模型,更具合理性!
中级会员, 积分 236, 距离下一级还需 264 积分
论坛徽章:6
5.& & 结论:
log(PageView)~1.164519*log(UniqueVisitors) + 1.006265*InEnglishNo-
0.311884*HasAdvertisingNo
各自变量拒绝系数不正确的假设检验,Multiple R-squared结果高达0.9969。
该模型相较于课堂所讲模型,更具合理性!
中级会员, 积分 236, 距离下一级还需 264 积分
论坛徽章:6
5.& & 结论:
log(PageView)~1.164519*log(UniqueVisitors) + 1.006265*InEnglishNo-
0.311884*HasAdvertisingNo
各自变量拒绝系数不正确的假设检验,Multiple R-squared结果高达0.9969。
该模型相较于课堂所讲模型,更具合理性!
中级会员, 积分 321, 距离下一级还需 179 积分
论坛徽章:11
iris$isSetosa&-ifelse(iris$Species==&setosa&,1,0)
增加哑变量这句,$ 的作用是什么
在数据集iris中加入一列isSetosa,依据Species的值判断取值?这句也太6了吧
中级会员, 积分 207, 距离下一级还需 293 积分
论坛徽章:9
题主做得很认真 要标记下晚上学习下
iris$Species 是说明需要iris数据集的species 如果不这么处理 就需要用attach(iris) 把iris标定 才可以直接引用参数
在数据集iris中加入一列isSetosa,依据Species的值判断取值 这个是虚拟变量的处理方式
iris里面有一个离散变量有3个取值,我理解应该要用2个虚拟变量来处理
新手上路, 积分 29, 距离下一级还需 21 积分
论坛徽章:3
向楼主学习了
高级会员, 积分 711, 距离下一级还需 289 积分
论坛徽章:19
数据超重要!一堂广告营销人必学的“数据挖掘”课
高级会员, 积分 611, 距离下一级还需 389 积分
论坛徽章:8
这个帖子需要顶一顶!
注册会员, 积分 178, 距离下一级还需 22 积分
论坛徽章:8
过程都非常详细,值得继续推敲!谁能解释一下,excel数据分析模块下的回归分析的参数
excel做回归分析,结果页里的参数分别是什么,有什么含义?例如多元回归下的参数有:Multiple R;R Square;Adjusted R Square;标准误差,df,SS,MS,F, Significance F, t Stat, P-value, Lower 95%, Upper 95%, 下限 95.0%, 上限 95.0%, 标准残差。
按投票排序
说得对。我当年学的时候就是直接把人大版统计学里面的东西表格解释看了很多遍·······
R Square:R方,这个值度量了回归方程能解释y(因变量)的变异的多少。
Adjusted R Square :调整r方,顾名思义,是经过一定调整之后得到的r方。因为如果回归中加入的变量越多,r方肯定是逐渐增加的。但加入的变量可能对解释回归没啥用。而调整r方避免了这个问题。
标准误差 :标准差/均值 (预测值y的标准差和均值)。
我发现我解释到,解释不完了。你还是去找本基础统计教程看下吧。不然我在这里讲了也没用。这些是做回归最 基础的东西。还是先补补吧。
任意教材就可以。必定有这些知识。
已有帐号?
无法登录?
社交帐号登录零假说显著性检验中央极限定理一般线性模型路径模型
&(regression)
回归:用一个或多个预测变量(predictor)来预测结果变量(outcome variable)值的&&分析
简单回归:使用一个预测变量多元回归:使用多个预测变量
简单回归的公式为:Y=B&0&+B&1&X&1&+e,其中:
Y是X&1&的线性函数,是真实值m是回归常数(regression constant)(或称截距intercept)b是回归系数(regression coefficient)(或称斜率slope)e是误差(error)(或称残差residual)
实际使用时的回归模型是:?=B&0&+B&1&X&1&,其中:
?是预测值
评价回归模型,有如下两个较为重要的量:
R多元回归系数(multiple correlation coefficient):即预测值与观测值之间的相关系数r&?YR&2&:Y变量的偏差能被回归模型所能解释的程度
R和R&2&都是用来评价模型的总体表现的
Y=B&0&+B&1&X&1&+B&2&X&2&+…+B&K&X&K&+e
R示例,使用longley数据集,数据集包含1947年至1962年16年的包含7个变量的经济数据。
head(longley)
plot(longley$Employed, longley$GNP)
abline(lm(longley$GNP ~ longley$Employed))
尝试构建一个用就业人口预测国民生产总值的简单回归模型
用公式计算非标准化的回归系数、标准化的回归系数,以及运用coef函数和lm()函数计算回归系数
B &- cor(longley$Employed, longley$GNP) * sd(longley$GNP)/sd(longley$Employed)
lm(longley$GNP ~ longley$Employed)
coef(model0)
cor(longley$GNP, longley$Employed)
计算多元回归系数R与R&2
cor(longley$GNP, coef(model0)[1] + coef(model0)[2] * longley$Employed)
RSquared &- R^2
R中可以用summary()来方便地获得这些量
summary(model0)
## lm(formula = longley$GNP ~ longley$Employed)
## Residuals:
## -39.22 -11.92
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
2.1e-10 ***
## longley$Employed
8.4e-12 ***
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 18.6 on 14 degrees of freedom
## Multiple R-squared:
0.967, Adjusted R-squared:
## F-statistic:
415 on 1 and 14 DF,
p-value: 8.36e-12
回归系数的计算
选择回归系数的主要思想是:
选择能够使回归模型预测结果最佳的回归系数。
回归模型预测结果最佳,意味着残差(预测误差)最小。
残差e=?-Y,可能为正也可能为负,求平方和处理。
计算残差的平方和SS&RESIDUAL&=Σ(?-Y)&2&,选择能够使这项最小的回归系数
另一种考虑方式是,残差是模型所不能解释的偏差情况,用韦恩图加以解释:
SS&X&是变量X偏差的平方和SS&X&=Σ(X-M&X&)&2SS&Y&是变量Y偏差的平方和SS&Y&=Σ(Y-M&Y&)&2SS&MODEL&=SP&X?&是外积和即模型所能解释的偏差的平方和,SP&X?&= Σ[(X-MX&)×(?-M&?&)]SS&RESIDUAL&是模型所不能解释的残差的平方和SS&RESIDUAL&=Σ(?-Y)&2
选择能够使模型所不能解释的残差平方和最小的回归系数
非标准化的回归系数计算公式为:
B&1&=r×(SD&Y&/SD&X&)
r是皮尔森积差相关系数,是变量Y随着变量X变化的程度,将其乘以Y与X的标准差之比,是考虑到Y与X的不同取值范围。
标准化的回归系数计算公式为:β=r
其原因是:经过标准化处理(均转换为Z值)的X与Y的标准差都为1。
线性回归的前提假设
线性回归的前提假设与相关性分析的前提假设基本一致:
Y是正态分布X与Y之间是线性关系方差齐性变量X与Y的可靠性变量X与Y的有效性变量X与Y是否来自于随机抽样生成的具有代表性的样本
唯一的区别是,X不一定是正态分布的。
为了测试这些假设前提,通常可以绘制预测变量与残差的图表
回顾Anscombe’s quartet
par(mfrow = c(2, 2))
model1 &- lm(anscombe$y1 ~ anscombe$x1)
plot(anscombe$x1, anscombe$y1, main = &1&)
abline(model1)
model2 &- lm(anscombe$y2 ~ anscombe$x2)
plot(anscombe$x2, anscombe$y2, main = &2&)
abline(model2)
model3 &- lm(anscombe$y3 ~ anscombe$x3)
plot(anscombe$x3, anscombe$y3, main = &3&)
abline(model3)
model4 &- lm(anscombe$y4 ~ anscombe$x4)
plot(anscombe$x4, anscombe$y4, main = &4&)
abline(model4)
计算残差,可以用公式计算,也可以调用predict()函数或者residuals()函数。
e1 &- anscombe$y1 - (coef(model1)[1] + coef(model1)[2] * anscombe$x1)
e2 &- anscombe$y2 - (coef(model2)[1] + coef(model2)[2] * anscombe$x2)
e3 &- anscombe$y3 - predict(model3)
e4 &- residuals(model4)
par(mfrow = c(2, 2))
plot(anscombe$x1, e1, main = &1&)
plot(anscombe$x2, e2, main = &2&)
plot(anscombe$x3, e3, main = &3&)
plot(anscombe$x4, e4, main = &4&)
只有左上方的满足方差齐性,残差与X无关,是随机的。
其他三个数据集都不满足线性回归分析的前提假设。
检验一下longley数据集中构建的线性回归模型
plot(longley$Employed, residuals(model0))
零假说显著性检验(Null Hypothesis Significance Testing,NHST)
H&0&:零假说(Null Hypothesis)
H&A&:对立假说(Alternative Hypothesis)
例如,相关性分析中,想证明两个变量之间不是无关的,运用零假说显著性检验,则:
零假说H&0&是:r=0对立假说H&A&是:r&0
零假说H&0&是:B=0
对立假说H&A&是:B!=0
如果对立假说预测了X与Y之间的方向性,则称为:定向检验(directional test)或单尾检验(single tail test)=
否则称为无方向性检验(non-directional test),或双尾检验(two tail test)
考虑如下线性回归分析的显著性检验设定:
零假说H&0&是:B=0
对立假说H&A&是:B!=0
假设H&0&为真,计算获得我们所拥有的数据的条件概率:
p = P(D|H&0&)
如果发现该概率p值非常小,则驳回零假说,否则保留H&0&。
运用零假说显著性检验测试的可能结果如上图所示:
如果H&0&为真,显著性检验测试结果保留H&0&,则检验结果是正确的
如果H&0&为假,显著性检验测试结果拒绝H&0&,则检验结果是正确的
如果H&0&为真,显著性检验测试结果拒绝H&0&,则是1型错误或称假警报(false alarm)
如果H&0&为假,显著性检验测试结果保留H&0&,则是2型错误或称遗漏(miss)
正确的解读是:如果零假说是正确的,那么我们获得手头上数据或者更加极端数据的概率是p,即P(D|H&0&)
错误的解读是:零假说正确的概率是p,即即P(H&0&|D)
为了获得p值,需要首先计算出t值,公式为:
B为非标准化的回归系数SE是的标准误差(standard error)是抽样&&量的标准差&
对于回归系数而言,计算公式为:SE=SQRT[SS&RESIDUAL&/(DF)/SS&X&]
t值是一个比例!
回归系数B是我们观测到的两个变量之间的线性相关程度
标准误差SE,是随机误差的情况
t值这个比例是:观测到的情况/随机情况,
如果t值为1,则说明观测到的情况与完全随机的情况是一样的
明显的t值越大,p值越小
中央极限定理部分再仔细解释t值。
R演示,计算以就业人数Employed预测国民生产总值GNP的回归系数的t值
此时SE计算公式为:SE=SQRT[(SS&RESIDUAL&/(N-2))/SS&X&]
summary(model0)
## lm(formula = longley$GNP ~ longley$Employed)
## Residuals:
## -39.22 -11.92
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
2.1e-10 ***
## longley$Employed
8.4e-12 ***
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 18.6 on 14 degrees of freedom
## Multiple R-squared:
0.967, Adjusted R-squared:
## F-statistic:
415 on 1 and 14 DF,
p-value: 8.36e-12
B &- coef(model0)[2]
SSRESIDUAL &- sum((predict(model0) - longley$GNP)^2)
NMinusP &- 16 - 2
SSX &- sum((longley$Employed - mean(longley$Employed))^2)
SEReg &- sqrt((SSRESIDUAL/NMinusP)/SSX)
tReg &- B/SEReg
零假说显著性检验的问题和补救方法
零假说显著性检验的若干问题:
受到样本量的偏倚:样本量越大,t值越大,p值越小,越有可能拒绝零假说随机选择的阀值α:即使是“标准”的阀&#的选择也是随机的只知道NHST:有些情况下有比NHST更合适的显著性检验容易产生误差:如果对同一个数据集做多个NHST容易产生1型错误,很多领域获得的数据的抽样误差较大,NHST容易产生2型错误有问题的逻辑:NHST的逻辑是,如果假说成立,则不太可能获得当前数据(p-&~q)。现在我们有这样的数据,因此假说不成立(q-&~p)。
零假说显著性检验的补救方法:
受到样本量的偏倚:在NHST以外提供效应量(effect size)作为补充随机选择的阀值α:提供效应量(effect size)作为补充,并且解读p值时,不按p值与α的距离汇报”高”显著性或”低”显著性只知道NHST:学习其他假说检验方法,考虑模型比较(model comparison)容易产生误差:重复试验以避免1型错误,获得随机的有代表性的样本以避免2型错误有问题的逻辑:不要错误地解读p值
&(sampling
distributions)
如果知道样本数据的分布情况,我们可以做概率上的推理。
例如:知道人的体温是正态分布的,平均体温为36.5摄氏度。
那么随机选一个人测体温,其体温大于等于36.5摄氏度的概率是50%。
将其转换成Z值,即Z&0的概率为50%
体温大于38摄氏度,对应于Z值&2的概率为2%
通过多个数据量相同的样本所获得的&&量的分布
平均值的抽样分布相关性系数的抽样分布回归系数的抽样分布
通常我们并没有多个样本,而只是估计抽样分布的情况。
假设我们有一个随机从总体中抽样出的样本量为N的样本对这个样本,我们计算出平均值假设我们现今有多个这样的随机样本,数据量均为N这些样本的平均值一起构成了平均值的抽样分布
有了这样的平均值的抽样分布,我们可以回答这样的问题:
如果我们从总体中抽取一个样本,这个样本的平均值小于Z=0的概率是多少。
如果抽样分布是正态分布的,答案是0.5。
R演示,总体为1至50,每次抽取样本量为20的样本,4次实验分别抽取20次,100次,500次和2000次,分别绘制抽样平均值的柱图。
linearData &- c(1:50)
d &- c(20, 100, 500, 2000)
par(mfrow = c(2, 2))
set.seed(1)
for (i in 1:4) {
me &- vector()
for (j in 1:d[i]) {
me[j] &- mean(sample(linearData, 20))
可以看出,无论总体分布情况如何,抽样次数越多,点统计量的抽样分布越接近于正态分布。
中央极限定律(central limit theorem)
抽样分布的平均值与总体的平均值相同抽样分布的标准差是抽样分布方差的平方根,σ&2&=σ&2&/N如果N&=30,或总体满足正态分布,则抽样分布的形状近似于正态分布
第三条告诉我们样本量足够大时,抽样分布的形状近似于正态分布。
t值也有一个抽样分布,称为t分布
t分布是一个分布族,不同的样本量大小对应不同的t分布,样本量越大t分布越接近正态分布
样本量越小,t分布越宽,达到同样大小的p值所需要的t值越大。
因此,在计算出t值后,根据样本量大小找出对应的t分布,在该分布上根据t值计算出p值。
将p值与0.05比较解读为:t值是否属于t分布中5%的极端情况中。
置信区间(confidence intervals)
任何一个样本统计量,如均值、标准差,都是点估计量(point estimates)。
即,一个样本平均值,代表的是平均值的抽样分布中的一个点。
置信区间是汇报一个可能值的区间估计(interval estimate),而非一个点估计量。置信区间是:根据随机样本,对总体参数所作出的一个区间估计。
例如:95%置信度意味着有95%的概率,区间中包含总体参数的真实值。
抽样误差将会导致不同的样本会有不同的点估计值
置信区间的优点是,将抽样误差考虑进来了,汇报的是区间估计
置信区间受到两方面的影响:
样本大小总体和样本的方差大小
回顾平均值的标准误差为SE=SD/SQRT(N)很好解释了,置信区间与标准误差之间的关系。
上限M+t*SE下限M+t*SE
t值取决于自由度(样本量决定)和置信度。
R示例,从国民生产总值中抽取一个样本量为10的样本,计算平均值,并汇报置信区间
set.seed(1)
sample(longley$GNP, 10)
tcrit &- qt(c(0.025, 0.0975), df = 15)
S1SEMean &- sd(S1)/sqrt(16)
S1Mean + S1SEMean * tcrit
回归系数的置信区间
回归系数B也是点估计量,从单一样本中获得的B值,是回归系数的抽样分布中的一个点。
回归系数的置信区间也是考虑进标准误差之后的结果。
置信度95解读为:有%95的概率,总体的回归系数在置信区间中。
R示例,用就业人数预测国民生产总值时回归系数的置信区间,confint()是简便算法。
qt(c(0.025, 0.0975), df = 14)
B + tcrit * SEReg
confint(model0)
R示例,在图表上绘制回归系数的置信区间
library(ggplot2)
ggplot(longley, aes(x = Employed, y = GNP)) + geom_smooth(method = &lm&) + geom_point()
多元回归(multiple regression)
简单回归是只使用一个预测变量,多元回归是使用多个预测变量
公式为:?=B&0&+B&1&X&1&+B&2&X&2&+…+B&K&X&K&=Σ(B&n&X&n&)
?是结果变量Y的预测值B&0&是在所有X均为0时的预测值X&K&是预测变量B&K&是非标准化的回归系数Y-?是残差(预测误差)K是预测变量的数量
同简单回归模型一样,评价多元回归模型,有如下两个较为重要的量:
R多元回归系数(multiple correlation coefficient):即预测值与观测值之间的相关系数r&?YR&2&:Y变量的偏差能被回归模型所能解释的程度
R和R&2&都是用来评价模型的总体表现的
R示例,在longley数据集中,利用就业人数和总人口两个变量预测国民生产总值;
model5 &- lm(longley$GNP ~ longley$Employed + longley$Population)
summary(model5)
## lm(formula = longley$GNP ~ longley$Employed + longley$Population)
## Residuals:
## -11.689
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
1.1e-14 ***
## longley$Employed
5.0e-05 ***
## longley$Population
8.8e-07 ***
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 7.39 on 13 degrees of freedom
## Multiple R-squared:
0.995, Adjusted R-squared:
## F-statistic: 1.35e+03 on 2 and 13 DF,
p-value: 8.3e-16
betaEmployed &- coef(model5)[2]/sd(longley$GNP) * sd(longley$Employed)
betaPopulation &- coef(model5)[3]/sd(longley$GNP) * sd(longley$Population)
betaEmployed
betaPopulation
通过p值发现,这两个变量均是显著的。比较标准化的回归系数,在这个多元回归模型中,相对于就业人数而言,人口是更强的预测变量。
多元回归的回归系数的估计
同简单回归一样,回归系数的值也是要是的模型的预测误差最小,即使残差的平方和最小。
标准化的多元回归模型公式(矩阵形式)为:?=B(X)
?是N×1的向量B是K×1的向量X是N×K的矩阵
等式两边同时乘以X&T&有:X&T&(Y)=X&T&(XB)
两边再同时乘以(X&T&X)&-1&得到:B=(X&T&X)&-1&(X&T&Y)
R示例,ginv()是矩阵求逆(inverse),需要MASS包裹,%*%是矩阵乘法,t()是矩阵转置(transpose)
library(MASS)
data.matrix(longley[3:7])
Y &- data.matrix(longley[2])
B &- ginv(t(X) %*% X) %*% (t(X) %*% Y)
一般线性模型(general linear model,GLM)
一般线性模型是在许多常见的统计分析,例如多元回归和&&(&&)中采用的数学框架(mathematical
framework)
线性的(linear):变量对之间假设是呈线性关系的累加的(addictive):如果是用多个变量来预测一个结果变量,则每一个预测变量的效果都被认为是累加的
可以利用GLM来做一系列的检验,例如测试变量之间的非累加性质等。
下面举例说明一般线性模型的几种实例:
简单回归:Y=B&0&+B&1&X&1&+e,其中
Y为薪水X&1&为工作年限
多元回归:Y=B&0&+B&1&X&1&+B&2&X&2&+B&3&X&3&+e,其中
Y为薪水X&1&为工作年限X&2&为获奖次数X&3&为(工作年限*获奖次数)
X&3&是非累加的,加上这个变量可以用来测试获奖次数是否是&&变量,获奖次数是否能&&工作年限对薪水的影响。
单因素&&(one
Y=B&0&+B&1&X&1&+e,其中
Y为薪水X&1&为性别
在这个方差分析中,性别是类别变量,而非连续型变量。
因素方差分析(factorial&&):Y=B&0&+B&1&X&1&+B&2&X&2&+B&3&X&3&+e,其中
Y为薪水X&1&为性别X&2&为民族X&3&为性别*民族
这个方差分析可以分析性别和民族之间的交互作用。
方差分析(Analysis of Variance,ANOVA)
是在因变量为类别变量而结果变量为连续变量时适用的分析方法。
方差分析最常用于有超过两个实验组时的随机实验所获得的数据
如果实验组只有2个,可以用非独立或独立t检验(indenpendent t-test, dependent t-test)
R示例,glm()函数,以npk数据集为例,做因素方差分析
model6 &- glm(npk$yield ~ npk$N + npk$P + npk$K)
summary(model6)
虚拟编码(dummy coding)
虚拟编码是在回归分析中,将类别预测变量进行编码的系统。
因变量为:学科类别{人文社会科学,自然学科}结果变量为:发文量
R示例,以iris数据集为例,对Species做虚拟编码处理,用以做回归分析,预测Sepal.Length。
演示两种dummy coding方法,C()和factor()
head(iris)
spec.code &- C(iris$Species, treatment)
model7 &- lm(iris$Sepal.Length ~ iris$Petal.Length + (spec.code))
summary(model7)
## lm(formula = iris$Sepal.Length ~ iris$Petal.Length + (spec.code))
## Residuals:
## -0.4 -0.8
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
& 2e-16 ***
## iris$Petal.Length
& 2e-16 ***
## spec.codeversicolor
7.4e-14 ***
## spec.codevirginica
1.5e-12 ***
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 0.338 on 146 degrees of freedom
## Multiple R-squared:
0.837, Adjusted R-squared:
## F-statistic:
249 on 3 and 146 DF,
p-value: &2e-16
model7 &- lm(iris$Sepal.Length ~ iris$Petal.Length + factor(iris$Species))
summary(model7)
## lm(formula = iris$Sepal.Length ~ iris$Petal.Length + factor(iris$Species))
## Residuals:
## -0.4 -0.8
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
& 2e-16 ***
## iris$Petal.Length
& 2e-16 ***
## factor(iris$Species)versicolor
7.4e-14 ***
## factor(iris$Species)virginica
1.5e-12 ***
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 0.338 on 146 degrees of freedom
## Multiple R-squared:
0.837, Adjusted R-squared:
## F-statistic:
249 on 3 and 146 DF,
p-value: &2e-16
调节(moderation)
也称交互作用(interaction)
一个调节变量(moderator variable)Z,能够加强回归模型,如果X与Y之间的关系是Z的函数。
以实验研究为例:通过调整自变量X,研究因变量Y的变化。
如果存在一个变量Z,并且发现X随着Y的变化情况随着Z的不同分布呈现出不一致的情况,则此时Z为调节变量
以相关性分析为例:假设X与Y之间存在相关性
存在调节变量Z意味着:X与Y之间的相关性对应于Z的分布呈现出不一致的情形。
即:在Z值不同的时候,X与Y之间的相关性不同
调节模型示例:假设X与Z均为连续型变量:Y=B&0&+B&1&X+B&2&Z+B&3&(X×Z)+e
假设X为类型变量,Z为连续变量,X有三种不同类型:
Y=B&0&+B&1&(D1)+B&2&(D2)+B&3&(Z)+B&4&(D1×Z)+B&5&(D2×Z)+e
调节的检验:假设X与Z均为连续型变量,构建两个模型:
Y=B&0&+B&1&X+B&2&Z+e
Y=B&0&+B&1&X+B&2&Z+B&3&(X×Z)+e
假设X为类型变量,Z为连续变量,X有三种不同类型,构建两个模型:
Y = B&0&+B&1&(D1)+B&2&(D2)+B&3&Z+e
Y=B&0&+B&1&(D1)+B&2&(D2)+B&3&(Z)+B&4&(D1×Z)+B&5&(D2×Z)+e
比较R&2&的值评价与调节效应有关的预测变量的回归系数,如(X×Z),(D1×Z),(D1×Z)对应的回归系数
model00 &- lm(longley$GNP ~ longley$Employed + longley$Unemployed)
model01 &- lm(longley$GNP ~ longley$Employed + longley$Unemployed + (longley$Employed *
longley$Unemployed))
summary(model00)
## lm(formula = longley$GNP ~ longley$Employed + longley$Unemployed)
## Residuals:
## -28.092
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
-1.34e+03
7.01e+01
6.5e-11 ***
## longley$Employed
2.57e+01
1.16e+00
1.1e-11 ***
## longley$Unemployed
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 13.7 on 13 degrees of freedom
## Multiple R-squared:
0.984, Adjusted R-squared:
## F-statistic:
389 on 2 and 13 DF,
p-value: 2.52e-12
summary(model01)
## lm(formula = longley$GNP ~ longley$Employed + longley$Unemployed +
(longley$Employed * longley$Unemployed))
## Residuals:
## -23.423
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
## longley$Employed
## longley$Unemployed
## longley$Employed:longley$Unemployed
## (Intercept)
## longley$Employed
## longley$Unemployed
## longley$Employed:longley$Unemployed
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 13.6 on 12 degrees of freedom
## Multiple R-squared:
0.985, Adjusted R-squared:
## F-statistic:
262 on 3 and 12 DF,
p-value: 3.34e-11
anova(model00, model01)
预测变量的中心化(centralization)
中心化处理是对变量值进行转变,转变为以0为均值
公式为:X=X-M&X
如果所有的预测变量取0时都无意义,则截距/回归常数B&0&的解读是无意义的如果不存在调节效应,无论Z的取值,B&1&的取值是稳定的如果存在调节效应,Z的取值不同,B&1&的取值是变化的
避免多元共线性(multicolinearity),如果一般线性模型中的两个变量之间相关性很高,则两者是冗余的,预测两者分别对应的回归系数会很困难
&(mediation)
&分析(mediation
analysis)被用来更好地理解观测到的自变量对因变量的影响,或者X与Y之间的相关性
如果X与Y是相关的,但是有中介变量M在其中起作用(X-&M-&Y),意味着:
Y=B&0&+B&1&M+eM=B&0&+B&1&X+e
Y=B&0&+B&1&M+B&2&X+e
我们可以看回归系数B&2&是否显著。如果一个中介变量M对X与Y之间的关系起到作用,则可分为:
起到部分作用:部分中介起到全部作用:完全中介
lm(Y~X)lm(M~X)lm(Y~X+M)
lm(Y~X)中X的回归系数应该显著lm(M~X)中X的回归系数应该显著lm(Y~X+M)中M的回归系数显著,看X的回归系数如何
model11 &- lm(longley$GNP ~ longley$Employed)
model12 &- lm(longley$Population ~ longley$Employed)
model13 &- lm(longley$GNP ~ longley$Employed + longley$Population)
summary(model11)
## lm(formula = longley$GNP ~ longley$Employed)
## Residuals:
## -39.22 -11.92
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
2.1e-10 ***
## longley$Employed
8.4e-12 ***
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 18.6 on 14 degrees of freedom
## Multiple R-squared:
0.967, Adjusted R-squared:
## F-statistic:
415 on 1 and 14 DF,
p-value: 8.36e-12
summary(model12)
## lm(formula = longley$Population ~ longley$Employed)
## Residuals:
## -3.522 -1.364 -0.362
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
## longley$Employed
3.7e-09 ***
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 2.01 on 14 degrees of freedom
## Multiple R-squared:
0.922, Adjusted R-squared:
## F-statistic:
166 on 1 and 14 DF,
p-value: 3.69e-09
summary(model13)
## lm(formula = longley$GNP ~ longley$Employed + longley$Population)
## Residuals:
## -11.689
## Coefficients:
Estimate Std. Error t value Pr(&|t|)
## (Intercept)
1.1e-14 ***
## longley$Employed
5.0e-05 ***
## longley$Population
8.8e-07 ***
## Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 7.39 on 13 degrees of freedom
## Multiple R-squared:
0.995, Adjusted R-squared:
## F-statistic: 1.35e+03 on 2 and 13 DF,
p-value: 8.3e-16
路径模型(path model)
中介分析通常使用路径模型来分析,其中:
矩形代表观测到的变量(X,Y,M)圆圈代表未观测到的变量(误差e)三角代表常量箭头代表关系
Sobel检验中z值的计算公式:
z=(B&a&*B&b&)/SQRT[(B&a&2&*SE&b&2&)+(B&b&2&*SE&a&2&)]
library(multilevel)
sobel(longley$Employed, longley$Population, longley$GNP)
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:54186次
排名:千里之外
转载:176篇
(3)(23)(1)(2)(13)(18)(1)(5)(6)(7)(1)(4)(2)(3)(1)(4)(1)(6)(4)(9)(7)(2)(1)(1)(1)(1)(1)(2)(1)(1)(1)(1)(5)(6)(30)(8)

我要回帖

更多关于 多元回归分析 的文章

 

随机推荐