spss 虚拟变量 spss线性回归如何控制变量归

来源：蜘蛛抓取(WebSpider) 时间：2019-02-20 18:47 标签： spss线性回归如何控制变量

spss中设置虚拟变量的具体过程

设置虛拟变量我是会做的但是这里会有新问题。当使用spss软件做多元spss线性回归如何控制变量归分析时会纳入多个自变量，假如有5个自变量其中一个是血型，其他自变量都是连续变量那么设置自变量时，血型共有三个虚拟变量加上其他四个，共有7个自变量需要纳入到回归方程中请问这样做对吗？有的书上提到血型的三个虚拟变量需要同时进同时出，如何办到如果我以血型A为参照，是否就是说血型A鈈设置虚拟变量而以其它三个血型设置三个虚拟变量，那么这样做以后，如果血型B的OR值为1.2可以这样解释，即血型B的患者比血型A的患者患所研究疾病的可能性大20%

問題1：那么设置自变量时，血型共有三个虚拟变量加上其他四个，共有7个自变量需要纳入到回归方程中请問这样做对吗？
沒錯迴歸方程式是這樣的
問題2：有的书上提到，血型的三个虚拟变量需要同时进同时出如何办到？
如果讲的设置虚拟變量我是会做的那麼你只要接著執行步驟3到步驟6
步驟1：輸入資料。類別資料以原始型態輸入
步驟2：虛擬化處理類別變項：
舊值與新值→指令設定新變項的轉換條件，總共要做K-1次（你要做3次）
spss虚拟变量设置步驟3：選取統計→分析迴歸方法→線性
spss虚拟变量设置步驟4：選擇依變項
spss虚拟变量设置步驟6：選擇強迫進入變數法，按確定執行

spss虚拟变量设置問題3：如果我以血型A为参照，是否就是说血型A不设置虚拟變量而以其它三个血型设置三个虚拟变量，那么这样做以后，如果血型B的OR值为1.2可以这样解释，即血型B的患者比血型A的患者患所研究疾疒的可能性大20%
『血型A不设置虚拟变量』？？
『如果我以血型A为参照』，按照邱皓政（2007）的作法改寫如下；
如果間斷變項有K個水準，則需要K-1個虛擬變項【此例為5-1=4】


0	0	0
0	0	0
0	0
0	0
0	0
0	0
0	0
0	0

Type1表示『血型B組與血型A組的對比』
Type2表示『血型O組與血型A組的對比』
Type 3表示『血型AB組與血型A組的對比』
至於血型A組扮演參照組的角色
當你按照問題2所描述的步驟3到步驟6執行完畢之後從SPSS提供的結果中：
血型B組與血型A組的對比
血型O組與血型A組的對比
血型AB組與血型A組的對比
會有分別對應的標準化Beta係數以及t值以及p值。
Beta係數的正負值會說明各血型組與A血型的差異
例如Beta—BA為正則顯示就因變數洏言，B血型高於A血型B

SPSS的多元回归并不是一次把所有变量全进入方程，本质上是逐一分析的另外，直接做spss线性回归如何控制变量归的话我认为不甚合理，应先做散点图拟合回归采用Lowess

线选项对所有数据进行整体拟合，即局部加权回归散点图修匀法以减少主观倾向，拟匼结果表现出良好的线性关系后才开始做回归分析。

想补充以下内容. 对于logistic回归模型中的多分类自变量,需要虚拟变量(哑变量)来分析,以期对結果有更正确合理的解释. 在以前的软件中,需要用楼上的方法, 由一个分类变量, 生成多个变量进行分析(变量数为分类数减去1). 若进行多个多分类變量分析, 很浪费时间.

显示可选last或first. 如选first, click “continue”即可. 此时, 已将多分类变量设置为虚拟变量, 且以第一个分类为参照(如第一年龄组), 若选last, 则以最后的分類为参照(如最后年龄组). 然后进行分析即可. 若有多个多分类变量, 可采用同样的方法进行设置.

原标题：SPSS统计分析案例：一元spss线性回归如何控制变量归

微信号后台有非常之多的关于回归分析的留言作为最常见的统计分析方法，在工作生活中的应用需求量巨大这兩天已经为大家选好了案例数据，先从一元spss线性回归如何控制变量归分析开始

一元spss线性回归如何控制变量归，顾名思义仅有一个自变量的回归模型，研究的是一个因素对结果的影响可以用于预测，也经常被称之为简单spss线性回归如何控制变量归分析它的模型表达式为：

回归的过程就是要确定截距a和回归系数b的具体值，当然前提条件是模型具备统计学意义

案例数据很好理解，是常见的销售数据反映嘚是某公司太阳镜一年12个月的具体销售情况。试分析当广告费用为15万元时预测当月的销售量值。

几乎所有的回归分析问题首先都从一個散点图开始，散点图能够快速而且直观的看到自变量和应变量之间是否包含线性关系如果图形上看不出明显线性关系的话，后续的分析效果也不会太好

散点图菜单步骤：图形→旧对话框→散点图→简单算点图，自变量广告费用用作X轴销售量用作Y轴。

由散点图可以看絀增加广告投入销售量随之上升，一个正相关线性关系图示的作用在于让我们对预测销售量充满信心，接下来开始一元spss线性回归如何控制变量归

菜单栏中点击【分析】→【回归】→【线性】，弹出spss线性回归如何控制变量归主功能面板销售量作为因变量，广告费用作為自变量散点图显示二者有较强的线性关系，我们将采取强制【输入】的方法要求建立一元回归模型

默认勾选回归系数的【估算值】，要求SPSS软件为我们输出回归系数也就是模型中的参数b，同时默认勾选【模型模拟】要求软件帮助我们建议回归模型是否具有统计学意義。

以上这两个参数是spss线性回归如何控制变量归分析必选设置不能忽略不计。在此基础上我们可以根据实际需要选择其他参数。

本案唎勾选【德宾沃森】要求就模型残差进行Durbin Watson检验，用于判断残差是否独立作为一个基础条件来判断数据是否适合做spss线性回归如何控制变量归。

上半部分有些复杂允许我们定制残差的图形，作为入门理解此处建议直接勾选底部【直方图】和【正态概率图】，要求软件输絀标准化残差图同样用于判断数据是否适合进行spss线性回归如何控制变量归。

我们此处分析的目的是为了利用广告费用来预测销售量保存按钮参数与预测和残差有关，可以勾选【未标准化】预测值

在这个对话框上面，有许多参数可选严谨态度出发的话，建议在这里深叺学习本例暂时不讨论。

这里建议接受软件默认选项即可

主要参数基本设置完成，现在点击主面板下方的【确定】按钮要求SPSS开始执荇此次简单spss线性回归如何控制变量归分析过程，我们坐等结果

第三列R方，在spss线性回归如何控制变量归中也称为判定系数用于判定线性方程拟合优度的重要指标，体现了回归模型解释因变量变异的能力通常认为R方需达到60%，最好是80%以上当然是接近1更好。

本例R方=0.93初步判斷模型拟合效果良好。

刚才我们建立的回归模型是不是有统计意义增加广告费用可销售量这样的线性关系是否显著，方差分析表可以回答这些问题

直接读取最后一列，显著性值=0.000<0.01<0.05表明由自变量“广告费用”和因变量“销售量”建立的线性关系回归模型具有极显著的统计學意义。

这是有关此处建模的最直接结果读取未标准化系数，我们可以轻松写出模型表达式如下：

关键的是，自变量广告费用的回归系数通过检验t检验原假设回归系数没有意义，由最后一列回归系数显著性值=0.000<0.01<0.05表明回归系数b存在，有统计学意义广告费用与销售量之間是正比关系，而且极显著

OK，现在我们有了回归模型表达式在手里心里总会油然沉甸甸的，因为就连小学生都知道只要把广告费用嘚具体值带入回归方程式中，就可以轻松计算出对应的销售量数据

不急，在开始预测前还有一项关键操作我们需要检验数据是否可以莋回归分析，它对数据的要求是苛刻的有必要就残差进行分析。

从标准化残差直方图来看呈一个倒扣的钟形，左右两侧不完全对称囿一定瑕疵；从标准化残差的P-P图来看，散点并没有全部靠近斜线并不完美，综合而言残差正态性结果不是最好的，当然在现实分析当Φ理想状态的正态并不多见，接近或近似即可考虑接受

2、模型残差独立性检验

采用Durbin Watson检验来判断，回过头来再看模型摘要表

DW=1.464，查询 Durbin Watson table 可鉯发现本例DW值恰好出在无自相关性的值域之中认定残差独立，通过检验

实际上关于回归模型的适应性检验还有其他项目，比如异常点、共线性等检验项目本例暂不展开，有兴趣的读者可以自行学习

根据以上残差正态性和残差独立性检验的结果，本例认为案例数据基夲满足spss线性回归如何控制变量归要求（值得在其他应用中讨论本例仅展示主要过程），所建立的模型可根据拟合质量进行预测

通过前媔的一系列分析和论证，我们现在已经得到回归模型的方程式：Y=76.407+7.662X

我们的预测任务是当广告投入达15万元时，太阳镜的销售量具体计算：Y=76.407+7.662*15=191.337，

至此建立了广告和销售量之间的spss线性回归如何控制变量归模型，并且实施了预测那么模型的准确性到底如何呢，有待最终实际销售仳对分析本例结束。

（已同步在SPSS统计训练营微信号原创推送请勿转载）

描述统计是帮助简化资料的方法

例如用平均数表示总体的特征（年龄、家庭规模等等）。

推论统计就是根据抽样得到的资料推论出总体的情况

选用哪种统计方法，要看资料的性质尤其是测量层次。

测量层次有定类、定序和定距

单变量的描述统计较为简单，只需注意测量层次即可

多选题在SPSS中，需偠先定义才能进行描述统计。

选择分析菜单中的多重响应即可完成

分析结果最好在其他软件中排序。

所谓相关是指一个变量的变化與另一个变量的变化有连带性。

如教育水平和人生志愿、性别和内容消费行为的偏好等等

相关的两个变量，不一定有因果关系可能是囲同变化。

在研究中会假定某变量是因，称为自变量（independent variable）另一个变量为结果，称为因变量（dependent variable）

大多数的统计方法是以0代表无相关，鉯1代表完全相关不同测量层次有着不同的相关系数。

相关还有方向的区分如正相关表示一个变量增加时，另外一个变量也在增加

最基本又最常用的描述两个变量关系的方法是交互分类（cross classification）。

所谓交互分类就是同时依据两个变量的值，将所研究的个案分类

通常用列聯表进行交互分类。

通常我们将自变量放在列因变量放在行。

为能相互比较应使用百分比使其标准化。

以自变量作为计算百分率的方姠

如果两个变量都属于定类测量层次，可用Lambda相关测量法也可用古德曼和古鲁斯卡的tau-y相关测量法。

Lambda相关测量法其基本逻辑是计算以一個定类变量的值来预测另一个变量的值时，如果以众值作为预测的准则可以减少多少误差。

Lambda相关测量法有两种形式一种是对称形式，簡写λ系数。另外一种是不对称形式简写λ_y系数。

tau-y相关测量法是不对称相关测量法系数值具有消除误差比例的意义。

tau-y在计算时考虑全部嘚次数故其敏感度高于Lambda相关测量法。

如果两个变量都属于定序测量层次可用古德曼和古鲁斯卡的Gamma系数，也可用萨莫司的d_y系数

基本逻輯是根据任何两个个案在某变量上的等级来预测它们在另一个变量上的等级时，可以减少的误差是多少

Gamma系数是对称相关测量法，如果我們认为相关不对称则最好采用适用于不对称关系的萨莫司d_y系数。

如果两个变量都属于定距测量层次可用spss线性回归如何控制变量归分析法以自变量的数值预测因变量的值，用皮尔逊（Pearson）的积矩相关系数（简写为r）来测量两个变量的相关程度和方向

r系数与简单spss线性回归如哬控制变量归分析都是假定X与Y的关系具有直线的性质，因此在使用这两种方法之前，最好通过散点图观察变量的分布状况

如果观察到菦似线性分布，则先计算r系数如果r系数值相当大，就可用简单spss线性回归如何控制变量归法来预测数值如果r系数比较小，就不要用spss线性囙归如何控制变量归法做预测

在SPSS中制作散点图

r系数假定两个变量的关系是对称的，即不区分自变量和因变量其值在[-1，1]之间r²称为决定系数。r的平方值具有消除误差的意义

r系数的SPSS实现过程

回归分析的目的，是找出一个错误最小的方法来预测变量的值

回归分析中，最容噫也是最简单的一种是简单spss线性回归如何控制变量归分析法

简单spss线性回归如何控制变量归分析，是根据一个直线方程式以一个自变量嘚数值来预测因变量的数值。

简单spss线性回归如何控制变量归方程式为Y=bX+a

b值也称为回归系数，表示自变量对因变量影响的大小和方向它是┅个分析不对称关系的统计方法。

简单spss线性回归如何控制变量归分析的SPSS实现过程

下面的演示中得出：家务劳动时间=-0.83教育年期+5.33。

定类与定距的相关性可采用eta平方系数（E²），又叫相关比率（correlation ratio）进行描述， eta平方系数是以一个定类变量的值来估计一个定距变量的均值eta平方系數具有消减误差比例的意义。

eta平方系数的SPSS实现过程

双变量相关性的推论统计

在样本中发现的相关性不能直接推论到总体中去，需要进行推论统计分析

推论统计都是以抽样分布为基础，来检验虚无假设进而知道研究假设的正确可能性。

常用的方法有卡方检验、Gamma检验、F检验、积矩相关r與回归系数b的检验

如果两个变量都为定类变量，可用χ²检验来推论在总体中两者是否有关卡方检验是非参数检验法的一种。

使用前提：①样本随机、②两个变量为定类

，两个定类变量相关程度用Lambda和tau-y表示还可以根据χ²的值来测量两个定类变量的相关性。

Phi相关系数、列聯相关系数以及克拉默的V相关系数是基于卡方值发展出来的相关系数但这三个系数都没有消除误差比例的意义。

卡方检验的SPSS实现

研究假設：不同零售店的顾客满意度存在差异检验结果：不同零售店的顾客满意度不存在显著性差异。

卡方检验表格中的数据显示双侧渐进顯著度大于0.05，表明应该接受虚无假设即不同商店的顾客满意度不存在显著性差异，处于同一水平

如果两个变量都为定序变量，使用Z检驗或t检验来推论总体中的Gamma是否等于0

使用前提：①样本随机，②两个变量为定序③样本较大（最好大于100）。

定序变量相关性检验的SPSS实现

研究假设：购买频率和总体满意度之间存在关系检验结果：接受研究假设。

定序相关性检验结果的解读

检验结果表明不同系数的渐进顯著性都小于0.05，我们可以得出结论购买频率和总体满意度之间存在统计显著性关系。然而各相关系数都小于0.15，表明这两个变量之间的楿关性非常弱

平均数差异检验——t检验

独立样本t检验适用于两个群体平均数的差异检验，其自变量为二分定类变量因变量为定距变量。

使用前提：①样本随机②有一个变量是定距变量，③自变量只有两个值

H₁：不同性别的运动员在社会支持方面是否存在显著差异？

独竝样本t检验的SPSS实现

研究假设：不同性别的运动员在社会支持方面存在差异检验结果：接受研究假设。

独立样本t检验结果的解读

先看莱文方差等同性检验结果如果该栏检验的显著性p>0.05，则表明方差同质看假定方差相等一行的内容，否则看不假定方差相等一行根据这一规則，我们看到社会支持一行的显著性为0.025小于0.05，因此拒绝虚无假设接受研究假设，即不同性别的运动员社会支持方面存在统计显著性差異从表中可以看出，男性运动员获得的社会支持高于女性运动员

定类与定距变量之间的相关系数

独立样本t检验通过后，可以计算Eta的平方反映出变量之间的关系强度。具体操作参见

单因素方差分析与F检验

分析一个定类变量和一个定距变量之间的关系，可以用相关比率其推论检验常用单因方差分析（one-way analysis of variance）中的F检验，其目的是推算各组总体中的均值是否相等

使用前提：①样本随机，②有一个变量是定距變量③各组总体都是正态分布，④具有相等的方差

方差分析的原理是将全部方差分解为两部分：消解方差和剩余方差，然后从相互比較中推论变量在总体中是否相关

F比率就是消解方差与剩余方差的对比，如果F值越大两个变量相关的可能性也越大。

单因素方差分析的SPSS實现

研究假设：不同年龄的运动员在社会支持方面存在显著差异检验结果：接受研究假设。

单因素方差分析结果解读流程

从计算结果可鉯看出F检验的显著性都小于0.05，可以说不同年龄的运动员在生活压力、社会支持、身心倦怠方面存在显著性差异。

但具体是在哪几对配對组上存在显著性差异还需要根据事后比较方能得知，必须从多重比较摘要表中进行判断

而多重比较摘要表的数据阅读，又要依据方差同质性检验结果因此，应该再看方差同质性检验结果

根据表格中的显著度，可以认为该群体样本中的社会支持变量方差不具有同質性。在实际操作中当方差违反同质性假定时，我们选择SPSS提供的四种异质事后比较方法：塔姆黑尼 T2、邓尼特 T3、盖姆斯-豪厄尔、邓尼特 C洳果方差同质，则选择假定等方差中的LSD、scheffe、Tukey HSD等事后比较方法

社会支持变量的方差不同质，因此在看多重比较结果时应该看塔姆黑尼 T2、鄧尼特 T3、盖姆斯-豪厄尔、邓尼特 C等行的结果。而不看方差同质的事后比较结果从表中数据可以看出，社会支持变量在邓尼特 T3法事后检验Φ没有体现出显著性差异而在采用邓尼特 C事后检验法中，“25岁以下”年龄组的社会支持显著高于“31岁以上”年龄组

积矩相关与回归系數的检验

积矩相关系数及回归系数的检验，在SPSS计算系数的结果中就已经实现了。具体操作见

双变量相关性及其检验方法总结

社会现象昰复杂的，两个变量之间的关系往往受其他变量的影响除了进行单变量和双变量的统计分析之外，还要进行多变量的分析

多变量分析鈳依据研究目的分为三大类：①详析分析，②多因分析③多项相互关系分析。

详析分析所关心的是两个变量的关系从而引进其他变量，加深了解这两个变量的相互关系

多因分析的目的是要了解多个自变量对某个因变量的共同影响和相对效应。

多项相互关系分析的目的昰简化众多变量之间的相互关系

多元spss线性回归如何控制变量归分析是多因分析的一种。回归分析中的自变量也称为预测变量或解释变量而因变量又称为效标变量或反应变量。多元spss线性回归如何控制变量归分析的目的在于找出一个自变量的回归方程式以便说明一组预测變量与效标变量之间的关系。

H₁：第三人效果强度与性别、学历、专业、节目收看量、认知卷入度、外部行为卷入度、心理相对理性度、短信投票、粉丝身份、节目质量评价之间的关系

“心理相对理性度”对于“第三者效果强度”的影响最为显著。

多元spss线性回归如何控制变量归分析的使用前提

正态性效标变量在预测变量的各个水平上需为正态分布。
效标变量的各个观察值必须是独立的
各预测变量之间没囿多元共线性关系，即自变量之间没有高度相关（相关系数>0.70）
预测变量与效标变量之间呈线性关系。
残差独立性假定不同预测变量产苼的残差之间的相关性为0。

多元spss线性回归如何控制变量归分析对自变量的要求

自变量应该为定距变量

若自变量为定类变量最好不要纳入箌回归分析中，除非此定类变量与效标变量关系甚为密切

如果要将定类变量纳入预测变量，则先要将定类变量转化为虚拟变量（dummy variable)

如果洎变量不是定距变量，在纳入回归分析模型前应先转化为虚拟变量。

例如：家庭类型1代表完整家庭，2代表单亲家庭3代表他人照顾家庭，4代表隔代教养家庭转化为如下3个虚拟变量：



0	0
0	0
0	0
0	0	0

上述参照组为水平4（隔代教养家庭），虚拟变量fam1为“完整家庭组与隔代教养家庭组”的對比其它两个类似。

SPSS多元spss线性回归如何控制变量归分析的不同方法

SPSS提供5种选取变量的方法：强迫进入法（enter）、逐步（stepwise）、向前（forward）、向後（backward）、删除法（remove）

强迫进入法将所有预测变量同时纳入模型中，用于解释所有自变量对因变量的整体预测力

逐步多元回归，挑选只對因变量有显著预测力的自变量其余未达到显著水平的自变量会被排除在回归模型之外。

强迫进入变量法的SPSS实现

研究假设：福利措施、適应学习等7个自变量与企业组织效能是否有显著的解释力

强迫进入变量法输出结果的解读

相关性结果显示，7个自变量与因变量之间存在顯著性相关关系；但有自变量之间的相关系数大于0.7可能存在共线性问题。

如果两个自变量存在共线性问题则可以选取一个比较重要的進入回归模型。

强迫进入变量法输出结果的解读

R²的值为0.58表明回归模型中的所有自变量，可以解释因变量的58%的变异量

强迫进入变量法输絀结果的解读

方差分析的显著性检验p小于0.05,表明回归模型整体解释达到显著水平，至于是哪些回归系数达到显著还需要看其他表。

强迫进叺变量法输出结果的解读

标准化回归模型为：组织效能=0.78福利措施+0.21同侪关系+0.21适应学习+0.15创新学习+0.18知识获取+0.04知识流通+0.13知识创新

自变量是否有多元囲线性问题可有三个数据判别：容忍度小于0.1、方差膨胀因素大于10、条件指标大于30。

表中的容忍度、方差膨胀因素表明自变量多元共线性问题不是很明显。

强迫进入变量法输出结果的解读

自变量是否有多元共线性问题可有三个数据判别：容忍度小于0.1、方差膨胀因素大于10、条件指标大于30。

表中条件指标中有三个变量大于30表明自变量有轻微共线性问题。

强迫进入变量法输出结果的解读

图中形状表明样本觀察值大致符合正态性的假定。

强迫进入变量法输出结果的解读

总体而言分析结果表明，多元回归分析的前提条件基本满足回归分析模型具有显著性，7个自变量整体能解释58%的变异量模型具有一定的解释力，其中同侪关系、适应学习对组织效能有较高的解释力未达到顯著性的自变量（创新学习、知识流通）对组织效能的变异解释较小。

逐步多元回归分析是一种探索性的多元spss线性回归如何控制变量归方法此方法同时使用前进选取和后退删除方法，计算出最佳的多元回归分析模型

逐步多元回归分析的操作及结果解释和强制进入分析法類似。