spss数据预处理处理

如何用SPSS对数据进行标准化处理?
如何用SPSS对数据进行标准化处理?
&&&&SPSS统计分析软件是我最早接触的数据分析工具,我的博客将陆续介绍SPSS统计分析软件的相关内容,这类文章将统一按照在标题或者正文第一段出现&&SPSS案例分析&+&编号&&&的形式组织,便于读者朋友们快速查询、收集,今天是第一篇,即&1,后文将不再说明。
---------------------------------------------------------------&
&&&&进行多元统计分析时,我们往往要收集不同量纲的数据,比如销售总额(万元),利润率(百分数)。这表现为变量在数量级和计量单位上的差别,从而使得各个变量之间不具有综合性,而多元分析方法大多对变量要特殊的要求,比如符合正态分布或者变量之间具有可比性。这时就必须采用某种方法对各变量数值进行标准化处理,或者叫无量纲化处理,解决各数值不具综合性的问题。
&&&&spss提供了很方便的数据标准化方法,这里只介绍Z标准化方法。即每一变量值与其平均值之差除以该变量的标准差。无量纲化后各变量的平均值为0,标准差为1,从而消除量纲和数量级的影响。该方法是目前多变量综合分析中使用最多的一种方法。在原始数据呈正态分布的情况下,利用该方法进行数据无量纲处理是较合理的。
&&&&spss的实现步骤:图例
【1】分析——描述统计——描述
【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。
【3】返回SPSS的“数据视图”,在原始变量的最后多了一列Z开头的新变量,这个变量就是标准化后的变量了。基于此字段可以做其他分析。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。初识SPSS 11.1
SPSS概述 21.1.1
SPSS发展历史 21.1.2
SPSS的功能性 21.1.3
SPSS的产品特点 31.2
SPSS软件安装 41.2.1
SPSS软件的环境要求 41.2.2
安装SPSS软件 41.3
SPSS软件介绍 61.3.1
启用SPSS软件 61.3.2
SPSS数据编辑窗口 71.3.3
SPSS结果输出窗口 101.3.4
SPSS语法编辑窗口 101.3.5
SPSS脚本编辑窗口 11第2章
管理数据文件 122.1
变量与常量 132.1.1
理解常量 132.1.2
理解操作符与表达式 132.1.3
定义变量 142.1.4
编辑变量 192.1.5
指定加权变量 202.1.6
创建变量 202.2
设置SPSS数据 222.2.1
输入数据 222.2.2
读取数据文件 242.2.3
保存数据文件 292.3
编辑SPSS数据 312.3.1
复制与移动数据 312.3.2
设置字体格式 322.3.3
查找和替换数据 332.3.4
编辑个案 342.4
拆分与合并数据文件 362.4.1
拆分数据文件 362.4.2
合并数据文件 362.5
课堂练习:读取Excel数据文件 382.6
课堂练习:管理员工信息数据文件 402.7
思考与练习 42第3章 ...
直属事业部
扫描关注官方微博
扫描关注官方微信
版权所有(C)2014 清华大学出版社有限公司 京ICP备号 京公网安备48号描述性分析过程主要用于对连续变量做描述性分析,可以输入多种类型的统计量,也可以将原始数据转换成标准Z分值饼存入当前数据集。
基本统计量的计算与描述性分析简介
描述性分析主要是针对数据进行基础性描述,主要用于描述变量的基本特征。SPSS中的描述性分析过程可以生成相关的描述性统计量,如:均值、方差、标准差、全距、峰度和偏度,同时描述性分析过程还将原始数据转换为Z分值并作为变量储存,通过这些描述性统计量,我们可以对变量的综合特征进行全面的了解。
表示集中趋势的统计量
均值分析可以分为算数平均数、调和平均数以及集合平均数三种。
算数平均数& 算术平均数是集中趋势最常用、最重要的测度值。他是将总体标志总量处理总体单位总量而得到的均值。算是平均数的基本公式是:
算数平均数=总体标志总量/总体单位总量
根据掌握资料的表现形式不同,算数平均数有简单算数平均数和加权算数平均数两种。
&&&&&& 简单算数平均数是将总体个大内每一个标志值加总得到的标志总量初一单位总量而求出平均指标。其计算方法可以如公式:
简单算数平均数适用于总体单位数较少的未分组资料。如果所给的资料是已经分组的次数分布数列,则算数平均数的计算应采用加权算数平均数的形式。
&&&&& 加权算数平均数是首先用各分组的标志值乘以相应的各组单位数求出各组的标志总量,并加总求得总体标志总量,而后再将总体标志总量和总体单位总量对比,其计算过程公式如下:
其中f表示各组的单位数,或者是频数和权数。
调和平均数& 调和平均数又称倒数平均数,他是根据各变量值得导致来计算的平均数。具体讲,调和平均数是各变量值倒数的算数平均数的倒数。调和平均数的计算方法,根据资料的不同也有简单和加权形式。
几何平均数& 几何平均数是与算数平均数和调和平均数不同的另一种平均指标,它是几何级的平均数。几何平均数是计算平均比率或平均发展速度的最常用统计量,几何平均数可以反映现象综艺一般水平。根据掌握资料不同,几何平均数也有简单和加权形式。
(2)中位数
中位数是将总体单位某一变量的各个变量值按大小顺序排列,处在数列中间位置的那个变量值就是中位数。
在资料未分组时,将各变量值按大小顺序排列后,首先确定中位数的位置,可用公式(n+1)/2确定,n代表总体单位的项数;然后根据中点位置确定中位数。有两种情况:当n为奇数项时,则中位数就是属于中间位置的那个变量值;当n为偶数项时,则中位数是位于中间位置的两个变量值的算数平均值。
众数是总体中出现次数最多的标志值,即最普遍、最常见的标志值。众数只有在总体单位较多而又明确的集中趋势的资料中才有意义。单项数列中,出现最多的那个组的标志值就是众数。若在数列中有两个的次数是相同的,且次数最多,则就是双众数或复众数。
(4)百分位数
如果将一组数据排序,并计算相应的累积百分位,则某一百分位对应数据的值称为这一百分位的百分位数。常用的有四分为数,指的是讲述分为四等分,分别位于25%,50%和75%处的分位数。百分位数适用于定序数据及更高级的数据,不能用于定类数据,百分位数的优点是不受极端值的影响。
表示离中趋势的统计量
(1)方差与标准差
方差是总体各单位变量值与其算数平均数的离差平方的算数平均数,方差的平方根就是标准差,与方差不同的是,标准差是具有量纲的,与变量值的计量单位相同,其实际意义要比方差清楚。因此对社会经济现象进行分析时,往往更懂的使用标准差。
根据所掌握的资料不同,方差和标准差的计算有两种形式,简单平均式和加权平均式。
在未分组资料情况下,简单形式
在资料分组情况下,采用加权平均式
(2)均值标准误差
均值标准误差就是样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量。
(3)极差或范围
极差又称全距,是总体样本中最大变量值与最小变量值之差,即两极之差,用R表示。
根据全距的大小来说明变量值波动范围的大小
R=Xmax-Xmin
极差只是利用了一组数据两端的信息,不能反映出中间数据的分散情况,因此不能准确描述出数据的分散程度,且易受极端值的影响。
(4)最大值
顾名思义,最大值即样本数据中取最大的数据。
(5)最小值
即样本数据中取值最小的数据。
(6)变异系数
变异系数是将标准差或平均差与其平均数对比所得的比值,又称离散系数。计算公式
以上代表标准差系数和平均差系数。变异系数是一个无名数的数值,可用于比较不同数列的变异程度,其中,最常用的变异系数是标准差系数。
表示分布形态的统计量
偏度是对分布偏斜方向及程度的测试。测量偏斜的程度需要计算偏态系数。这里只介绍中心矩偏态测度法。常用三阶中心矩除以标准差的三次方,表示数据分布的相对偏斜程度,计算方法如下:
a3为正,表示分布右偏;为负,表示左偏。
峰度是频数分布曲线与正态分布相比较,顶端的尖峭程度。统计上常用四阶中心矩测定峰度,计算公式如下:
当a4=3时,分布曲线为正态分布;
当a4&3时,分布曲线为平峰分布;
当a4&3时,分布曲线为尖峰分布。
其他相关的统计量
Z标准化得分
Z标准化得分是某一数据与平均数的距离以标准差为单位的测量值。其计算公式如下:
Zi即为Xi的Z标准得分。Z的标准化数据越大,说明它离平均数越远。
标准化值不仅能表明各原始数据在一组数据分布中的相对位置,而且能在不同分布的各组原始数据间进行比较,同时还能接受代数方法的处理。因此标准化值在统计分析中起着重要的作用。
-----------------------------------------------------------SPSS描述性分析-----------------------------------------------------------
首先打开相应的数据文件,或者建立一个数据文件,就可以在SPSS数据编辑窗口进行描述性统计分析。
1)打开文件,这里使用SPSS安装目录下Demo/transaction,如下显示:
在数据编辑窗口的菜单栏中选择&分析&|&描述统计&|&描述&命令。
2)选择变量
之后打开如下的对话框,从源变量中首先单击需要描述的变量,然后单击右箭头按钮,将需要描述的变量选入&变量&列表中,如下:
3)进行选项设置
单击右侧&选项&按钮,弹出如下的&描述:选项&对话框。
&描述:选项&对话框主要用于指定需要输入和计算的基本统计量和结果输出的显示顺序,分4部分:
(1)&均值&和&合计&复选框& 选中:&均值&复选框表示输出变量的算数平均数。选中&合计&复选框表示输出各个变量的合计数。
(2)&离散&选项组& 该选项组主要用于输出离中趋势统计量,共有六个复选框:&标准差&、&方差&、&最小值&、&最大值&、&范围&、&均值的标准误&,选中这些复选框分别表示输出变量的标准差、方差、最小值、最大值、范围、均值的标准误。
(3)&分布&选项组& 该选项组主要用于输出表示分布的统计量:
&峰度&复选框,选中该复选框表示输出变量的峰度统计量。
&偏度&复选框,选中该复选框表示输出变量的偏度统计量。
(4)&显示顺序&选项组& 该选项组主要用于设置变量的排序过程。有以下4种选择:
变量列表:选中表示按变量列表中的变量顺序进行排列;
字母顺序:选中表示按变量列表中的变量的首字母的顺序排列;
按均值的升序排序:选中表示按变量列表中的变量的均值的升序排列;
按均值的降序排序:选中表示按变量列表中的变量的均值的降序排列。
其中,系统默认的基本统计量是&均值&、&标准差&、&最大值&、&最小值&和小时顺序中的&变量列表&。
设置完毕后,单击&继续&按钮,返回到&描述性&对话框。
4)设置&将标准化得分另存为变量&复选框
如果选中该复选框,则表示为变量列表中的每一个要分析描述的变量计算Z标准化得分,并且系统会将每个变量的Z标准化得分保存到数据文件中(其中,新变量的命名方式是在原变量的变量名前加Z,如原变量名为&Amount&,则生成的新变量名为&ZAmount&。)
5)分析结果输出
单击&重置&按钮,即可进行重新的选择变量,重新设置&选项&。
阅读(...) 评论()SPSS Statistics下载|SPSS Statistics免费下载(数据统计分析软件) V19.0 官方版
软件大小:481.07MB
更新时间:
软件版本:19.0
下载量:9565
语言:简体中文
应用平台:WinXP/Win2003/Vista/WIN7/Win8
SPSS(Statistical Product and Service Solutions)是一款非常高效的专业数据统计分析软件。是“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。spss19.0中文版是一款专业数据统计软件,受到各种社会学科的研究生、研究员的欢迎。软件能够对数据信息的采集、处理、分析进行全面评估和预测。spss19.0中文版新增加了广义线性混合模型、自动线性模型、一个统计网页入口portal和直复营销direct marketing功能等。另外,IBM 针对SPSS 19 提供了大量的信息和文档,包括插件、工具、命令语法参考和各个模块的指南等。软件简单易用,被公认为最优秀的统计分析软件之一,是一整套集数据处理、评估和预测的解决方案。软件特色1.操作简便界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。2.编程方便具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。3.功能强大具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。4.数据接口能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASCⅡ数据文件,Excel的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt及html格式的文件。5.模块组合SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。6.针对性强SPSS针对初学者、熟练者及精通者都比较适用。并且很多群体只需要掌握简单的操作分析,大多青睐于SPSS,像薛薇的《基于SPSS的数据分析》一书也较适用于初学者。而那些熟练或精通者也较喜欢SPSS,因为他们可以通过编程来实现更强大的功能。
SPSS Statistics下载地址
温馨提示:您的IP是125.33.116.157,用的是电信网络,建议您进入[电信下载]节点
你还可以输入140个字符
< 版权所有&&

我要回帖

更多关于 spss数据处理教程 的文章

 

随机推荐