如何用spss做spss聚类分析怎么看

《SPSS教程-聚类分析-附实例操作》 www.wenku1.com
SPSS教程-聚类分析-附实例操作日期:
各地区各行业工资水平的分析 (2009年数据) 小组成员:张艺伟、赵月、陈媛、邹莉、朱海龙、曾磊、胡瑛、候银萍 1. 研究背景及意义 1.1 研究背景工资水平是指一定区域和一定时间内劳动者平均收入的高低程度。生产决定分配,只有经济发展才能提供更多的可分配的社会产品,因此一个地区的工资水平在一定程度上反映了其经济发展的水平。1.2 研究意义1. 通过多元统计分析方法,探究一个地区的工资水平与其经济发展水平之间的内在联系。2. 将平均工资水平划分为3类,分析哪些地区、哪些行业的工资水平较高,可以为大学生就业提供宏观上的方向指引。2. 数据来源与描述 2.1 数据来源——《中国劳动统计年鉴─2010》(URL:http://tongji.cnki.net/Navi/YearBook.aspx?id=N&floor=1###) 主编单位:国家统计局人口和就业统计司,人力资源和社会保障部规划财务司 出版社:中国统计出版社 简介:《中国劳动统计年鉴─2010》是一部全面反映中华人民共和国劳动经济情况的资料性年刊。本刊收集了2009年全国和各省、自治区、直辖市、香港特别行政区、澳门特别行政区的有关劳动统计数据。本书资料的取得形式主要有国家和部门的报表统计、行政记录和抽样调查。2.2 数据描述本数据集记录了全国31个省市(港、澳、台除外)的工资状况,各省市分别记录了其23个主要行业的平均工资水平,这23个主要行业包括:企业、事业、机关、金融业、制造业、建筑业、房地产业、农林牧渔业等等,具体数据格式参见图-0。图-0 3. 分析方法及原理 3.1 通过描述统计分析方法,判断哪些行业平均工资水平较高描述统计分析方法主要是从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等)的计算和描述开始的,并辅助于SPSS提供的图形功能,能够把握数据的基本特征和整体的分布特征。在本案例中,通过比较不同行业(诸如企业、事业、机关、建筑业、制造业,,,,)工资的均值、极大/小值,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。3.2 通过聚类分析方法,判断哪些地区平均工资水平较高聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。在本案例中,我们将采用两种方法进行聚类分析:一种是系统聚类法,另一种是K-均值法(快速聚类法)。 3.2.1 系统聚类法系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。在本例中进行的是Q型聚类。类与类之间距离的计算方法主要有以下几种: (1) 最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值; (2) 最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值; (3) 组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值; (4) 组内联接(Within-groups Linkage),是指把两类所有个体之间的距离都考虑在内; (5) 重心距离法(Centroid clustering),是指两个类中心点之间的距离; (6) 离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。 3.2.2 K-均值法(快速聚类法)K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。 4. 实验操作与结果分析4.1 描述统计分析方法在数据编辑窗口的主菜单中选择“分析(A)”→“描述统计”→“描述性分析(D)”(如图-1),图-1 打开如下对话框,将左侧框中的所有变量选入右侧框中,如图-2所示,单击“选项(O)”按钮,图-2
在“选项”对话框中选择所需要分析的统计量,包括均值、标准差、极大值、极小值,如图-3所示。图-3 点击“确定”按钮之后,分析结果如下表-1所示:表-1 描述统计量 企业 非农企业 事业 机关农_林_牧_渔业 采矿业 制造业电力_燃气及水的生产和供应业 建筑业交通运输_仓储和邮政业 信息传输_计算机服务和软件业 批发和零售业 住宿和餐饮业 金融业 房地产业N 31 31 31 31 31 31 31 31 31 31 31 31 31 31 31极小值
15993极大值
57052均值 87.84 85.10 30.74 13.10 02.77 34.19 72.65 28447.45标准差 5.740 350.591 61.961 12.450 53.178 05.925 41.917
输出结果分析:分析描述统计量的输出结果可知,平均工资水平较高的三个行业分别是金融业(62972.65元),信息传输_计算机服务和软件业(47303.87元),电力_燃气及水的生产和供应业(44113.10元);平均工资水平较低的三个行业分别是住宿和餐饮业(19263.71元),农_林_牧_渔业(19413.84元),水利_环境和公共设施管理业(24446.45元)。从极大值和极小值方面分析,在所有行业中,极大值最大的行业是金融业(180816元),极小值最小的行业是农_林_牧_渔业(8841元)。4.2 聚类分析——系统聚类法在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“系统聚类(H)”(如图-4所示),图-4弹出“系统聚类分析”对话框,将“地区”变量选入“标注个案(C)”中,将其他变量选入“变量框”中,如图-5所示。在“分群”单选框中选中“个案”,表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。 图-5
单击“统计量(S)”按钮,在“系统聚类分析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,如图-6所示,表示输出结果将包括这两项内容。图-6 单击“绘制(T)”按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,如图-7所示,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。图-7 单击“方法(M)”按钮,弹出“系统聚类分析:方法”对话框,如下图-8所示。 图-8 “聚类方法(M)”选项条中可选项包括如图-9所示的几种方法,本例中选择“组间联接”:图-9 “度量标准-区间(N)”选项条中可选项包括如图-10所示的几种度量方法,本例中选择“平方Euclidean距离”:图-10 “转换值-标准化(S)”选项条中可选项包括如图-11所示的几种将原始数据标准化的方法,本例中选择“全局从0到1”: 图-11 输出结果分析:表-2显示的是用平方Euclidean距离计算的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大。表-2 近似矩阵表表-3显示的是聚类表,该表反映的是每一阶段聚类的结果,系数表示的是“聚合系数”,第2列和第3列表示的是聚合的类。聚类表的具体说明可参照教材P91,此处不再赘述。表-3 聚类表阶群集组合 群集 11 2 3 4 5 6 7 824 18 8 12 18 8 5 4群集 2 25 20 17 16 24 23 15 28系数 .076 .078 .081 .118 .138 .152 .153 .162首次出现阶群集 群集 1 0 0 0 0 2 3 0 0群集 2 0 0 0 0 1 0 0 0下一阶 5 5 6 12 9 13 10 12 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3014 5 7 4 7 6 5 6 21 4 5 10 4 3 3 3 10 10 1 2 2 118 27 14 12 8 22 29 13 31 7 6 19 21 4 5 30 26 11 9 10 3 2.173 .191 .198 .213 .223 .226 .272 .288 .322 .341 .352 .379 .381 .450 .532 .736 1.027 1.229 1.484 1.766 3.403 11.2850 7 0 8 11 0 10 14 0 12 15 0 18 0 22 23 20 25 0 0 28 2750 9 4 6 0 0 0 0 13 16 0 17 21 19 0 0 0 0 26 24 2911 15 13 18 18 16 19 19 21 21 23 25 22 23 24 29 26 28 30 29 30 0 图-12是冰柱图,是反映样本聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样本。冰柱图的具体说明同样可参照教材P91,此处不再赘述。图-12 图-13是用“组间联接”聚类法生成的树状聚类图。如果将所有样本分为3类的话,如图所示,第1类包括北京、上海,第2类包括天津、广东、浙江、江苏、西藏,剩下的其他样本属于第3类。图-13 树状聚类图(组间联接) 不同聚类方法的比较: 图-14至图-19分别表示的是用其它6种聚类方法(组内联接法、最近邻元素法、最远邻元素法、质心聚类法、中位数聚类法、Ward法)生成的树状聚类图。图-14树状聚类图(组内联接) 图-15树状聚类图(最近邻元素) 图-16树状聚类图(最远邻元素) 图-17树状聚类图(质心聚类法) 图-18树状聚类图(中位数聚类法) 图-19树状聚类图(Ward法) 纵观7种不同的聚类方法,比较其聚类结果(分为3类),可总结出如下表-4。 4.3 聚类分析——K-均值法(快速聚类法) 在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“K-均值聚类(K)”(如图-20所示), 图-20 弹出“K均值聚类分析”对话框,将“地区”变量选入“个案标记依据(B)”中,将其他变量选入“变量框(V)”中,如图-21所示。在“方法”单选框中选中“迭代与分类”,在“聚类数”中填上“3”,表示聚类结果将分成3类。图-21
单击“迭代(I)”按钮,弹出“K均值聚类分析:迭代”对话框,在“最大迭代次数(M)”中填上“10”(默认值),如图-22所示,表示设定的最大迭代次数为10。图-22 单击“选项(O)”按钮,在“K均值聚类分析:选项”对话框中选择“初始聚类中心”、“每个个案的聚类信息”,如图-23所示,表示输出结果将包括这两项内容。图-23 单击“保存(S)”按钮,在“K均值聚类分析:保存”对话框中选择“聚类成员(C)”、“与聚类中心的距离(D)”,如图-24所示,表示输出结果将包括这两项内容,并保存在“变量视图”以及“数据视图”中,如图-25、图-26所示。其中变量QCL-1表示的是案例的类别号,表示该个案是属于哪一类;QCL-2表示案例与其类别中心之间的距离。图-24
图-25 图-26 输出结果分析: 输出结果中,表-5表示的是初始聚类的中心,也就是种子点。表-5 初始聚类中心 企业 非农企业 事业 机关农_林_牧_渔业 采矿业 制造业电力_燃气及水的生产和供应业 建筑业交通运输_仓储和邮政业 信息传输_计算机服务和软件业 批发和零售业 住宿和餐饮业 金融业 房地产业 租赁和商务服务业科学研究_技术服务和地质勘查业 水利_环境和公共设施管理业 居民服务和其他服务业 教育卫生_社会保障和社会福利业 文化体育和娱乐业 公共管理和社会组织聚类1 2 3 表-6表示的是迭代历史记录。表-6 迭代历史记录a迭代11 2聚类中心内的更改2 3 a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 。 表-7表示的是最终聚类中心,可以看出,第1类的平均工资水平最高,第2类居中,第3类最低。表-7 最终聚类中心 企业 非农企业 事业 机关农_林_牧_渔业 采矿业 制造业电力_燃气及水的生产和供应业 建筑业交通运输_仓储和邮政业 信息传输_计算机服务和软件业 批发和零售业 住宿和餐饮业 金融业 房地产业 租赁和商务服务业科学研究_技术服务和地质勘查业 水利_环境和公共设施管理业 居民服务和其他服务业 教育卫生_社会保障和社会福利业 文化体育和娱乐业 公共管理和社会组织聚类1 2 3表-8表示的是最终聚类中心间的距离,可以看出,第2类与第3类之间的距离要比第2类与第1类之间的距离小。表-8 最终聚类中心间的距离聚类 1 2 312 3 表-9表示的是每个聚类中的案例数,可以看出,第1类有2个样本,第2类中有5个样本。 表-9 每个聚类中的案例数聚类1 2 3有效 缺失 表-10是聚类表,表示的是每个个案的分类情况:第3列“聚类”表示的是该案例属于哪一类,第4列“距离”表示该案例与其所属类别重心之间的距离。表-10 聚类成员案例号 1 2 3 4 5 6 7 8 9 10 11地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆聚类 1 2 3 3 3 3 3 3 1 2 2 3 3 3 3 3 3 3 2 3 3 3 3 3 3 2 3 3 3 3 3距离 547.950 771.809 579.122 315.972 200.450 006.083 753.534 657.438 689.836 532.793 961.518 984.758 078.661 161.151 965.740 12 13 14 15 16 171819 20 21 22 23 24 25 26 27 28 29 30 31 分析上表可知,若采用“K-均值聚类法(快速聚类法)”,第1类包括北京、上海,第2类包括天津、广东、浙江、江苏、西藏,剩下的其他样本属于第3类。 5. 结论 结论1:不同行业平均工资水平的比较 平均工资水平较高的三个行业分别是: 1. 金融业(62972.65元)2. 信息传输_计算机服务和软件业(47303.87元) 3. 电力_燃气及水的生产和供应业(44113.10元)平均工资水平较低的三个行业分别是: 1. 住宿和餐饮业(19263.71元) 2. 农_林_牧_渔业(19413.84元)3. 水利_环境和公共设施管理业(24446.45元)结论2:不同地区平均工资水平的比较比较系统聚类法和K-均值聚类法(快速聚类法)的输出结果,可以看出,其聚类结果大致相同。比较合理的聚类方法是将所有样本分成3类,第1类包括北京、上海,第2类包括天津、广东、浙江、江苏、西藏,剩下的其他样本属于第3类。很显然,第1类的工资水平(经济发展水平)最高,第2类居中,第3类次之。Q & A 这里有个问题想考考大家,对于天津、广东、浙江、江苏这4个省市同属于第2类中我们比较容易理解,但是为什么西藏的工资水平与这4个省市排在一起呢?参考答案: 造成西藏工资高的主要原因是物价和人工成本过高,听说那里一棵大白菜,内地几毛钱,那里要卖几块钱是什么概念?什么东西运上去都是飞机,成本当然很高,那么其他的东西跟着涨,但是既然要活命,那么薪水也就很高了。本文由(www.wenku1.com)首发,转载请保留网址和出处!
免费下载文档:只需一步,快速开始
后使用快捷导航没有帐号?
spss聚类分析是研究“物以类聚”的一种科学有效的统计学方法。它是将某些对象依据一定的规则科学分类。
官方微信公众号二维码 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
SPSS聚类分析具体操作步骤
下载积分:2000
内容提示:SPSS聚类分析具体操作步骤
文档格式:PPT|
浏览次数:376|
上传日期: 14:23:21|
文档星级:
全文阅读已结束,如果下载本文需要使用
 2000 积分
下载此文档
该用户还上传了这些文档
SPSS聚类分析具体操作步骤
关注微信公众号苹果/安卓/wp
积分 35, 距离下一级还需 10 积分
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡下一级可获得
道具: 显身卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
难过签到天数: 2 天连续签到: 1 天[LV.1]初来乍到
本帖最后由 CClenasong 于
18:44 编辑
如下图,是28个样本的聚类分析结果,我用的是SPSS系统聚类的方法。
群集成员案例4 群集3 群集1:Case 1&&112:Case 2&&223:Case 3&&324:Case 4&&435:Case 5&&326:Case 6&&227:Case 7&&228:Case 8&&229:Case 9&&2210:Case 10 2211:Case 11 2212:Case 12 2213:Case 13 2214:Case 14 2215:Case 15 2216:Case 16 2217:Case 17 2218:Case 18 2219:Case 19 2220:Case 20 2221:Case 21 2222:Case 22 2223:Case 23 2224:Case 24 2225:Case 25 2226:Case 26 2227:Case 27 2228:Case 28 22
18:15:39 上传
看到SPSS的4类和3类的结果,我有点崩溃,基本无差异,但是树状图看起来还是有差异的,这个树状图我可以根据谱系自己分类理解么?此外,下面这个图叫什么?我也不太能理解。
支持楼主:、
购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
载入中......
(13.88 KB)
18:44:11 上传
希望大家不吝赐教!在线等。
希望大家解答啊~
我的想法是分成3类就足够。
聚类分析分为几类可以认为规定的。
下面那个图叫做冰柱图,群集数代表分成的类别数。案例就是你要分析的变量或者样本。
你要分成3类,你可以在群集数数值为3的地方画一条直线,类别就很清楚了。
19:48:22 上传
看得很清楚,哪几类
热心帮助其他会员
总评分:&论坛币 + 50&
拿本教材对着看最好了,
&img src=&static/image/smiley/comcom/18.gif& class=&vm& ...
焉沫殇情 发表于
聚类分析分为几类可以认为规定的。
下面那个图叫做冰柱图,群集数代表分成的类别数。案例就是你要分析的变 ...谢谢您!
但还是想追问一下,划线后我只能看到2类,怎么看3类?能否告诉一下具体3类分别是哪些?
CClenasong 发表于
但还是想追问一下,划线后我只能看到2类,怎么看3类?能否告诉一下具体3类分别是哪些?可以把冰柱图的黑线往下移,3类的情况是1,4分别成类,其余为一类
本帖最后由 edsioncjlu 于
17:19 编辑
分层聚类的可以告诉你,所有观测对象如果分2类,怎么分;分3类怎么分;分M类怎么分。至于你需要几类,你自己酌情而定。
冰柱图,任何两条冰柱高度均不同。先从所有最高的冰柱说起,它将所有观测对象分为该柱的左右两类,再寻找稍矮的下一条冰柱可以将最高冰柱所分的2类中的1类分为2类,因此此时共3类。。。以此类推。
树状图不如冰柱图直观,但差不多。从最右侧的最大二分线说起,分为2类;若想再分,就找较大的类向下分2类,此时共3类。
聚类表不容易看懂~但最大的好处是直观的告诉你类与类之间的距离。
有帖子说,最优的聚类分析方案是:先利用分层聚类寻找奇异点(就是某一个点单独作为一类的情况),而后根据分类情况,结合聚类表中各类的差别,确定分类具体数目,最后利用K均值聚类进行最终分类。
是否还有更优的方法,我暂时还没想法,希望后来者给我评论告诉我哈。
热心帮助其他会员
总评分:&论坛币 + 10&
分层聚类的操作按钮是哪个?是系统聚类的按钮吗?为什么我的spss22里面没有分层聚类的操作按钮啊?
聚类表是怎么看的?
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师

我要回帖

更多关于 聚类分析ward方法 的文章

 

随机推荐