请问组数和给了组距如何划分组数要取多少?

拒绝访问 |
| 百度云加速
请打开cookies.
此网站 () 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(3b1c6b-ua98).
重新安装浏览器,或使用别的浏览器拒绝访问 |
| 百度云加速
请打开cookies.
此网站 () 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(3b7c-ua98).
重新安装浏览器,或使用别的浏览器 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
数据频数分布统计的组数与组距的确定方法
下载积分:2000
内容提示:数据频数分布统计的组数与组距的确定方法
文档格式:PDF|
浏览次数:169|
上传日期: 13:32:31|
文档星级:
全文阅读已结束,如果下载本文需要使用
 2000 积分
下载此文档
该用户还上传了这些文档
数据频数分布统计的组数与组距的确定方法
关注微信公众号当前位置: >>
市场调查与预测――第6章
统计数据分析
描述性统计数据分析重庆工商大学商务策划学院 ? 将调查样本中包含的大量数据资料进行整理、概括和 计算,就是描述性统计。主要包括频数分析、描述性 分析、通过频数表和直方图,以及均值、标准差等统 计量来观察数据的分布情况,是数据分析的基础工作 数据收集 数值数据 调查 ... 类型数据 用表格和图形 表示数据类型用表格和图形 表示趋中、离散程度 分布形状 探索性数据分析 一、频数表? 离散变量的情形? Q2、【 可多选】您通常选择旅行的方式是:1、徒步旅行 5、休闲旅游 2、自驾旅游 6、风光旅游 3、探险旅游 7、文化旅游 4、专题旅游(如森林之旅、快乐 之旅) 8、红色旅游(革命圣地)? Q3、【 可多选】您通常选择旅游的主要原因:1、休闲观光5、喜欢旅游2、公司组织6、朋友邀请3、节假日4、庆祝重要日子(蜜月、生日等)(请填写)7 、 释 放 压 8、其他 力 S1、【单选题】请问您的年龄:1、16周岁以下(停止访问) 2、16(含)-45周岁 3、45(含)-60周岁 4、60周岁(含)以上年龄 频率 有效 16岁以下 16岁―45岁 45岁―60岁 60岁以上 合计 8 15 20 7 50 百分比 16.0 30.0 40.0 14.0 100.0 有效百分比 16.0 30.0 40.0 14.0 100.0 累积百分比 16.0 46.0 86.0 100.0
? Q3、【可多选】您通常选择旅游的主要原因:1、休闲观光 5、喜欢旅游 2、公司组织 6、朋友邀请 3、节假日 4、庆祝重要日子(蜜月、生日等) (请填写) 7、释放压力 8、其他 旅游的主要原因频率有效 休闲观光 公司组织 节假日 2 5 8百分比4.0 10.0 16.0有效百分比4.0 10.0 16.0累积百分比4.0 14.0 30.0庆祝重要日子喜欢旅游 朋友邀请 释放压力1213 8 224.026.0 16.0 4.024.026.0 16.0 4.054.080.0 96.0 100.0合计50100.0100.0
? 家庭人口数的频数分布表
? 连续变量的情形? 作频数分布表的步骤:? (1)找出数据的大致范围。 ? (2)决定分组数和组距。组数不要太多或太少,通常5 ~15比较台适。组距一般取整数为好,而且一定要使全 部数据都被包含在备组之中。 ? (3)决定组限(包括下限和上限)以及组中值。一般 原则是让组中值尽量取成便于计算的整数为好。如果组 距是奇数,组上、下限就最好不要取成整数 ? (4)统计观测数据落入各组的频数。?假定取到一个样本得到M=200名华南地区成年男子的 身高X,显然X是连续变量。
二、分布统计量? 单变量统计包括集中趋势和离散趋势? 集中趋势 ? 是指一组数据向某一个典型值或代表值集中的情况。如“大部分学 生是女生”、“年龄最大的24岁、最小的20岁”等。集中趋势的概 念就是代表值、平均值的概念, ? 说明社会现象在一定历史条件下的共同性质。如用家庭户平均人 数说明家庭结构的一般性质。 ? 对社会现象的特征能够从数量方面在空间上进行比较。如不同省 份家庭户平均人数不同,说明不同省份家庭观念不同。 ? 对社会现象的特征能够从数量方面在时间上进行比较。 ? 分析社会现象之间的相互依存关系。如生活水平的高低与家庭人 口数的多少成反方向变化。? 集中趋势的种类(统计量)? 平均数、中位数、众数。 ? 反映分布集中程度的统计量? 众数(mode)、中位数(median)、均值(mean) ? 集中趋势? 算术平均数? 算术平均数 = 总体标志总量 /总体单位= X1+X2+X3+……+Xn /n = ∑Xi/n? 简单算术平均数 ? 加权算术平均数? 由单项分组和组距分组数据计算的算术平均数 ? 集中趋势? 中位数? 中位数是指一组数据按大小顺序排列情况下处于中 间位置上的数值。在测定中位数时,需先按照某一 标志的特征依其高低、优劣、大小等顺序加以排列 ,然后确定其中心位置,并根据观察或计算出中位 数。? 只有定序、定距和定比数据才有中位数。? 若数据的个数是奇数,则在中间位置的数值就是中 位数。如果数据的个数是偶数,则用居于中间位置 的两个数值的平均数是中位数。 ? 集中趋势? 众数? 众数是指在许多数据中出现次数最多、有集 中表现的一个数值,从而表明研究总体中各 总体单位某一特征的集中趋势。 ? 只有在总体单位数较多,且有明显集中趋势 的资料中才能计算众数。? 在组距式分组资料情况下求众数,则以出现 次数最多的一组作为众数组,然后以这组的 组中值为众数。 ? 众数(MO)、中位数(Md)、平均数(X)之间 的关系MO Md XMd XMO ? 众数(MO)、中位数(Md)、平均数(X)之间 的关系605040302010Count018 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 83AGE ? 反映离散程度的统计量(分布的形状)? 离散量数分析? 表示一组数据变异程度或分散程度的量数。 ? 离散程度值越大,集中趋势值的代表性越小;离散 程度值越小,集中趋势值的代表性越大。 ? 种类:方差、标准差、全距、异众比率、离散系数 、偏度系数等。? 极差(全距)、四分位数间距、均方差、方差和标 准差? 极差、四分位数差和标准差的比较
? 离散量数分析? 全距(range):最大值与最小值的差,用R表示。? 反映数据的离散状况太粗略、不灵敏,只作参考 ? 四分位数差(Inter-Quartile Range, IQR):是两个四 分位数之差,即内距IQR=高四分位数-低四分位数 ? 异众比率 ? 非众数的频数与全部个案数的比值,用VR表示 。指众数所不能代表的其他数据(非众数数据) 在总数据中的比重。 ? VR值越大,众数的代表性越小,反之VR值越小 ,则众数的代表性越大。 例:计算四分位差甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 合计甲城市户数 (户) 24 108 93 45 30 300 累计频数 24 132 225 270 300 ―解:设非常不满意为 1,不满意为2, 一般为 3, 满意为 4, 非常满 意为5 已知QL = 不满意 = 2 QU = 一般 = 3四分位差:QD = QU = QL =3C2 =1 例:计算异众比率不同品牌饮料的频数分布 饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计 频数 15 11 9 6 9 50 比例 0.30 0.22 0.18 0.12 0.18 1 百分比 (%) 30 22 18 12 18 100解:50 ? 15 vr ? 50 15 ? 1? 50 ? 0.7 ? 70%在所调查的50人当中,购 买其他品牌饮料的人数占 70%,异众比率比较大。因 此,用“可口可乐”代表消 费者购买饮料品牌的状况, 其代表性不是很好 ? 离散量数分析? 方差和标准差 ? 用定义公式求解方差和标准差S2?? X ? X ? ?N??X ?? ? N ?2;S ??? X - X ?N2? 用原始数据计算方差和标准差S2?X ?N2? ? ; ? ?2S??XN2??X ?? ? N ?? ? ? ?2? 分组数据计算方差和标准差S2? fX ?N2? ? fX ?? ? N ?? ? ; S= ? ?2? fXN2? ? fX ?? ? N ?? ? ? ?2 ? 离散量数分析? 离散系数? 标准差与算术平均数的百分比,用CV表示。是一种无量 纲的相对数。? 计算公式:CV=S/X? 偏度系数? 用来描述数据分布特征的统计量数,指的是数据分布的偏 倾方向和程度。 ? 用平均数与众数的离差求偏度系数(皮尔逊偏度系数)? Skp=(X-MO)/S? 用平均数与中位数的离差求偏度系数? MO=3Md-2X 三、斜度和峰度? 斜度(skew ness)和峰度(kurtosis)用于描述数据分 布与正态分布之间的差异程度。 ? 斜度表示分布与正态曲线相比较的不对称程度和方 向。如果分布式对称的,则斜度为0;如果偏向左 边,斜度为正;如果偏向右边,斜度为负。 ? 峰度表示与正态曲线相比的冒尖程度或扁平程度。如 果分布与正态曲线的形状相当,峰度为0;如果比正态 曲线瘦高,峰度为正;如果比正态曲线扁平,峰度为 负。 数据的特征和测度数据的特征和测度集中趋势众 数 中位数离散程度极差 标准差 方差 离散系数分布的形状偏 态均 值峰 度 市场分析中的统计分析重庆工商大学商务策划学院 1、两变量之间的关系 (1)函数关系: 当自变量取值一定时,因变量取值由它唯一确定 正方形面积S与其边长x之间的函数关系S=x2 , 对自变量边长的每一个确定值,都有唯一确定的 面积的值与之对应。 确定关系 (2)相关关系: 当自变量取值一定时,因变量的取值带有一定 的随机性 一块农田的水稻产量与施肥量之间的关系 。 水稻产量并不是由施肥量唯一确定,在取值上 不确定关系 带有随机性 (3)相关关系与函数关系的异同点: 相同点:均是指两个变量的关系。不同点: 函数关系是一种确定的关系; 而相关关系是一种非确定关系;列举现实生活中相关关系的例子. 2、回归分析 对具有相关关系的两个变量进行统计分 析的方法叫回归分析 1)回归分析本质:寻找相关关系中非确定性 关系的某种确定性。 2)回归分析的意义:相关关系到处存在,从某 种意义上讲,函数关系是一种理想的关系模型, 而相关关系则是一种非常普遍关系。研究和学 习相关关系,不仅可以使我们能够处理更为广 泛的数学问题,还可以使我们对函数关系的认 识再上升到一个新的高度。 例:在7块并排、形状大小相同的试验田上进 行施化肥量对水稻产量影响的试验,得到如下 表所示的一组数据(单位:kg):施化肥量x 水稻产量y 500 15 330 20 345 25 365 30 405 35 445 40 450 45 455y 水稻产量450400 350 300 10 (施化肥量)20304050x 3、散点图 表示具有相关关系的两个变量的一 组数据的图形,叫做散点图. 散点图形象地反映了各对数据的密切程度 例:在7块并排、形状大小相同的试验田上进 行施化肥量对水稻产量影响的试验,得到如下 表所示的一组数据(单位:kg):施化肥量x 水稻产量y 500 450 400 350 300 10 (施化肥量) 20 30 40 50 15 330 20 345 25 365 30 405 35 445 40 450 45 455y 水稻产量x 4、推导在整体上与这几个点最接近的一条直线 即 最能代表x与y之间关系的直线 ? 设所求直线方程为 ? bx ? a , 其中a , b为待定系数 y 则当变量x取一组数值x i ( i ? 1,2,?, n)时,相应的? yi ? bxi ? a( i ? 1,2,?, n)于是得到各个偏差 ? y i ? y i ? y i ? (bx i ? a ) 偏差的平方和? ( y1 ? bx1 ? a ) 2 ? ( y2 ? bx 2 ? a ) 2 ? ? ? ( yn ? bx n ? a ) 2 Q符号?Q ? ? ( y i ? bx i ? a )i ?1n2 5、a , b 的取值b?? ( x ? x )( y ? y ) ? x y ? nx ? yi ?1 i inn? ( x ? x)i ?1 in?i ?1ii2? x ? nx2 i ?1 in2a ? y ? bx1 n 1 n 其中x ? ? x i , y ? ? y i n i ?1 n i ?1? 将所得a , b代入方程y ? bx ? a即得所求直线 6、回归直线方程:? 由上述所得的直线方程 y ? bx ? a 称为回归直线方程相应直线称为回归直线方程。 7、线性回归分析: 对两变量所进行的上述系统分析称为线性回归 分析 8、回归直线方程的求法施化肥量x 15 20 25 30 35 40 45水稻产量y330345365405445450455列表:1 3 4 7 2 5 6 x i 15 20 25 30 35 40 45 yi 330 345 365 405 445 450 455 x i y i 25
x ? 30 y ? 399.3 ? x ? 7000 ? x y ? 87175i72787175 ? 7 ? 30 ? 399.3 ?b ? ? 4.75 2 7000 ? 7 ? 30i ?1ii ?1iia ? 399.3 ? 4.75 ? 30 ? 257? 因此所求回归直线方程是 y ? 4.75 x ? 257 求回归方程的一般方法: 1、列表 2、计算x , y, ? xi ?1n2 i, ? xi yii ?1n3、求 a , b4、代入回归直线方程 例:一个工厂在某年时每月产品的总成本y(万元)与 该月产量x(万件)之间有如下一组数据:X 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07y2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.50(1)画出散点图; (2)求月总成本与月产量x之间的回归直线方程。 例:一个工厂在某年时每月产品的总成本y(万元)与 该月产量x(万件)之间有如下一组数据:X 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07y2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.50月总成本(1)画出散点图; (2)求月总成本与月产量x之间的回归直线方程。 y4 3.5 3 2.5 2 1.5 1 0.5 0 0 0.5 1 1.5 2 2.5月产量x月产量 i123456789101112x i 1.08 y i 2.25xi yi 2.41.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.5032.6 2.8 45 563.2 643.5 4.0 90 74.6 435.0 5.6 90 52126.0 966.6 537.2 4518.5 x? 12于是得:1234.17 y? ? 2.8475 12x i2 ? 29.808 ?i ?1b?? xi yi ? 12x ? yi ?1 12?x yi ?1 i12i? 54.243?xi ?12 i? 12 x2? 1.215a ? y ? b x ? 0.974? ? 所求的回归直线方程为 ? 1.215 x ? 0.974 y 多元统计分析? 统计分析方法的具体应用? 对多个变量进行降维处理,而选择数目较少的变量子集合; ? 主要方法:主成分分析、因子分析、对应分析等。 ? 对现象进行分类研究、分类处理、构造分类模式 ? 主要方法:聚类分析、判别分析等 ? 建立经济模型和利用模型进行外推; ? 主要方法:预测模型--回归分析方法 描述模型--聚类分析方法 ? 研究时间序列变化趋势 ? 主要方法:时间序列分析方法、马尔科夫概型分析分析方 法等 ? 研究经济现象之间相互关系 ? 主要方法:典型相关分析 多元统计分析? 统计分析方法运用的一般步骤 ? 统计分析方法要经过建立模型、进行参数估计 、假设检验以及预测控制等步骤,具体是:? 进行定性分析,设计理论模型 ? 抽取样本,并取得样本统计资料 ? 对描述样本的指标进行统计分析,选择最佳的统计 指标 ? 根据最佳指标的样本数据,估计参数,建立数量模 型 ? 对数量模型进行检验、优化以及运用 多元回归分析? 多元回归与一元回归的比较主要内容 随机变量 统计分布 一元 一维随机变量 一元分布 多元 多维随机变量 多元分布参数估计假设检验似然估计、最小二乘估计 、矩估计U检验、t检验、F检验 卡方检验 方差分析 回归分析似然估计、最小二乘估 计、矩估计T2检验、F检验 卡方检验回归分析 主成分分析 因子分析 聚类分析 判别分析 典型相关分析等统计分析方法 二、三 主成分分析和因子分析 汇报什么?? 假定你是一个公司的财务经理,掌握了公司的所 有数据,比如固定资产、流动资金、每一笔借贷 的数额和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分工和教 育程度等等。 ? 如果让你向上面介绍公司状况,你能够把这些指 标和数字都原封不动地摆出去吗? ? 当然不能。 ? 你必须要把各个方面作出高度概括,用一两个指 标简单明了地把情况说清楚。 ? 每个人都会遇到有很多变量的数据。 ? 比如全国或各个地区的带有许多经济和社会变量 的数据;各个学校的研究、教学等各种变量的数 据等等。 ? 这些数据的共同特点是变量很多,在如此多的变 量之中,有很多是相关的。人们希望能够找出它 们的少数“代表”来对它们进行描述。 ? 本章就介绍两种把变量维数降低以便于描述、理 解 和 分 析 的 方 法 : 主 成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。实际上主成分分析可以说是因子分 析的一个特例。在引进主成分分析之前,先看下 面的例子。主成分分析 成绩数据(student.sav)? 100个学生的数学、物理、化学、语文、历史、 英语的成绩如下表(部分)。 从本例可能提出的问题? 目前的问题是,能不能把这个数据 的6个变量用一两个综合变量来表 示呢? ? 这一两个综合变量包含有多少原来 的信息呢? ? 能不能利用找到的综合变量来对学 生排序呢?这一类数据所涉及的问 题可以推广到对企业,对学校进行 分析、排序、判别和分类等问题。 空间的点? 例中的的数据点是六维的;也就是说,每个观测 值是6维空间中的一个点。我们希望把6维空间用 低维空间表示。 ? 先假定只有二维,即只有两个变量,它们由横坐 标和纵坐标所代表;因此每个观测值都有相应于 这两个坐标轴的两个坐标值;如果这些数据形成 一个椭圆形状的点阵(这在变量的二维正态的假 定下是可能的) ? 那么这个椭圆有一个长轴和一个短轴。在短轴方 向上,数据变化很少;在极端的情况,短轴如果 退化成一点,那只有在长轴的方向才能够解释这 些点的变化了;这样,由二维到一维的降维就自 然完成了。 -4-2024-4-2024 椭球的长短轴? 当坐标轴和椭圆的长短轴平行,那么代表长轴 的变量就描述了数据的主要变化,而代表短轴 的变量就描述了数据的次要变化。 ? 但是,坐标轴通常并不和椭圆的长短轴平行。 因此,需要寻找椭圆的长短轴,并进行变换, 使得新变量和椭圆的长短轴平行。 ? 如果长轴变量代表了数据包含的大部分信息, 就用该变量代替原先的两个变量(舍去次要的 一维),降维就完成了。 ? 椭圆(球)的长短轴相差得越大,降维也越有 道理。 -4-2024-4-2024 主轴和主成分 ? 对于多维变量的情况和二维类似,也 有高维的椭球,只不过无法直观地看 见罢了。 ? 首先把高维椭球的主轴找出来,再用 代表大多数数据信息的最长的几个轴 作为新变量;这样,主成分分析就基 本完成了。 ? 注意,和二维情况类似,高维椭球的 主轴也是互相垂直的。这些互相正交 的新变量是原先变量的线性组合,叫 做主成分(principal component)。 主成分之选取 ? 正如二维椭圆有两个主轴,三维椭球 有三个主轴一样,有几个变量,就有 几个主成分。 ? 选择越少的主成分,降维就越好。什 么是标准呢?那就是这些被选的主成 分所代表的主轴的长度之和占了主轴 长度总和的大部分。有些文献建议, 所选的主轴总长度占所有主轴长度之 和的大约85%即可,其实,这只是一 个大体的说法;具体选几个,要看实 际情况而定。 主成分分析的数学? 要寻找方差最大的方向。即使得向量 X的线性组合a’X的方差最大的方向a. ? 而 Var(a’X)=a’Cov(X)a; 由 于 Cov(X) 未知;于是用X的样本相关阵R来近 似.因此,要寻找向量a使得a’Ra最大 (注意相关阵和协方差阵差一个常数 ? 记得相关阵和特征值问题吗?回顾一 下吧! ? 选择几个主成分呢?要看“贡献率.” ? 对于我们的数据,SPSS输出为Total Varianc e Explai ned Initial Eigenvalues Component Total % of Variance Cumulative % 1 3.735 62.254 62.254 2 1.133 18.887 81.142 3 .457 7.619 88.761 4 .323 5.376 94.137 5 .199 3.320 97.457 6 .153 2.543 100.000 Extraction Method: Principal Component Analysis. Extraction Sums of Squared Loadings Total % of Variance Cumulative % 3.735 62.254 62.254 1.133 18.887 81.142? 这里的Initial Eigenvalues就是这里的六个 主轴长度,又称特征值(数据相关阵的特 征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。 ? 特征值的贡献还可以从SPSS的所谓碎石图看出Scree Plot432Eigenvalue10 1 2 3 4 5 6Component Number ? 怎么解释这两个主成分。前面说过主成分 是原始六个变量的线性组合。是怎么样的 组合呢?SPSS可以输出下面的表。a Compo nent Mat rixComponent 1 2 3 4 MATH -.806 .353 -.040 .468 PHYS -.674 .531 -.454 -.240 CHEM -.675 .513 .499 -.181 LITERAT .893 .306 -.004 -.037 HISTORY .825 .435 .002 .079 ENGLISH .836 .425 .000 .074 Extraction Method: Principal Component Analysis. a. 6 components extracted. 5 .021 -.001 .002 .077 -.342 .276 6 .068 -.006 .003 .320 -.083 -.197? 这里每一列代表一个主成分作为原来变量线性组 合的系数(比例)。比如第一主成分为数学、物 理、化学、语文、历史、英语这六个变量的线性 组 合 , 系 数 ( 比 例 ) 为 -0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 ? 如用x1,x2,x3,x4,x5,x6分别表示原先的六个 变量,而用y1,y2,y3,y4,y5,y6表示新的主成 分,那么,第一和第二主成分为y1 ? -0.806 x1 - 0.674 x2 - 0.675 x3 ? 0.893x4 ? 0.825x5 ? 0.836 x6 y2 ? 0.353x1 ? 0.531x2 ? 0.513x3 ? 0.306 x4 ? 0.435x5 ? 0.425x6? 这些系数称为主成分载荷(loading),它表示 主成分和相应的原先变量的相关系数。 ? 比如y1 表示式中x1 的系数为-0.806,这就是说第 一主成分和数学变量的相关系数为-0.806。 ? 相关系数(绝对值)越大,主成分对该变量的代 表性也越大。可以看得出,第一主成分对各个变 量解释得都很充分。而最后的几个主成分和原先 的变量就不那么相关了。 ?可以把第一和第二主成 分的载荷点出一个二维图 以直观地显示它们如何解 释原来的变量的。这个图 叫做载荷图。 Component Plot1.0.5phys chem mathhistory english literat0.0Component 2该图左面三个点是数学、物理、化学三科,右边三个点 是语文、历史、外语三科。图中的六个点由于比较挤, -.5 不易分清,但只要认识到这些点的坐标是前面的第一二 主成分载荷,坐标是前面表中第一二列中的数目,还是 可以识别的。-1.0 -1.0 -.5 0.0 .5 1.0Component 1 因子分析? 主成分分析从原理上是寻找椭球的所有主轴。因此,原 先有几个变量,就有几个主成分。 ? 而因子分析是事先确定要找几个成分,这里叫因子 (factor)(比如两个),那就找两个。 ? 主成分分析与因子分析的公式上的区别y1 ? a11 x1 ? a12 x2 ? ? ? a1 p x p y2 ? a21 x1 ? a22 x2 ? ? ? a2 p x p ?? y p ? a p1 x1 ? a p 2 x2 ? ? ? a pp x p主成分分析x1 ? ? ? a11 f1 ? a12 f 2 ? ? ? a1m f m ? ?1 x2 ? ? ? a21 f1 ? a22 f 2 ? ? ? a2 m f m ? ? 2 ?? x p ? ? ? a p1 f1 ? a p 2 f 2 ? ? ? a pm f m ? ? p因子分析(m&p)f1 ? ?11 x1 ? ?12 x2 ? ? ? ?1 p x p f 2 ? ? 21 x1 ? ? 22 x2 ? ? ? ? 2 p x p ?? f m ? ? m1 x1 ? ? m 2 x2 ? ? ? ? mp x p因子得分 ? 对于我们的数据,SPSS因子分析输出为R o t a t e d C o m p o n e n t M a t r ia x Component 1 2 MATH -.387 .790 PHYS -.172 .841 CHEM -.184 .827 LITERAT .879 -.343 HISTORY .911 -.201 ENGLISH .913 -.216 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations. ? 这个表说明六个变量和因子的关系。 为简单记,我们用x1, x2, x3, x4, x5, x6 来表示math(数学), phys(物 理),chem(化学),literat(语 文),history(历史),english(英 语)等变量。这样因子f1和f2与这些 原变量之间的关系是(注意,和主成 分分析不同,这里把成分(因子)写 在方程的右边,把原变量写在左边; 但相应的系数还是主成分和各个变量 的线性相关系数,也称为因子载荷): x1 ? -0.387 f1 ? 0.790 f 2 ; x2 ? -0.172 f1 ? 0.841 f 2 ; x3 ? -0.184 f1 ? 0.827 f 2 x4 ? 0.879 f1 - 0.343 f 2 ; x5 ? 0.911 f1 - 0.201 f 2 ; x6 ? 0.913 f1 - 0.216 f 2 这里,第一个因子主要和语文、历史、英语三科 有很强的正相关;而第二个因子主要和数学、物 理、化学三科有很强的正相关。因此可以给第一 个因子起名为“文科因子”,而给第二个因子起 名为“理科因子”。从这个例子可以看出,因子 分析的结果比主成分分析解释性更强。 ? 这些系数所形成的散点图(在SPSS中也称 载荷图)为Component Plot in Rotated Spacephys math chem 1.0.50.0 history english literatComponent 2-.5-1.0 -1.0 -.5 0.0 .5 1.0Component 1 可以直观看出每个因子代表了一类学科 计算因子得分? 可以根据输出Component Scor e Coefficient Matrix Co mp onent 1 2 .036 .377 .165 .474 .155 .462 .357 .052 .417 .151 .413 .142MATH PHYS CHEM LITERAT HISTO RY EN GLISHExtraction Method: Principal Compon ent Analy sis. Rotation Method: Varimax w ith Kaiser No rmalization.?算出每个学生的第一个因子和第二个因子的大小, 即算出每个学生的因子得分f1和f2。 ? 该输出说明第一和第二主因子为(习惯上用字母 f来表示因子)可以按照如下公式计算,该函数 称为因子得分(factor score)。f1 ? 0.036 x1 ? 0.165x2 ? 0.155x3 ? 0.357 x4 ? 0.417 x5 ? 0.413x6 f 2 ? 0.377 x1 ? 0.474 x2 ? 0.462 x3 ? 0.052 x4 ? 0.151x5 ? 0.142 x6人们可以根据这两套因子得分对学生分别按照文 科和理科排序。当然得到因子得分只是SPSS软件 的一个选项。 四、聚类分析? 聚类分析根据一批样品的许多观测指标,按照一定的 数学公式具体地计算一些样品或一些参数(指标)的相似 程度,把相似的样品或指标归为一类,把不相似的归 为一类。 ? 例如对上市公司的经营业绩进行分类;据经济信息和 市场行情,客观地对不同商品、不同用户及时地进行 分类。又例如当我们对企业的经济效益进行评价时, 建立了一个由多个指标组成的指标体系,由于信息的 重叠,一些指标之间存在很强的相关性,所以需要将 相似的指标聚为一类,从而达到简化指标体系的目的 。 四、聚类分析? 距离和相似系数 ? 欧氏里德距离A和B的m个坐标是? X 1 , X 2 , ?, X m ?和?Y1 , Y2 , ?, Ym ?,那么A和B间的距离为 d ? A, B ? ?? X 1 ? Y1 ?2 ? ? X 2 ? Y2 ?2 ? ? ? ? X m ? Ym ?2对于调查中的两个样品点,可以利用上式计算距 离来反映靠近程度 四、聚类分析? 距离和相似系数 ? 欧氏里德距离? 例如:某次收视率调查中的部分数据,可以利用公 式来计算1号和2号之间的距离。被访者编号 1 2 年龄(年)X1 25 60 文化程度(年)X2 16 6 日看电视时间(分)X3 40 120 ……. ……. …….3… 60042… 3412… 1490… 150…….……. ……. …….X 1 ? 41, S1 ? 20X 2 ? 12, S 2 ? 5X 3 ? 90, S3 ? 40 四、聚类分析? 距离和相似系数 ? 欧氏里德距离 ? 由于计量单位不一致,要进行无量纲化处理。常用 的方法是把所有变量转换成均值为0,方差为1的标 准变量,转换公式为xi ? ?X i ? X i ? Si? 如果求出了样本中n个样品(个体)两两之间的距 离并排列成下三角矩阵形式,就可凭直觉进行初步 聚类 四、聚类分析例:假定15个企业间的距离如下表编号 1 1 0 2 3 4 5 6 7 8 9 10 11 12 13 14 1523 4 5 6 7 8 9 10 11 123.13.68 2.46 4.12 3.61 3.9 2.74 3.25 3.1 3.49 3.2204.92 2.16 3.85 4.22 3.45 3.89 3.96 2.71 4.79 2.43 0 4.11 4.47 2.99 4.22 4.99 2.75 3.93 5.9 4.03 0 4.13 3.2 3.97 3.69 3.75 1.49 4.86 3.5 0 4.6 4.6 5.16 4.49 4.05 6.46 3.6 0 3.35 4.91 3.73 3.83 6 3.74 0 4.36 2.8 4.51 6 1.66 0 3.59 3.67 3.46 4.06 0 3.57 5.18 2.74 0 5.08 3.94 0 5.21 01314 153.962.11 2.593.434.32 2.54.392.74 5.162.583.23 3.194.764.82 4.264.553.47 4.075.014.91 2.934.144.34 3.853.663.82 4.111.413.61 4.265.314.32 4.744.54.34 2.3304.39 5.1 0 4.24 0 四、聚类分析? 距离和相似系数? 从第1列开始,发现企业1和企业14的距离最小,将其归为一 类; ? 再看第14行有无距离相近的小距离。如果以2.50以下为准,这 一行没有满足要求的距离 ? 再从第2列寻找,依次类推。将距离小于2.5的企业用实线连在 一起。 ? 然后放宽条件,将距离大于2.50小于3.00的用虚线连在一起14 1 4 2 12 781310159 36511 四、聚类分析? 还可以把上表整理成下表,其中⊙表示距离小于2.5, ○表示距离在2.50-3.00之间,大于3.00则用虚线。7 7 12 15 2 4 10 13 14 1 8 9 3 6 5 11 ⊙ ⊙ ○ … … … … … … … … … … … … ⊙ ⊙ ⊙ … … … … … … … … … … … ⊙ ⊙ … … … … … … … … … … … ⊙ ⊙ ○ … … … … … … … … … ⊙ ⊙ ○ … … … … … … … … ⊙ ⊙ … … … … … … … … ⊙ … … … … … … … … ⊙ ⊙ … … … … … … ⊙ ○ … … … … … ⊙ … … … … … ⊙ ○ … … … ⊙ ○ … … ⊙ … … ⊙ … ⊙ 12 15 2 4 10 13 14 1 8 9 3 6 5 11 四、聚类分析? 距离和相似系数? 相似系数? 在需要对变量进行分类时,用相似系数定量描述变量间的接近或 相似程度,常用的相似系数有:变量间的相关系数(皮尔逊相关 系数)、变量间的夹角余弦。 ? 相关系数针对定距变量提出,针对定类变量特别是二项变量,可 以引进哑变量后用通常的相关系数公式来计算。如下表两个哑变 量D1和D2的相关系数为变量D2 1 变量D1 1 0 a c 0 b d a+b c+d 合 计ab ? cd r? ?a ? b??c ? d ??a ? c ??b ? d ?合计a+cb+dn=a+b+c+d 四、聚类分析? 距离和相似系数? 相似系数 ? 例:假定5个样品(人)或个体具有如下指标n=5人的m=6种身体特征体重(斤)120 145 135 100 150身高(公分)个体1 个体2 个体3 个体4 个体5 166 175 168 167 174眼睛形状单 双 单 双 双鼻子形状高 低 高 低 低习惯用手右 右 右 右 左性别女 男 男 女 男? 试对个体进行分类 ? 试对变量进行分类 四、聚类分析? 距离和相似系数? 解:由于变量中既有定类变量又有定距变量,因此可以考虑 按照某种特征的有无全部成哑变量来处理(当然可以将后面 的4个变量化成哑变量),令?1, 身高 ? 170 ?1, 双眼皮 ?1, 体重 ? 130 X1 ? ? ;X 2 ? ? ;X 3 ? ? ?0, 体重 ? 130 ?0, 身高 ? 170 ?0, 单眼皮 ?1, 高鼻梁 ?1, 用左手 ?1, 女 X4 ? ? ;X 5 ? ? ;X 6 ? ? ?0, 用右手 ?0, 男 ?0, 低鼻梁? 于是原表格可以改为下表形式 四、聚类分析? 距离和相似系数用哑变量表示的身体特征 X1 X2 X3 X4 X5 X6个体1个体2 个体3 个体4 个体501 0 0 101 1 0 101 0 1 110 1 0 000 0 0 110 0 1 0 四、聚类分析? 距离和相似系数? 对个体的分类常常根据两个个体共同特征的多少进行。相 似的个体比不相似的个体具有更多的共同特征。下面运用 欧氏距离的平方进行聚类。先求得各个个体之间的距离编号 1 1 0 2 3 4 523 4 552 2 603 3 1 0 4 4 0 4 0? 根据距离大小,如果要求分成两类,就是{2,5}、{1,3, 4} 四、聚类分析? 距离和相似系数? 对6个特征变量进行分类,要先计算每两个变量 之间的相似系数。例如X1和X2之间的相似系数为 ? ?X1 ? X 1 ??X 2 ? X 2 ? ? ? ? X 1 ? 0.4?? X 2 ? 0.6? ? 0.6667 r12 ? ?X1 ? X1 ?2 ? ?X 2 ? X 2 ?2 ? ? X1 ? 0.4?2 ? ? X 2 ? 0.6?2 ? ? 如果将X1和X2整理成哑变量的形式X2 1 X1 1 0 2 1 0 0 2 2 3 合计合计325 四、聚类分析? 距离和相似系数? 则相似系数为ad ? bc r12 ? ? 0.6667 ?a ? b??c ? d ? ?a ? c ??b ? d ?6个变量间的相似系数11 2 3 4 5 6 1.7 0.7 0.721.7 -0.2 -1.000034561.0 0.7 1.2 0.0 -0.0 四、聚类分析? 谱系聚类法? 聚集法:先将所有研究对象都各自算作一类,将 “最近”的首先聚类,再将这个类和其它类中最 “靠近”的对象结合,这样继续合并,直至所有 对象都综合成一类为止 ? 分割法:现将所有对象看做一类,然后分割成两 类,使得一类中的对象尽可能“远离”另一类的 对象,再将每一类这样分割下去,直至每个对象 自成一类为止。 ? 上述方法的过程用所谓“谱系图”表示出来。 四、聚类分析? 谱系聚类法? 最短距离法 ? 两个类之间的距离定义为两类中元素之间距 离最小者,并依次逐次选择“靠近”的类聚 集方法。x11?d13x22?x21?x12? 四、聚类分析? 谱系聚类法? 最短距离法 ? 假设5个对象间的距离如下表,用最短距离 法聚类,并画出谱系图。编号 1 2 3 4 5 1 0 6 2 3 7 0 4 4 1 0 5 5 0 5 0 2 3 4 5 四、聚类分析? 谱系聚类法? 最短距离法 ? 先将2和5合并为一个新类{2,5},再求出{2,5}和 1,3,4之间的距离d?2,5?,1 ? min ?d 21, d51 ? ? 6; d?2,5?,3 ? min ?d 2,3 , d53 ? ? 4 d?2,5?, 4 ? min ?d 2, 4 , d5, 4 ? ? 4类 {2,5} 0 6 4 0 2 0 1 3 4? 原有类1,3,4之间的 距离不变,列出新表{2,5} 1 344350 四、聚类分析? 谱系聚类法? 最短距离法 ? 将1,3合并成一新类{1,3},计算它和{2, 5},4之间的距离d?2,5?,?1,? ? min ?d1,?2,5?, d3,?2,5? ? ? 4;d?1,3?, 4 ? min ?d1, 4 , d3, 4 ? ? 3 3? 列出新表类 {2,5} {1,3} 4{2,5} 0 4 4{1,3}40 3 0 四、聚类分析? 谱系聚类法? 最短距离法 ? 因此可将{1,3}和4合并成一类{1,3,4}, 这时只有两类,计算其距离为4,列表为类 {2,5} {1,3,4} {2,5} 0 4 0 {1,3,4}? 最后将{2,5},{1,3,4}合并为一类。 四、聚类分析? 谱系聚类法? 最短距离法? 最短距离法的递推公式假设第p类和第q类合并成第类,第r类与其它各旧类的距离按最短距离法为:定义距离:D pq ? Min?dij:xi ? G p,x j ? Gq ? 递推公式:Drl ? Min?D pl,Dql ? l ? p,qDrl ? Min ?dij:xi ? Gr,x j ? Gl ? ? Min dij:xi ? ? G p ? Gq ?,x j ? Gl? ? Min?d :x ? ? Gij ip? ? G ?,x ? G ? ? Min ? Dq j lql, D pl ? 四、聚类分析? 谱系聚类法? 最短距离法 ? 最短距离谱系图为2 5 1 3 4 对象 1 2 3 4 距离 四、聚类分析? 谱系聚类法? 最长距离法 ? 类与类之间的距离取两类元素中距离最大者? x11? ? x21?d12? ? ?? 四、聚类分析? 谱系聚类法? 最长距离法? 最长距离法的递推公式定义距离:D pq ? Max ?dij:xi ? G p,x j ? Gq ?递推公式:Drl ? Max ?Dpl,Dql ?Drl ? Max ?dij:xi ? Gr,x j ? Gl ?l ? p,q假设第p类和第q类合并成第类,第r类与其它各旧类距离按最长距离法为:? Max dij:xi ? ? G p ? Gq ?,x j ? Glij i p q j? ? Max ?d :x ? ? G? ? G ?,x ? G ?? Max ?Dlql, D pl ? 四、聚类分析? 谱系聚类法? 最长距离法? 假设5个对象间的距离如下表,用最短距离 法聚类,并画出谱系图。编号 1 2 3 4 5 1 0 6 2 3 7 0 4 4 1 0 5 5 0 5 0 2 3 4 5 四、聚类分析? 谱系聚类法? 最长距离法 ? 先将2,5聚类成{2,5},因为距离对靠近,在计算它与1,3 ,4的最大距离d?2,5?,1 ? max ?d 21, d51 ? ? 7;d?2,5?,3 ? max ?d 23 , d 53 ? ? 5 d?2,5?, 4 ? max ?d 24 , d 54 ? ? 5? 列出新表,将1,3合 并成一类类 {2,5} 1 3 4 {2,5} 0 7 5 5 0 2 3 0 5 0 1 3 4 四、聚类分析? 谱系聚类法? 最长距离法? 再将1,3合并成一类,再求{1,3}、{2,5} 和4之间的距离。依次直到完成。类 {2,5} {1,3} 4 类 {2,5} {1,3} 4{2,5}{1,3} 407 5 0 5 0{2,5}{1,3} 407 5 0 5 0 四、聚类分析? 谱系聚类法? 最长距离法类 {2,5} {1,3,4} {2,5} 0 7 0 {1,3,4} 类 {2,5,4} {1,3}距离{2,5,4} 0 7{1,3} 01 2 5 12345671234567距离2 5 434对象13对象 四、聚类分析? 谱系聚类法? 中间距离法 ? 中间距离一般采用距离(欧氏距离)的平方dG3G1 GN1? 2 1 2 ? 2 2 类间距离d G3GN ? d 2 ? ? d G3G1 ? d G3G2 ? d G1G2 ? 2? 2 ?G2 四、聚类分析? 谱系聚类法? 中间距离法? 仍旧使用前面的例子,由于数据采用距离的平方和, 因此将例题中各个值平方后得到对象间的距离表编号 1 2 3 4 512 3 4 5036 4 9 49 0 16 16 1 0 25 25 0 25 0 四、聚类分析? 谱系聚类法? 中间距离法类 {2,5} 1 3 4 {2,5} 0 42.25 20.25 20.25 0 4 9 0 25 0 1 3 4类 {2,5} {1,3} 4{2,5} 0 30.25 20.25{1,3}4类 {2,5}{2,5} 0 21.25{1,3,4}0 16 0{1,3,4}0 四、聚类分析? 谱系聚类法?方法最短距离法最长距离法 中间距离法六种谱系聚类法比较Spss命令SINGLECOMPLETE MEDLAN空间性 质压缩扩张 守恒单调 性单调单调 非单调对距离 的要求适用形条形,S 形适用于 椭球形结果的 唯一性唯一距离表 中有相 同元素 时,可 能出现 不唯一 解备注太压缩,不够灵敏太扩张,样本大时易 失真欧氏距离 平方和重心法类平均法 交叉平方和 法CENTROIDWAVERAGE WORD守恒守恒 扩张非单调单调 单调同上不太压缩也不太扩张 ,效果好,常用 欧氏距离 平方和 效果好,常用 四、聚类分析? 谱系聚类法 ? 以上六种方法主要针对样品聚类并采用“距离”来衡 量样品间的“靠近”程度的方法。在对变量进行聚类 时,一般先求出变量间的相似系数,按照相似系数越 大两个变量越相似(越靠近)的原则,根据谱系聚类 法的思想,聚类过程完全相同。 ? 也可以先将相似系数转化为距离,然后再做聚类,其 公式是:d ? 2?1 ? c ?或d ? 1 ? c 2 其中c表示两个变量之间的某种相似系数,d为它们间的距离。 四、聚类分析? 谱系聚类法? 例:24名优秀运动员的七项全能项目得分间的相关系 数如下图,试对此七个项目进行聚类分析七个项目的相关系数变量 100米栏X1 跳高X2 铅球X3 200米X4 跳远X5 标枪X6 100米栏X1 1 0.8 0.3 0.0 0.8 0.4 1.5 0.6 1.2 0.0 0.0 跳高X2 铅球X3 200米X4 跳远X5 标枪X6 800米X7800米X70.57060.14980.37620.67900.49570.05561.0000 四、聚类分析? 谱系聚类法? 变量聚类? 类似于最长距离法,第一次将100米栏和200米项目合并{1 ,4}; ? 第二次将跳远合并于{1,4}得到{1,4,5}; ? 第三次铅球和标枪合并为一类{3,6}; ? 第四次将{3,6}和{1,4,5}合并得到{1,4,5,3,6}; ? 第五次将800米合并与{1,4,5,3,6}得到{1,4,5,3, 6,7}; ? 第六次再将跳高合并进去。谱系图如下: 四、聚类分析? 谱系聚类法? 变量聚类1.0100米栏0.90.80.70.60.5相似系数200米 跳远 铅球 标枪 800米 跳高 变量 四、聚类分析? 图示法? 对于多个(n&2)变量的情况很难用平面谱系图来 表示,可以采用的有脸谱图、连接向量图、三角多 项式图等,但是都很复杂,这里介绍比较简单的 ? 雷达图 ? 例:中国传媒大学广告学院广告专业学生针对广告 作品的效果评价进行的调查,让被调查者对12副广 告的各个指标进行评分,并给出一个总印象的评价 ,然后问被调查者记住了没有等,部分数据如下: 四、聚类分析? 图示法? 雷达图变量 ① ② ③ ④ ⑤ ⑥ ⑦ 构思X1 9.0 8.0 6.0 6.0 9.5 5.0 8.5 图像X2 8.5 8.0 8.0 6.0 8.5 4.0 7.5广告评价数据色彩X3 9.0 4.0 5.5 2.5 8.5 3.0 5.0 文字X4 9.5 4.0 5.5 2.5 8.5 3.0 5.0 效果 印象 好 较好 较好 不好 好 不好 较好 记忆 记住了 没记住 没记住 没记住 记住了 没记住 没记住 四、聚类分析? 图示法? 雷达图 ? 将“印象”分为三级:好―3,一般―2,不好―1 ;将“记忆”分为两级:记住了―1,没记住―2.广告评价数据变量 ① ② ③ ④ ⑤ ⑥ ⑦ 构思X1 9.0 8.0 6.0 6.0 9.5 5.0 8.5 图像X2 8.5 8.0 8.0 6.0 8.5 4.0 7.5 色彩X3 9.0 4.0 5.5 2.5 8.5 3.0 5.0 文字X4 9.5 4.0 5.5 2.5 8.5 3.0 5.0 效果印象3 2 2 1 3 1 2记忆2 1 1 1 2 1 1 四、聚类分析? 图示法? 雷达图由图看出, 图片1和5相 似,2、3和7 相似,4和6 相似。 因此聚类结 果为{1,5}、 {2,3,7}、 {4,6}记忆X6 构思X1 10.0 8.0 6.0 4.0 2.0 0.0 图像X2 ① ② ③ ④ ⑤ ⑥ ⑦按照6个变量作图印象X5色彩X3文字X4 五、SPSS实现 1类2类
更多搜索:
All rights reserved Powered by
文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 excel组距分组 的文章

 

随机推荐