主成分分析得分图为负值,怎么解释

DOI:10.ki.tjyj;理论新探;对主成分分析法运用中十个问题的解析;林海明;(广东商学院经济贸易与统计学院,广州510320;摘要:主成分分析的应用十分广泛,但由于有关文献没;价步骤,以至应用主成分分析法进行综合评价时出现一;关键词:主成分分析;综合评价;步骤;问题;解析中;文献标识码:A;文章编号:1002-6487(2007)
DOI:10.ki.tjyjc.
对主成分分析法运用中十个问题的解析
(广东商学院经济贸易与统计学院,广州510320)
摘要:主成分分析的应用十分广泛,但由于有关文献没有完整、系统地阐述主成分分析的综合评
价步骤,以至应用主成分分析法进行综合评价时出现一些问题和困难。据归纳,有10个问题经常出现。本文对这些进行了逐一解析,提出了主成分分析法使用中的建议与综合评价步骤,并以实例说明它的有效性。
关键词:主成分分析;综合评价;步骤;问题;解析中图分类号:O212
文献标识码:A
文章编号:1002-6487(2007)08-0016-03
问题①解析:主成分分析法是一种综合评价方法,是通
主成分分析法在综合评价中出现的一些问过样品的相对位置,比较找出样品的优势、不足、差距状况及其原因,如果指标体系方向不是正向化的,便得不出有效结适度指论。因此,分析中必须对指标体系中的强度逆向指标、
在社会经济、管理、自然科学等众多领域的多指标体系生态环境可持续型指标体系、和中,如节约型社会指标体系、
谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控。
主成分分析法的理论与计算是较成熟的,但在解决实际问题中,主成分分析法的应用并没有达到较成熟状态。据归纳,一些使用者在应用主成分分析法进行综合评价时,出现以下10个问题不明确:
标进行正向化。
强度逆向指标xj正向化公式[3]:
xij>0
1/(max|xij|+xj+1)xij中有0或有负数
适度指标xj正向化公式[3]:1/(|xj-E|+1),E为理想值。这里xij为第i个样品第j个指标的观测值。
标准化随机变设X=(x1,…,xP)T(T为转置符号)为正向化、
量向量(p≥2),R为相关系数矩阵,秩(R)=r(R的非零特征根个数),R的特征值为λ…、λλ0,λ1、2、r、1≥λ2≥…≥λr>0,前m个单位正交特征向量矩阵Am=(α1,...,αm)=(αij)p×m,主成分向量
①原始数据没有正向化,有何影响?如何正向化?②原始变量表示主成分的系数平方和不是1对吗?
③主成分分析法的主成分正交旋转后会怎样?④主成分分析法的主成分有必要回归计算吗?⑤主成分分析法与正交因子分析法能混合使用吗?⑥何时使用主成分分析法?
⑦主成分分析法有时会丢失一些原始变量的原因是什么?⑧主成分如何命名,并能保持原始变量与多个主成分的
内在关系?
Fm=(f1,…,fm)T。
性质[1]
变量X与主成分fi的相关系数bI=#i=αi,即
变量X与主成分Fm的相关系数阵(初始因子载荷阵):B0=
($1α1,...,$mαm)=(b1,...,bm)。
主成分解(Hotelling,1933):fi=α,i,i=1,…,m。iXVarfi=λ问题②解析:主成分fi中变量x的系数向量α是(R的i
特征值λi的相应)单位正交特征向量,即主成分中变量X的系数平方和全部是1,αj=0,i≠j,如果不符合这个条件就是iα错的,同时有:
⑨前m个主成分仍然是多因素,仅用综合主成分进行综
合分析客观吗?
⑩综合评价结果,如何能深入到决策相关性程度?
有关文献并没有清楚地阐述上述问题,以至应用主成分分析法进行综合评价时,不易把握。本文除了逐一解析上述问题外,还给出了主成分分析法使用中的建议与综合评价步骤,并以实例说明它的有效性。
fi=(bi/$i)'X,i=1,…,m。
问题③解析:主成分解的公式对主成分是无旋转的,即主成分分析法中对主成分没有旋转。如果对主成分进行正交旋转,原始变量的线性组合会发生改变,该线性组合不能达到方差的最大化,这已不是主成分分析的结果了。
问题④解析:主成分解的公式是直接的表达式,主成分
2主成分分析法综合评价中10个问题的
基金项目:广州市哲学社会科学规划资助项目(06YZ140);广东商学院经济贸易与统计学院2006年资助课题
统计与决策2007年8月(理论版)
分析法中的主成分解是完全没有必要进行回归计算的。
问题⑤解析:主成分fi与正交因子zi有,Varfi=λi,Varzi=
分进行分析,便得出了可靠的决策相关性分析,达到了数据分析的目的。
将主成分对应替换为相应原始变量进行数据
可靠的决策相关性分析。分析,得出的就是客观、
1,主成分分析法中没有旋转,即主成分fi与正交因子zi的取
两种方法应用值范围、旋转方向不同,故样品计量值不相等、条件不相同,混淆在一起是样品计量值、旋转方向交替错误
(具体异同见文献[4]),故不论何条件,有:
结论2用。
问题⑥解析:主成分分析法的优点是,对原始变量具有综合性的降维能力;如果B0中每行的系数绝对值往0或1靠近得较多(与旋转后因子载荷阵B0C[1]比较),即主成分命名、解释原始变量清晰,同时主成分Fm解释原始变量X的信息误差(∑i=m+1λi)达到最小,使用主成分分析法最好。
当原始变量之间有相关性,B0中每行的系数绝
对值往0或1靠近得较多(与旋转后因子载荷阵B0C比较),则使用主成分分析法。
问题⑦解析:m按某个累积贡献率确定,当λ第m+1m>1、个单位特征向量αm+1的第t个元素atm+1≥0.9时,则Fm中不能解释原始变量xt,这是主成分分析法有时会丢失一些原始变量解释的主要原因。因为初始因子载荷阵B0是变量X与主成分Fm的相关系数阵,如果B0每行中至少有一个系数绝对值足够大(≥0.5),则主成分Fm不会丢失原始变量的解释,故有:
如果B0每行中至少有一个系数绝对值足够大
3主成分分析法综合评价步骤
主成分分析法与正交因子分析法不能混淆使
①指标的正向化(单独计算);
②指标数据标准化(SAS软件自动执行);
③指标之间的相关性判定:用SAS软件的Correlations
(相关系数矩阵R)判定,若变量间有相关性,主成分分析继
续;否则,直接进行逐个指标分析,用∑i=1进行综合分析(xi是正向化、标准化的);
单位正交特征向量矩④求相关系数矩阵R的特征值λi、阵αi,变量X与主成分Fm的相关系数阵(初始因子载荷阵,
SAS软件因子分析过程命令中的FactorPattern);
⑤与旋转后因子载荷阵B0C(SAS软件因子分析过程命
令中的RotatedFactorPattern)比较,若B。中每行的系数绝对值往0、1靠近较多,则用主成分分析法(结论3);
⑥确定主成分个数m:以B0每行中至少有一个系数绝
对值足够大(≥0.5)确定(结论4);
⑦主成分fi的命名:将B0的第i列bi绝对值大(≥0.5)的
对应变量归为fi一类,由这些变量对主成分fi进行命名(结论5);
(≥0.5),m便是主成分的确定个数,此时主成分Fm不会丢失
原始变量,能达到最大限度降维的目的。
问题⑧解析:B0的第i列bi是原始变量X与主成分fi的相关系数,绝对值大(≥0.5)的对应变量与fi相关性高,而以fi中X的系数向量αi对主成分fi进行命名不能判断出原始变量X与主成分fi的相关性,这样主成分分析法有时会失去一些原始变量与多个主成分的内在关系,因此有:
⑧前m个主成分函数:fi=αi)'X,i=1,…,m(主iX=(bi/#成分X的系数平方和是1、无旋转、无回归,zi为未旋转因子得分,结论1);
⑨综合主成分函数F综=∑i=1(λi/p)fi;
1对前m个主成分的样品值进行排序,用SAS软件iml0/
模块计算综合主成分F综的样品值并排序;
1用前m个主成分的样品值做聚类分析,按综合主成分2/
值相应顺序给出分类结果(结论5);
1结合前m个主成分样品值的聚类分析结果,主成分、3/
综合主成分样品值和排序,主成分、综合主成分与原始变量的对应关系,进行优势、劣势、潜力、差距状况和原因等的综合评价,给出决策相关性建议(结论5、结论6)。
B0的第i列绝对值大(≥0.5)的对应原始变量归
为主成分fi一类,并由这些变量对fi命名,这样主成分分析法不会失去一些原始变量与多个主成分的内在关系。
问题⑨解析:前m个主成分的样品值反映的是n个样品在m个主成分中的相对位置,表现出样品的优势、劣势、差距状况等,且没有相关性,分析问题可靠性高,仅用综合主成分进行综合分析失去的就是这些内在因素,以致不客观,因此,应将前m个主成分、综合主成分的样品值结合起来分析才是客观的、可靠的。但样品数量较多,逐个分析看不出共性规律,为此,对无相关性的前m个主成分样品值进行聚类分析,并按综合主成分值相应顺序给出分类,便找出了样品之间具有可靠性的共性规律,故有:
对无相关性的前m个主成分样品值进行聚类
分析,按综合主成分值相应顺序给出分类,能可靠地反映样可靠地进行样品共性的分析。品之间的共性规律,便于客观、
问题⑩解析:主成分分析、聚类分析给出了样品客观、可靠的个性与共性特征,但主成分有综合性,决策相关性有待与原始指标结合起来。注意到主成分是按相关性高的原始变量进行归类命名的,故将相应原始变量对应替换为相应主成
4实证应用:安徽省各地市经济发展综合评
现以文献[2]数据为例,指标选取为:X1-城镇单位在岗职工平均工资(元),X2-固定资产投资(万元),X3-进口总额(万美元),X4-社会消费品零售总额(万元),X5-工业增加值(亿元),X6-财政收入(亿元);城市为17个:合肥市、淮北市、亳州市、宿州市、蚌埠市、阜阳市、淮南市、滁州市、六安市、马鞍山市、巢湖市、芜湖市、宣城市、铜陵市、池州市、安庆市和黄山市。原始数据见文献[2]。
①指标都是正向的,直接使用;
②调用SAS软件的主成分分析过程命令,输入原始数
统计与决策2007年8月(理论版)
据,数据标准化自动执行;
表2城市合肥市马鞍山芜湖市淮南市安庆市蚌埠市宣城市淮北市铜陵市滁州市巢湖市阜阳市六安市黄山市宿州市池州市亳州市
主成分值、综合主成分值及排序
③变量有相关性(相关系数矩阵R略),继续;
④相关系数矩阵R的特征值:λλ1=4.6412321、2=
…,相应单位正交特征向量矩阵(见第8步f1、1.1006631、f2、
…表达式中X的系数),初始因子载荷矩阵B0(表1);
⑤与旋转后因子载荷阵B0C(SAS软件因子分析过程命令中的RotatedFactorPattern)比较,B0中每行的系数绝对值往0、1靠近较多,故用主成分分析法;
⑥B0每行中至少有一个系数绝对值足够大(≥0.5),所以m=2,前两个主成分的累计方差贡献率已达到95.7%;
⑦第一个主成分f1与X2-固
表1初始因子载荷阵定资产投资,X3-进口总额,X4-社
FactorPattern
会消费品零售总额,X5-工业增加
Factor2Factor1
值,X6-财政收入十分显著地正相0.79515x10.57994
-0.04923x20.98026关,故称f1为生产总量成分;第二-0.16804x30.95613个主成分f2与X1-城镇单位在岗
0.761680.929080.99320
-0.600470.27340-0.04919
f17.112761.843842.30617-0.126160.420010.22308-0.52566-0.77301-0.80935-0.61361-0.86366-0.78570-0.91152-1.48609-1.54819-1.79223-1.67067
1326457911812101314151716
f2-1.057532.785390.313951.50569-0.84506-0.392380.095390.797390.62634-0.71968-0.33622-1.35248-0.887230.39334-0.444360.36983-0.85238
1617213108341291715511614
F综5.30711.9372441.8415040.178620.169870.100581-0.38912-0.45168-0.51117-0.60667-0.72975-0.85587-0.86785-1.07739-1.2791-1.31852-1.44869
1234567891011121314151617
职工平均工资十分显著地正相关,注意到它受X4-社会消费品零售总额的负影响也很大,故称f2为生
合肥市在保持生产总量成分f1中X2-各市固定资产投资(第1),X3-各市进口总额(第1),X4-社会消费品零售总额(第1),X5-各市工业增加值(第1),X6-财政收入(第1)优势的同时,如果能够进一步结合劳动生产率、成本费用利润率(此说明文献[2]漏选了指标:劳动生产率、成本费用利润率,致使工资与消费的协调性无法分析)协调生活成分f2中X1-城镇单位在岗职工平均工资与X4-社会消费品零售总额的良性关系,将对经济有更大的促进作用。
第二类的马鞍山市、第三类的芜湖市综合评价、建议方法与第一类的合肥市类似,此略。
第四类城市淮南市、宣城市、淮北市、铜陵市、黄山市和池州市综合主成分F综值排名依次是4、7、8、9、14和16。它们的生产总量成分f1排名依次是6、7、9、11、14、17,均低于平均水平,生活成分f2排名依次是2、8、3、4、5、6,均高于平均水平。共性原因为该类城市生活成分f2中X1-城镇单位在生产总量成分f1中X4-社会消费岗职工平均工资列前10名、
品零售总额列第10之后,即该类城市是工资较高、生产总量水平低、消费不足的城市。个性原因及问题:如淮北市生活成分f2中X1-城镇单位在岗职工平均工资(第4:13379元)、X4-社会消费品零售总额(第14:456100万元),生产总量成分f1排名差异大(第9),其中X2-各市固定资产投资为(第14:
活成分。内在关系:社会消费品零售总额X4对生产总量成分对生活成分f2有较大的负影响,城镇f1有较大的促进作用、
单位在岗职工平均工资X1对经济总量成分f1有正常的促进作用、对生活成分f2是直接的正的影响;
⑧主成分函数(xi为Xi的标准化变量):
f1=0.269x1+0.455x2+0.444x3+0.354x4+0.431x5+0.461x6f2=0.758x1-0.047x2-0.16x3-0.572x4+0.26x5-0.047x6
⑨综合主成分函数:F综=(4.6412321f1+1.1006631f2)/6;
综合主成分样品值及排序见表3(综合主成⑩主成分、
分值SAS软件iml模块计算);
,调用SAS软件的聚类分析过程命令,选用欧氏距离和+*
类平均法,通过表2两个主成分f1、f2的样品值对17个城市进行聚类。取分类阈值为1.5时,分成五类,聚类结果如下:
第一类:合肥市;第二类:马鞍山市;第三类:芜湖市;第四类:淮南市,淮北市,宣城市,铜陵市,黄山市和池州市;第五类:蚌埠市,安庆市,滁州市,巢湖市,六安市,阜阳市,宿州市和亳州市。
,结合前2个主成分样品值的聚类分析结果,主成分、-*
综合主成分样品值和排序,主成分、综合主成分与原始变量的对应关系,进行优势、劣势、潜力、差距状况和原因等的综合评价,给出决策相关性建议。评价中注意:主成分函数f1、f2表明了X4-社会消费品零售总额一方面对总量成分f1有促进作用(影响系数为0.354),另一方面对工资与消费成分f2有负影响作用(影响系数为-0.572)。
第一类的合肥市综合主成分F综值排第1(5.307)。其生产总量成分f1得分值排第1(7.113),优势相当明显,可生活成分f2排在倒数第2(-1.058)。原因及问题:生产总量成分f1中X4-社会消费品零售总额为2397739万元列第1,生活成分f2中X1-城镇单位在岗职工平均工资为162369元列第3,即合肥市是生产总量、消费高但平均工资不是太高的城市。综合函数值中,生产总量成分f1综合值为5.502,而生活成分f2有综合抵减值0.194(抵减率3.526%),带来了不良影响。
566257万元)、X3-各市进口总额为(第13:4744万美元)、X6-
财政收入为(第9:202637亿元)等。
以上分析及结论,找到了研究对象的优势、不足、差距状况和原因等,用具有可控性的原始指标给出了可靠的决策相关性建议,对指标体系选取的代表性具有可验证性,使主成分分析法的应用得到深入。
参考文献:
[1]于秀林,任雪松编著.多元统计分析[M].北京:中国统计出版社,1999.5.
[2]宋马林.安徽省各地市经济发展评价[J].统计教育,2006,(4).[3]陈迪红,李华中,杨湘豫.行业景气指数建立的方法选择及实证分析[J].系统工程,2003,(4).
[4]林海明,张文霖.主成分分析与因子分析的异同和SPSS软件[J].统计研究,2005,(3).
(责任编辑/李友平)
统计与决策2007年8月(理论版)
包含各类专业文献、中学教育、幼儿教育、小学教育、各类资格考试、专业论文、应用写作文书、文学作品欣赏、10对主成分分析法运用中十个问题的解析等内容。
 少数几个因子,如何使因子具有一定的命名解释性的多元...基本原理主成分分析是数学上对数据降维的一种方法。...中,即 F2 与 F1 要保持独 立、不相关,用数学...  主成分分析法总结在实际问题研究中,多变量问题是经常...几个因子,如何使因子具有一定的命名解释性的多元统计...的信息, 所以决定用两个新变量来代替原来的 十个...  在用统计方法研究 多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性...a. 已提取了 3 个成份。 从“解释的总方差”一表中可以得出相关系数矩阵的...  中的应用 1.学习目的 1.理解主成分分析的基本思想; 2.会用SAS软件编写相关程序,对相关数据进行主成分分析; 3.会用SAS软件编程结合主成分分析方法解决实际问题。...  6.10 根据习题 5.10 中 2003 年我国省会城市和计划单列市的主要经济指标数据,利用主成 分分析法对这些地区进行分类。 解:用 SPSS 进行主成分分析的具体方法...  主成分分析法总结_数学_自然科学_专业资料。主成分分析法:简介 在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。 人们自然希望变量个数较少...  对主成分分析法的认识 一.主成分分析法定义主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在实证问题研究中,为了全面、系统地分...  《数据处理方法》课程论文 论文题目: 主成分分析在综合评价中的应用 成员 1: ...Classification 1.问题描述经济数据分析结果对国家的宏观调控与企业决策有着至关...对主成分分析中综合得分方法的质疑(王学民)_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
对主成分分析中综合得分方法的质疑(王学民)
上传于||暂无简介
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩2页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢 上传我的文档
 下载
 收藏
本人资料一部分是自己原创,一部分来源于网络,若您发现侵犯您个人权利的,请留言联系我,我立马删除。
 下载此文档
正在努力加载中...
主成分分析综合评价应该注意的问题
下载积分:350
内容提示:主成分分析综合评价应该注意的问题
文档格式:PDF|
浏览次数:168|
上传日期: 08:58:09|
文档星级:
该用户还上传了这些文档
主成分分析综合评价应该注意的问题
官方公共微信

我要回帖

更多关于 主成分分析法综合得分 的文章

 

随机推荐