数据降维和特征向量降维选取有什么区别

(风飞的日子)
(累了歇会)
第三方登录:君,已阅读到文档的结尾了呢~~
类别不均衡数据的特征选择与重用,市场均衡的主要特征,最优选择与一般均衡,不均衡载荷系数的选择,均衡器 选择,特征选择,特征选择方法,特征选择算法,特征选择的方法,随机森林 特征选择
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
类别不均衡数据的特征选择与重用
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口数据分析:常用的降维方法
主成分分析
主成分分析(Principal Component
Analysis,PCA)也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
  在统计学中,主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。
主成分分析的主要作用
  1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替
高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即
m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。
  2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。
  3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。
  4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。
  5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。
主成分分析法的计算步骤
1、原始指标数据的采集p 维随机向量x&= (x1,X2,...,Xp)T)n 个样品xi&= (xi1,xi2,...,xip)T&,i=1,2,…,n,
  n>p,构造样本阵,对样本阵元进行如下标准化变换:
  其中,得标准化阵Z。
  2、对标准化阵Z 求矩阵
  其中,&。
  3、解样本相关矩阵R 的特征方程得p
个特征根,确定主成分
  按&确定m
值,使信息的利用率达85%以上,对每个λj, j=1,2,...,m, 解方程组Rb&= λjb得单位特征向量&。
  4、将标准化后的指标变量转换为主成分
  U1称为第一主成分,U2&称为第二主成分,…,Up&称为第p
  5 、对m 个主成分进行综合评价
  对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。
如果看到这里还是不明白 主成分分析怎么做,请参考:
 因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。
因子分析法的步骤
  (1)对数据样本进行标准化处理。
  (2)计算样本的相关矩阵R。
  (3)求相关矩阵R的特征根和特征向量。
  (4)根据系统要求的累积贡献率确定主因子的个数。
  (5)计算因子载荷矩阵A。
  (6)确定因子模型。
  (7)根据上述计算结果,对系统进行分析。
如果不明白主成分分析法和因子分析法的区别,请参考:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。统计学基础(贾俊平)课后简答题;第一章;1.什么是统计学?统计方法可以分为哪两大类?;统计学是收集、处理、分析、解释数据并从数据中得出;2、统计数据可分为哪几种类型?不同类型的数据各有;按照所采用的计量尺度不同,分为分类数据、顺序数据;按计量尺度分时:分类数据中各类别之间是平等的并列;3.举例说明总体、样本、参数、统计量、变量这几个;总体是包含所研究的全部个
统计学基础(贾俊平)课后简答题
1.什么是统计学?统计方法可以分为哪两大类?
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。统计方法可以分为描述统计和分类统计。
2、统计数据可分为哪几种类型?不同类型的数据各有什么特点?
按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。
按计量尺度分时:分类数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。按收集方法分时:观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。按被描述的对象与时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。
3.举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含所研究的全部个体(数据)的集合
样本是从总体中抽取的一部分元素的集合
参数是用来描述总体特征的概括性数字度量
统计量是用来描述样本特征的概括性数字度量
变量是说明现象某种特征的概念。 对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
4.什么是有限总体和无限总体?举例说明。
根据总体所包含的单位数目是否可数可以分为有限总体和无限总体。总体的范围能够明确确定,而且元素的数目是有限可数的。比如,由若干个企业构成的
总体就是有限总体,一批待检验的灯泡也是有限总体。无限总体是指总体所包括的元素是无限的,不可数的。例如,在科学试验中,每一个试验数据可以看作是一个总体的一个元素,而试验可以无限地进行下去,因此由试验数据构成的总体就是一个无限总体。
5.变量可分为哪几类?
分类变量:说明事物类别的一个名称。
顺序变量:说明事物有序类别的一个名称。
数值型变量:说明事物数字特征的一个名称。
离散型变量:只能取可数值的变量。
连续型变量:可以在直线上或区间中去任何值的变量。
6.举例说明离散型变量和连续型变量。
离散型变量:只能取有限个值,取值以整数位断开。如企业数、产量数量 连续型变量:取值连续不断,不能一一列举,如年龄、温度
1.数据的预处理包括哪些内容?
数据审核(完整性和准确性;适用性和实效性),数据筛选,数据排序等。
2.直方图与条形图有什么区别?
条形图中每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列的,而条形图是分开排列的。最后,条形图主要用于展示定性数据,而直方图则主要用于展示定量数据。
3.饼图与环形图有什么不同?
饼图是用圆形及圆内扇形的面积来表示数值大小的图形,它主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。环形图与饼图类似,但它们之间也有区别。饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于我们进行比较研究。
4.茎叶图与直方图相比有什么优点?
直方图看数据的分布很方便,但原始数据看不至到了茎叶图则不同,它不仅可以看出数据的分布,又能给出每一个原始数值,即保留了原始数据的信息。制作茎叶图不需要对数据进行分组 ,特别是当数据量较少时,用茎叶图更容易观察数据的分布。 ”
5.使用图表应注意哪些问题?
(1)显示数据。(2)让读者把注意力集中在图形的内容上,而不是在制作图形的程序上(3)避免歪曲!(4)强调数据之间的比较。(5)服务于一个明确的目的。(6)有对图形的统计描述和文字说明。
1.一组数据的分布特征可以从哪几个方面进行测度?
数据分布的特征主要从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢E或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。
2.简述四分位数的计算方法。
四分位数是一组数据排序后处于25%和75%位置上的值。根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。
3.对于比率数据为什么采用几何平均? 答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均。在实际应用中,对于比率数据的平均采用几何
平均要比算数平均更合理。从公式
平均增长率。
4.简述众数、中位数和平均数的特点和应用场合。 中也可看出,G就是
答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影
响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。
众数是一组数据中出现次数最多的数,不受极端值的影响,缺点是具有不唯一性。众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受极端值的影响。当数据的分布偏斜较大时,使用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。
平均数对数值型数据计算的,而且利用了全部数据信息,在实际应用中最广泛。当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但平均数易受极端值的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。
5.简述四分位差、方差或标准差的适用场合。
对于顺序数据主要使用四分位差来测量其离散程度;对于数值型数据,主要使用方差或标准差来测量其离散程度。
6.标准分数有哪些用途?
标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据
7.为什么要计算离散系数? 答:在比较两组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。 方差和标准差是反映数据分散程度的绝对值,一方面其数值大小受原变量值本身水平高低的影响,也就是与变量的平均数大小有关;另一方面,它们与原变量的计量单位相同,采用不同计量单位的变量值,其离散程度的测度值也就不同。因此,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
1、解释抽样推断的含义。
如果我们掌握了所研究的总体的全部数据,那么只需要做一些简单的统计描述就可以得到有关总体的数量特征,比如,总体的均值、方差、比例等。但现实的情况则比较复杂,有些现象的范围比较广,不可能对总体中的每个单位都进行测定。或者有些总体的单位数很多,不可能也没有必要进行一一测定。这就需要从总体中抽取一部分单位进行调查,进而利用样本本提供的信息来推断总体的数量特征。
2、3.解释简单随机抽样、分层抽样、系统抽样和整群抽样的含义。
简单随机抽样:从含有N个元素得总体中,抽取n个元素作为样本,使得每一个容量为n得样本都有相同得机会(概率)被抽中,这样的抽样方式称为简单随机抽样,也称纯随机抽样。
分层抽样:在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本,这样的抽样方式称为分层抽样,也称分类抽样。特点:(1)除了可以对总体进行估计外,还可以对各层的子总体进行估计。(2)分层抽样可以按自然区域或行政区域进行分层,使抽样的组织和实施都比较方便(3)分层抽样的样本分布在各个层内,从而使样本在总体中的分布比较均匀。(4)分层抽样可以提高估计的精度。
系统抽样:先将总体各元素按某种顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。这样的抽样方式称为系统抽样。也称等距抽样或机械抽样。特点:(1)简便易行。(2)系统抽样的样本在总体中的分布一般也比较均匀,由此估计的误差通常要小于简单随机抽样。
整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,再对抽中的各个群中所包含的所有元素进行观察,这样的抽样方式称为整群抽样。特点:不需要有总体元素的具体名单而只要有群的名单就可以进行抽样而群的名单比较容易得到。此外,整群抽样时群内各元素比较集中对样本进行调查比较方便,节约费用。当群内的各元素存在差异时,整群抽样可以提供较好的结果,理想的情况是每一群都是整个总体的一个缩影。在这种情况下,抽取
包含各类专业文献、各类资格考试、生活休闲娱乐、高等教育、行业资料、统计学简答题答案26等内容。 
 统计学简答题答案_管理学_高等教育_教育专区。统计学的20个题的答案 1.“统计 一词有哪些含义?什么是统计学? 统计”一词有哪些含义 什么是统计学? 统计 一词...  第一章思考题 1.1 什么是统计学 统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据 并从中得出结论。 1.2 解释描述统计和推断统计 描述...  统计学简答题参考答案_经济学_高等教育_教育专区。统计学简答题参考答案 第一章 绪论 1.什么是统计学?怎样理解统计学与统计数据的关系? 答:统计学是一门收集、...  统计学试题库及答案_管理学_高等教育_教育专区。《 统 计 学 》试 题库 答案在最后面, 答案仅供参考知识点一: 统计基本理论和基本概念 一、填空题 1、统计...  统计学简答题参考答案 6页 4下载券统​计​学​简​答​题​及​答​案 暂无评价|0人阅读|0次下载|举报文档2010 至 2011 年学年第二学期 思考...  统计学期末考试试题(含答案)_经济学_高等教育_教育专区。统计学去年试题 1、一个统计总体( ) A、只能有一个标志 B、只能有一个指标 C、可以有多个标志 D、...  统计学简答答案 1.一组数据的分布特征可以从哪几个方面进行描述? 数据分布的特征可以从三个方面进行测度和描述: (1)分布的集中趋势,反映各数据向其中心值靠拢或...  山大管院统计学简答题答案_管理学_高等教育_教育专区。统计学简答题答案 1.什么是统计学? 其产生和发展的历程有哪些? 统计学是一门收集、整理、显示和分析统计数...  统计学原理课后简答题答案_理学_高等教育_教育专区 暂无评价|0人阅读|0次下载|举报文档 统计学原理课后简答题答案_理学_高等教育_教育专区。统计学原理简答题 1....

我要回帖

更多关于 特征选择和降维 的文章

 

随机推荐