有人会spss因子分析的基础分析吗

spss中数据不服从正态分布怎么做相关性分析,有人说数据量大于50可以不考虑是不是服从正态分布(400个数据_百度知道
spss中数据不服从正态分布怎么做相关性分析,有人说数据量大于50可以不考虑是不是服从正态分布(400个数据
2?可以采用其他的软件么
,这说明相关么还有p值为0.1-0,但r值只有0
提问者采纳
1-0.2的话意义不是很大了相关分析的结果只是提示作用,可以不考虑你考虑的话也不会错。正态性的话还是要看的,0
提问者评价
其他类似问题
为您推荐:
正态分布的相关知识
其他3条回答
可以先把数据标准化
转化为Z分数 在做相关看看
你的相关系数太低了
数据都是标准化了的 可能是相关性不强
那个就没有办法了 那就说明本身关系真的不强了
可以不考虑是否正态,P=0.00表示有相关了,不过0.1几的r确实是低,
可以考虑使用非参数检验
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁下面使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。
Target Mail数据在SQL Server样本数据库AdventureWorksDW中的dbo.vTargetMail视图,关于Target Mail详见:
或者我之前的随笔:
1. 定义数据源
将一个Datebase源组件加入到数据流设计区,双击组件,设置数据源为dbo.vTargetMail视图。在Types栏中点“Read Values”,会自动读取数据个字段的Type、Values等信息。Values是字段包含的值,比如在数据集中NumberCardsOwned字段的值是从0到4的数,HouseOwnerFlag只有1和0两种值。Type是依据Values判断字段的类型,Flag类型只包含两种值,类似于boolean;Set是指包含有限个值,类似于enumeration;Ragnge是连续性数值,类似于float。通过了解字段的类型和值,我们可以确定哪些字段能用来作为预测因子,像AddressLine、Phone、DateFirstPurchase等字段是无用的,因为这些字段的值是无序和无意义的。
Direction表明字段的用法,“In”在SQL Server中叫做“Input”,“Out”在SQL Server中叫做“PredictOnly”,“Both”在SQL Server中叫做“Predict”,“Partition”用于对数据分组。
2. 理解数据
在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分布,它们之间是否隐含着相关性等信息。只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法参数。
在除了在建立数据源时Clementine能告诉我们值类型外,还能使用输出和图形组件对数据进行探索。例如先将一个统计组件和一个条形图组件拖入数据流设计区,跟数据源组件连在一起,配置好这些组件后,点上方绿色的箭头。等一会,然后这两个组件就会输出统计报告和条形图,这些输出会保存在管理区中(因为条形图是高级可视化组件,其输出不会出现在管理区),以后只要在管理区双击输出就可以看打开报告。
3. 准备数据
将之前的输出和图形工具从数据流涉及区中删除。
将Field Ops中的Filter组件加入数据流,在Filter中可以去除不需要的字段。我们只需要使用MaritalStatus、Gender、YearlyIncome、TatalChildren、NumberChildrenAtHome、EnglishEducation、EnglishOccupation、HouseOwnerFlag、NumberCarsOwned、CommuteDistance、Region、Age、BikeBuyer这些字段。
加入Sample组件做随机抽样,从源数据中抽取70%的数据作为训练集,剩下30%作为检验集。
注意为种子指定一个值,学过统计和计算机的应该知道只要种子不变,计算机产生的伪随机序列是不变的。因为要使用两个挖掘模型,模型的输入和预测字段是不同的,需要加入两个Type组件,将数据分流。
决策树模型用于预测甚麽人会响应促销而购买自行车,要将BikeBuyer字段作为预测列。神经网络用于预测年收入,需要将YearlyIncome设置为预测字段。有时候用于预测的输入字段太多,会耗费大量训练时间,可以使用Feature Selection组件筛选对预测字段影响较大的字段。
从Modeling中将Feature Selection字段拖出来,连接到神经网络模型的组件后面,然后点击上方的Execute Selection。Feature Selection模型训练后在管理区出现模型,右击模型,选Browse可查看模型内容。模型从12个字段中选出了11个字段,认为这11个字段对年收入的影响比较大,所以我们只要用这11个字段作为输入列即可。将模型从管理区拖入数据流设计区,替换原来的Feature Selection组件。
加入Nearal Net和CHAID模型组件,在CHAID组件设置中,将Mode项设为”Launch interactive session”。然后点上方的绿色箭头执行整个数据流。Clementine在训练CHAID树时,会开启交互式会话窗口,在交互会话中可以控制树生长和对树剪枝,避免过拟合。如果确定模型后点上方黄色的图标。完成后,在管理区又多了两个模型。把它们拖入数据流设计区,开始评估模型。
5. 模型评估
修改抽样组件,将Mode改成“Discard Sample”,意思是抛弃之前用于训练模型的那70%数据,将剩下30%数据用于检验。注意种子不要更改。我这里只检验CHAID决策树模型。将各种组件跟CHAID模型关联。执行后,得到提升图、预测准确率表……
6. 部署模型
Export组件都可以使用Publish发布数据流,这里会产生两个文件,一个是pim文件,一个是par文件。pim文件保存流的所有信息,par文件保存参数。有了这两个文件就可以使用clemrun.exe来执行流,clemrun.exe是Clementine Solution Publisher的执行程序。Clementine Solution Publisher是需要单独授权的。在SSIS中pim和par类似于一个dtsx文件,clemrun.exe就类似于dtexec.exe。
如果要在其他程序中使用模型,可以使用Clementine执行库(CLEMRTL),相比起Microsoft的ole db for dm,SPSS的提供的API在开发上还不是很好用。
作者:Cheney Shue
转载请注明来自36大数据(): &
除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。苹果/安卓/wp
苹果/安卓/wp
积分 9, 距离下一级还需 1 积分
权限: 设置帖子权限
道具: 彩虹炫, 雷达卡, 热点灯, 雷鸣之声, 涂鸦板下一级可获得
道具: 金钱卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 雷鸣之声, 彩虹炫, 雷达卡, 涂鸦板, 热点灯
苦逼签到天数: 3 天连续签到: 1 天[LV.2]偶尔看看I
我是统计专业的,但是学习不是很好,理论基础不行,各种统计方法呀原理呀什么的都不知道怎么使用,但是我又觉得统计软件很重要很有用,要学习软件的话不会使用原理方法会不会很难很难啊?请告诉我吧,我现在真的很迷茫啊·······
支持楼主:、
购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
载入中......
鼓励积极发帖讨论
总评分:&经验 + 9&
SPSS软件使用比理论好学多了
论坛好贴推荐
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
为做大做强论坛,本站接受风险投资商咨询,请联系(010-)
邮箱:service@pinggu.org
合作咨询电话:(010)
广告合作电话:(刘老师)
投诉电话:(010)
不良信息处理电话:(010)
京ICP证090565号
京公网安备号
论坛法律顾问:王进律师SPSS多选题分析_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
SPSS多选题分析
上传于||文档简介
&&S​P​S​S​关​于​多​选​题​的​处​理​方​式​和​分​析
大小:504.50KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢SPSS做的相关性回归分析,结果如下,求懂的人帮忙具体分析下.对于anova b 和残差尤其不明白,希望能将详细点,
枫岛LO0162
anova b 是对回归关系的方差分析,做的一个F检验,P
为您推荐:
其他类似问题
扫描下载二维码

我要回帖

更多关于 spss相关性分析 的文章

 

随机推荐