python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)
(2)目的:将(具有错综复杂关系的)变量 综合为 (数量较少的) 因子
以再现 原始变量与因子的关系, 通过不同的因子,对变量进行分类
选取因子分析的变量(选相关性较大的,利于降维)――标准化处理;
根据样本、估计随机向量的协方差矩阵或相关矩阵;
选择一种方法――估计因子载荷阵,计算关键统计特征;
进行因子旋转,使因子含义清晰化,并命名,利用因子解释变量的构成;
计算每个因子在各样本上的得分,得出新的因子得分变量――进一步分析。
检验变量间偏相关度KMO值>0.6,才适合做因子分析;
调整因子个数,显示共同特征后即可命名。
1.主成分分析与因子分析各自特点
spss-因子分析/主成分分析-乳腺癌细胞
KMO指数>0.8,说明变量共线性很强,适合因子分析或主成分分析
Bartlett的sig显著性为0,说明也OK,只是bartlett在某些场景参考意义不大
从方差解释来看,癌细胞受到6个因子共同决定,而非单一因素决定,和之前蒙特卡洛模拟结论一致
随机森林测试和因子分析的方差解释相差较大,随机森林更加准确,因子分析方差解释仅做参考
旋转后因子图,经过和主成分比较,旋转后因子成分变量参数很多大于0.9,比较显著,主成分中大于0.9的变量很少
随机森林测试结果,1000颗树