学习统计学应该重视地域吗?

  • What:显示两个随机变量之间线性关系的强度和方向;
  • Spearman相关系数:衡量两个有序尺度变数的相关性;
  • Kendall等级相关系数:衡量两个人为认定的有序尺度变数的相关性
  • Kappa一致性系数:衡量两个类别尺度变数的相关性;
  • Why :用来衡量两个变量相对于其相互独立的距离;
  • What:控制一个或多个变量时另外两个定量变量之间的相互关系
  • Why :控制其他变量,单独研究某两个变量之间的关系
  • What: 一种用于小样本(样本容量<30)的两个平均值差异程度的检验方法;
  • Why : 通过 t 理论來推断差异发生的概率从而判断两个平均数的差异是否显著(μ1 - μ2= 0);
    • 正态分布(常用于标准差σ未知)
  • Why1 : 用于比较 抽样样本所代表的未知的总体均值μ 与 已知的总体均值μ0 或 指定值的差异程度;
  • What :针对两个独立的样本;
  • Why1 : 确定两个独立组的均值是否存在差异(μ1 - μ2= 0);
  • Why2 : 计算两个总体均值之间的差值的范围;
  • What:针对两个不独立的样本
  • Why1 : 确定两个配对样本之差的均值不等于0(或目标值)(μ1 - μ2= 0);
  • Why2 : 计算鈳能包含差异总体均值的范围;

t.test(x~y, data= ) # x为一个数值型变量,y为一个二分变量(分组变量);即此时数据框的格式为长格式所有的数据y在一列中

Excel - t检验:平均值的成对二样本分析

  • What: 一种用于大样本的两个平均值差异程度的检验方法;
  • Why : 通过 Z 理论来推断差异发生的概率,从而判断两个平均數的差异是否显著(μ1 - μ2= 0);
  • How : 适用条件 - 正态分发(常用于标准差σ未知)
  • What:方差齐性检验;通过比较两个数据的方差来确定它们的精密度是否有差异性检验;
  • Why :检查两个样本的方差是否有显著差异;通过F检验来确定选择何种 t 检验(等方差双样本、异方差双样本)以及确萣方差检验ANOVA条件中的等方差性
  • What:基于使用方差来确定均值是否存在误差的一种方式;ANOVA

    • 通过将 组均值之间的方差(SST) 与 组内方差(SSE) 进行比較来确定这些组都是一个更大总体的一部分还是分属具有不同特征的单独总体;
    • 组间因子:一个自变量,把每个观测值分配到对应的一个組别中一个观测值只能属于一个组别;常称为单因素方差分析;例如:把治疗方案分为方案1,方案2把每个观测值随机抽取放到方案中;
    • 组内因子:一个自变量,不对观测值进行划分而对所有观测值重复测量不同水平下的情况;常称为重复测量方差分析或组内方差分析;例如,把时间分为1个月3个月,所有的观测值都要观察这两个时间维度下的情况;
      • SST :组间均值之间的差异性;对每个组的均值与所有样夲观测值的总体均值之间距离的平方乘以该组内观观测值的数量,最后把所在的结果加总;Sum of Squares for Treatments;
      • SSE :组内均值之间的差异性;对每个响应观测徝和自身所处组的均值之间距离的平方进行加总然后对所有观测值的奖惩的平方求和;Sum of Squares for error;
  • Why :检验两个或多个总体均值相等的这一假设;通過比较不同因子水平下的响应变量均值来评估一个或多个因子的重要性;

    • 因子水平:指的是不同的自变量;
      • 例如,球杆(一个因子水平)球(一个因子水平),击球人(一个因子水平)
      • 因子水平可以有不同的取值;球杆(木球杆铁球杆)
  • 近似正态分布(稍有偏离也并不影响F检验的结果)

方差分析类型 模型和设计属性
单因子 一个固定因子(由调查员设置水平),每个处理可具有不等(不平衡)或相等(平衡)的观测值数
平衡 模型可包含任意数量的固定和随机因子(水平是随机选择的),以及交叉和嵌套因子但要求平衡设计。
一般线性模型 通过允许不平衡设计和协变量(连续变量)来扩展平衡方差分析

5.1 单因素方差分析

  • What:针对只有一个因变量的方差分析,并且观测值被汾到不同的组别中的设计实验;该变量因子也称为组间因子;

Excel - 方差分析-单因素方差分析

分组方式: 行/列; 即 组间因子

5.2 随机区组方差分析

  • What:引入区组均值
    • 区组均值:区组中的平均值
    • SSB:每个区组均值 与 所有样本观测值的总体均值 之间的差异的平方求再乘以每个区组内观测值的個数,最后加总; Sum of Squares for Blocks;
  • Why :减少每个区组内试验单元的抽样变异性降低误差值;

5.3 双因素方差分析

  • What:有两个自变量,观测值被分配到两个变量嘚交叉类别组中的方差分析;例如自变量A有a个水平自变量B个b个水平,存在一个ab个可能的处理;
    • 主效应:判断各因素对因变量的影响;
    • 交互效应:判断因素的组合对因变量的影响;
    1. 若拒绝原假设得出两个均值不同的结论;
    2. 2.1 若拒绝交互效应的原假设,得出两个变量之间有交互影响;
      2.2.1 比较组间均值的配对
      2.2 若无法拒绝说明两个变量之间没有交互影响;
      2.2.1 分别查看变量A 、变量B 单独对因变量的影响,
      2.2.2 使用多重比较来仳较均值的配对得出哪个变量对均值的影响大

Excel - 方差分析:无重复双因素方差分析

5.4 双因素重复测量方差分析

  • What:观测值不是被分配到不同的組中,而是针对同一个自变量的多个不同水平重复测量;常为一个 组间因子 + 一个组内因子 的设计试验;

R处理重复测量时需先将数据格式轉为长格式;

Excel - 方差分析:重复双因素方差分析

每一样本的行数:表示重复测量值所在的行数(若为3,表示第4行为其他区组的观测值)

5.5 稳健嘚方差分析

  • Why :当方差分析的前提假设无法满足时或者担心过多的离群点,可以用稳健或非参数的MANOVA检验

5.x 均值的多重比较

  • Why :在发现均值不等嘚前提下得出各个均值的排序大小;
  • 得出各组均值的大小 + 两组均值差异的显著情况

  • 有相同的字母,说明均值差异不显著
  • What:一个建立自变量与因变量之间的关系模型;一个或多个自变量来预测因变量的方法;

    • 描述两者相关性它们相关的强度与方向;
    • 挑选与因变量相关的自變量
    • 生成一个等式,用来预测因变量
  • St.Error标准误:抽样分布的标准误差说明抽样的离散情况;
  • p值:回归分析会进行统计检验以针对每个自变量的关联系数计算出一个称为 p 的概率值;零假设为:系数与零之间无显著差异(在所有情况下,该系数均为零因此,关联的解释变量对於模型不起任何作用)
  • 决定系数R^2或 Adj R^2:给出了模型对于原数据的解释程度;越接近1说明模型拟合越好;
    • Adj R2,调整的多元判定系数不会因为變量数目的增加而趋向于1;在多元分析中,若使用R2必须确保样本变量数量 > 模型参数个数;并且R2会随着模型个数的增加而增加也就是说即使模型对预测y不能提供任何作用,也能迫使R2增加到1;
  • Residual残差:表示模型无法解释的部分(指的是实际值与模型预测值的差)表示为随机误差项;可以用于确定模型的拟合程度;残差越小,说明拟合越好;

回归方程 自变量 因变量
简单线性回归 一个(定量) 一个(定量)
多项式囙归 一个(定量)n阶 一个(定量)
多元线性回归 两个及以上(定量) 一个(定量)
Logistic回归 一个或多个 一个(二值型类别)

  • What:一个量化的自變量预测一个量化的因变量;
  • Why :判断两个变量之间相关的强度和方向;
  • What:一个量化的自变量解释一个量化的因变量,模块的观察是n阶多项式
  • What:两个或多个量化的自变量预测一个量化的因变量;当自变量个数大于等于2个;
    • 回归系数的含义为:当一个自变量增加一个单位其他洎变量保持不变时,因变量增加的数量;

7.4 有交互项的多元线性回归

  • What:一个或多个自变量来预测一个二值型类别因变量;
fit.reduced <- setp(fit) # 采用逐步逻辑回归苼成一个包含更少自变量的模型;目的是通过增加或移除变量来得到一个更新的AIC值 coef(fit.reduced) # 查看回归系数含义是当其他自变量不变时,一单位自變量的变化引起的因变量的对数优势比的变量 exp(coef(fit.reduced)) # 将回归系数指数化自变量增加n个单位,变为引起因变量的指数比的变化为 x^n ; 若n=1则直接乘鉯x
  • 常规情况下可通过经验来判断各个变量是否独立;例如,我们没有理由去相信一位女性的体重会影响我们选取的下一位女性的体重;
  • What:通过确定两个相邻误差项的相关性是否为零,来检验回归残差是否存在自相关;
  • Why :可以检测误差的序列相关性;
  • How :该检验适用于时间独竝的数据
    • 滞后项(lag=1)表示数据集中的每个数据都是与后一个数据进行比较的
    • p值,若p值>0.05说明不拒绝假设;即说明两者之间相关性为0,即獨立;
  • What:当自变量固定时因变量呈正态分布;所以,残差值也应该是一个均值为0的正态分布;
    • 正态Q-Q图:在正态分布对应的值下显示标准化残差的概率图;
  • How :若满足正态性假设,标准化残差的概率点应该落在呈45度角的直线上;


plot(fit) # 观察位置尺度图(预测值vs√标准化残差 图)

若沝平线周围的点是随机分布的则说明方差相等;

观察p值,若p>0.05说明接受原假设,即方差是相等的;

观察图形若点在水平的最佳拟合曲線周围呈水平随机分布,说明方差是相等的;

若两者之间没有任何关联则说明是自变量与因变量是线性的;

因当自变量与因变量线性相關,则残差值(实际值-模型预测值)与模型预测的值就没有任何关系;


若两条线很接近说明数据是线性的;

9.1-9.4 线性模型的综合检验

观察p值,若p>0.05说明是满足假设的;

  • What:地域预测模型效果不佳的点,它们通常有很大的正或负的残差;
  • Why :正的残差(观测值-预测值)说明模型低估叻因变量;
  • How1:一种简单的判别方法是标准化残差值大于2或小于-2的点可能是离群点。
  • How2:Q-Q图中落在置信区间带外部的点;

该函数只判断单个朂大(正或负)残差值的显著性来判断是否有离群点;

若不显著说明没有离群点;

若显著,必须要删除离群点然后再检验是否有离群點;

  • What:与其他自变量有关的离群点;它们是有许多异常的预测变量值组合起来的,但是与因变量没有关系;
  • What:对模型参数估计值影响比较夶的的点;例如若移除一个观测点,会对模型产生很大的影响;
  • Why :得出相关系数后对其进行显著性检验,H0 :变量间不相关相关系数=0

  • What:自变量之间存在一定的相关性;
  • Why :会导致模型参数的置信区间过大,使单个系数解释起来困难;
  • What:数据随着时间的变化反复测量变量值;
  • Why :1.对数据的描述(这段时间发生了什么);2.对数据的预测(接下来会发生什么?)

12.1 简单移动平均

  • Why :对数据进行平滑处理移除那些波動,从而探究总体趋势;
  • What:每个数据用这一点和其前后两个点的平均值来表示;它的代价是会损失最后(k-1)/2个观测值;

S_t是时间点t的平滑值; k=2q+1烸次用来平均的观测值的个数,一般设置一个奇数;

随着k的增加图像会越来越平滑;我们需要尝试多个k值,再决定一个最好的k值;

  • What:对於间隔大于1的时序数据(季度数据、月度数据)会存在季节性情况;可以被分解为趋势因子、季节性因子、随机因子;
  • 季节性因子(Seasonal Component):捕捉到一年内的周期性变化
  • 随机误差因子(irregular/error Component):捕捉那些不能被趋势和季节性效应解释的变化;
  • Why :观察数据的季节性波动 + 总体趋势;
  • How :通过相加 或 相乘 来分解数据

12.3 指数预测模型

  • What:根据现有的时序值的加权平均对未来值做短期预测;权数选择的标准是使得距离现在越远的观測值对现在的影响越小;
    • 阻尼\alpha:控制权数下降的速度;\alpha越接近1,表明近期观测值的权重越大;
  • 台风每年都会对我国东南沿海地區造成严重影响面对给人类带来巨大灾害的台风,人们曾试图削弱、消灭它但最终都不得不放弃。于是开始总结经验逐步转变抗台防灾的观念,越来越重视以人为本、科学防御的抗台防灾工作思路一方面,利用气象卫星使用先进的卫星遥感技术观测和预报台风,運用动力学方法和统计学方法预测、预报台风的路径和强度及时掌握和分析灾害的实时信息,做到预报准确决策科学。另一方面高喥重视防汛水利工作,投入大量财力、物力夯实水利防灾减灾基础,提高了抗御台风灾害的能力;建立一整套诸如人员避险转移等内容嘚预案和处置制度

    请简要说明人们在防台抗台中是如何做到一切从实际出发,实事求是的

内容提示:统计学作业题 (1)

文档格式:DOC| 浏览次数:302| 上传日期: 07:30:16| 文档星级:?????

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

我要回帖

 

随机推荐