用列表的方式描述三种误差,分别什么是系统误差差、随机测量误差、抽样误差。

【单项选择题】各种抽样方法的抽样误差一般是()。
  【单项选择题】各种抽样方法的抽样误差一般是()。
  A.单纯随机抽样≥整群抽样≥系统抽样≥分层抽样
  B.整群抽样≥系统抽样≥单纯随机抽样≥分层抽样
  C.整群抽样≥单纯随机抽样≥系统抽样≥分层抽样
  D.分层抽样≥单纯随机抽样≥系统抽样≥整群抽样
  【参考答案】C
  【我要咨询】更多试题资料请点击页面右下角&&免费咨询&&
注册安全工程师网络课程
我猜这些文章对您也有帮助
注册安全工程师考试导航
保留登录信息之前两期我们主要介绍测量误差,从这一期开始,我们关注的焦点将转向抽样调查的另一个误差来源——抽样误差。需要说明的是,这里所说的抽样误差是广义上的抽样误差。狭义的抽样误差仅指从抽样框抽取部分样本而引起的误差(回顾第二期推送中的图3),而广义的抽样误差除此之外,还包括抽样框与研究总体不一致导致的覆盖偏差、抽中的样本拒访导致的无应答偏差以及对样本数据的代表性进行调整导致的事后调整偏差。
与测量误差类似,抽样误差也包括随机误差和系统误差。抽样的随机误差很好理解。因为既然是抽样,就肯定会有一定程度的随机性。举例来说,我们要从10000个人中随机抽取1000个人,理论上可能的样本有个,但实际上我们只会抽1个样本进行调查,如果被抽中的样本平均收入是5000元/月,换一个样本就很难保证计算结果还是5000元/月。如果条件允许,我们把个样本全部调查一遍,并且将这个收入均值绘制成图,就得到了人均月收入的抽样分布,这个分布的方差或标准差越大,抽样的随机误差就越大,所以我们通常用抽样分布的方差或标准差来衡量抽样的随机误差。
从理论上看,抽样的随机误差与三个因素有关。一是样本容量,样本容量越大,抽样误差越小,这个很好理解。在极端情况下,如果能进行普查,就不会有随机误差了。二是抽样时是否分层,分层抽样能够降低抽样的随机误差。三是抽样时是否分群,整群抽样会增加抽样的随机误差。这些结论翻开任何一本抽样教科书都能得到,所以我不细讲。在这一期,我重点要讲的是抽样误差的非随机部分,即抽样的系统误差。
什么是抽样的系统误差?简单来说,就是当抽样分布的均值与总体均值不等时而产生的偏差。看到这里,很多读者会有疑问了。上课时老师讲过中心极限定理,定理说抽样分布的均值一定等于总体均值,难道定理还会错吗?
定理当然不会错。但需注意的是,这个定理是在简单随机抽样的条件下得到的。而事实上,大家目前常用的二手数据(如CGSS、CFPS)没有一个使用简单随机抽样,所以这个定理就不一定对了。
要使抽样分布的均值等于总体均值需要满足两个条件:首先,总体中的每个个体都有可能被抽中(即任何个体被抽中的概率都不为0);其次,每个个体被抽中的概率相同(即采用等概率抽样)。这两个条件看起来理所当然,但在实际操作中都很难被满足。
1.覆盖偏差
违反这两个条件的第一个常见原因是覆盖偏差(coverage bias)。覆盖偏差是抽样框中的元素与总体元素不能做到一一对应而产生的偏差。它又分为两种情况。一是覆盖不足,即总体中的某些个体没有被抽样框覆盖到。举例来说,目前国内所有个体层面的抽样调查都只覆盖了家庭户,而没有覆盖集体户,也就是说,那些住在学校、军队、职工宿舍的人被抽中的概率为0。另外,由于调查成本限制,一些调查(如CFPS)没有覆盖青海、西藏、新疆、内蒙古等地广人稀的西部地区,这导致居住在这些地方的人也没有被抽中的可能性。
覆盖偏差的另一种情况是过度覆盖。举例来说,如果用手机号作为抽样框,那么有两个手机号的人就比只有一个手机号的人有两倍被抽中的概率。另外,入户调查有时也会遇到过度覆盖问题。目前国内大型调查在末端抽样时通常会采用“地图地址法”,即将抽中社区的房屋地图完整地绘制出来,然后从中抽取一部分住宅,再从住宅中抽取个体。这种方法的问题在于,有些人在一个社区可能会有不止一个住宅,如果真是这样的话,有多套住宅的人就比有一套住宅的人有更高的被抽中的概率。
2.不等概率抽样
除了覆盖偏差,抽样的系统误差也会因为抽样时使用“不等概率抽样”而产生。看到这里,一些小伙伴可能会想,抽样难道不都是等概率的吗?怎么会有不等概率抽样?其实,从定义上讲,只要抽样框中的每个元素都有“非零且已知”的被抽中的概率,就可视为“概率抽样”。“概率抽样”与方便抽样、配额抽样、滚雪球抽样等“非概率抽样”的本质区别在于前者每个元素被抽中的概率是可以算出来的,而后者是算不出来的,至于被抽中的概率等还是不等其实并不那么重要。而且我可以负责任的告诉大家,CGSS、CFPS等常用调查数据使用的都是不等概率抽样。
为什么在实践当中,绝大多数调查会使用不等概率抽样呢?这个问题很复杂,它牵涉到抽样调查最核心的一对关系,即“成本”和“收益”。我们知道,每多调查一个人都是需要额外付出成本的,这里所说的成本包括金钱、时间和劳动力。但与此同时,每多调查一个人也会给我们带来额外的收益,这里所说的收益就是信息。如果在总体中,调查每个人的成本相同,每个人能够提供的信息量也相同,那么就会采用等概率抽样,但这种情况是极少出现的。在绝大多数情况下,调查成本和能够获取的信息量都是因人而异的。
举例来说,如果要在中国做一个10000人的调查,而且事先知道中国城乡人口的比例是1比1,那么我们应该如何在城乡之间分配样本量呢?我想绝大多数人会说城市抽5000,农村也抽5000,因为这样跟城乡人口在总体中的分布是吻合的,但实际上,理性的调查者不会这么做。这牵涉到两个原因。
首先,从成本的角度看,在城市调查1个人相比于在农村调查1个人是比较亏的。因为城市入户很困难,我们要付给受访者更多的钱,访问员也要付出更多的时间和精力(因而我们也要付给访问员更多的钱)。如果城市调查一户要200元,农村只要100元,那么我们在城市少调查500人,省下来的钱可以在农村多调查1000人,想想是不是很划算呢?从样本量的角度看,确实是这样;但是从信息量的角度看,未必!为什么呢?
因为从收益的角度看,1个城市人和1个农村人能够提供的信息是不一样的。有过农村调查经验的小伙伴可能都有这样的感受,一个村的农民都差不多,走访几户以后基本情况就已经了解了,再调查下去能了解到的新情况是比较有限的。用专业的话语说,就是农村社区的同质性强,农民之间的信息是冗余度高,因而我们没有必要在农村做很大样本的调查。而城市就很不一样,由于城里人的差异很大,三教九流做什么工作的都有,所以我们必须调查很多人才能对一个城市有比较充分的了解。
综合以上两点,可以发现,在城市调查1个人比较贵,但这个钱花得也比较值;而在农村调查1个人虽然便宜,但得到的有用信息并不多。所以究竟该怎么办呢?确实头疼。从理论上看,城乡之间样本量的分配应该达到一个临界点,在这个点上,在城市每花1块钱能够得到的边际收益与在农村相同。这个点是理论上的最优点,但要得到这个点需要对城乡的调查成本和收益进行精确估算。在实际中,精确估算是很难的,调查者往往会结合以往调查大致估算一下收益和成本,然后决定样本量的分配。
除了成本和收益以外,研究设计本身也会影响个体被抽中的概率。举例来说,某项调查对富人有特别的代表性要求,换句话说,样本中富人的数量不能太少(比如800)。而我们知道,富人占总体的比例是很小的,假设只有1%,那么调查800名富人,意味着总样本要有80000,如果实际经费只能做10000人调查,那该怎么办呢?一种办法就是对富人阶层进行过额抽样(oversample),即人为提高富人在样本中的比重,这很明显会导致一个不等概率的样本。
综上所述,由于调查成本、收益及调查本身的一些特殊需求,调查者往往会人为操纵每个个体的入样概率,所以不等概率抽样在实践中往往更常见。如果采用不等概率抽样,那么入样概率大的群体的特征就会被放大,而入样概率小的群体则会出现代表性不足的问题,这都会导致样本均值的均值偏离总体均值,从而产生系统性的抽样偏差。不过,通过恰当的加权处理可以有效纠正这一问题。
3.无应答偏差
系统性抽样偏差的第三个来源是无应答(nonresponse),即被抽中的个体不愿意配合调查。无应答分两种情况:一是“个体与应答”,即受访者拒访;二是“项目无应答”,即受访者虽然愿意接受调查,但不愿意回答某些题目。无论是哪种情况,都会产生缺失值(missing value)。如果无应答导致的数据缺失是完全随机的,只会减少分析的样本量,而不至于产生偏差;但很多情况下,无应答是与受访者的特征密切相关的。
举例来说,一般富人的时间成本比较高,所以拒访率也高,如果真是这样,那么调查就会低估总体的平均收入。除此以外,以往的调查还发现,年轻人、男性和流动人口的拒访率一般会高于老年人、女性和户籍人口,这也会导致系统性的抽样误差。
提高应答率的关键在于调查的执行过程,通过专业的访问员培训、对调查过程实施严格督导和提高受访者的报酬都可以在一定程度上提高应答率。但无论如何,应答率达到100%在实践中是很难做到的。所以,作为数据的使用者,使用数据之前一定要仔细阅读调查的执行报告。目前国内比较专业的调查都会报告应答率或拒访率指标,有的调查还会报告无应答的模式,即分析应答者与无应答者在一些基本指标上的分布情况,基于无应答模式,我们可以通过加权的办法降低无应答带来的偏差。
4.加权及其偏差
综上所述,抽样框选取不当、不等概率抽样和无应答都会导致系统性的抽样误差,而要消减这一误差的有效办法就是加权(weighting)。加权的目的是调整不同样本的比例,以降低覆盖偏差、抽样偏差以及无应答偏差的影响。比如说,研究者会对那些覆盖程度不足、抽样概率偏低或者无应答率较高的样本赋予较高的权重,以增加它们对样本统计量的贡献。以前,我们使用的数据大多是不公布权重的,但近些年来,绝大多数调查都开始计算权重,有些还报告了权重的计算方法,这不得不说是国内调查走向专业化的一个重要标志。
如果仔细阅读一些调查(如CFPS)的权重计算报告,可以发现其过程非常复杂,而且有些还计算了多种不同类型的权重。在众多权重之中,最基本的是“抽样设计权重”,它主要用来纠正不等概率抽样造成的系统偏差。通俗来讲,抽样设计权重与个体的入样概率成反比,也就是说个体的入样概率越大,其权重就越小,这是比较符合逻辑的。当然,如果使用等概率抽样,每个个体的入样概率完全相同,其权重也必然完全一样,这样加不加权就没有关系了。也正是这个原因,使用等概率抽样得到的样本通常被称作“自加权样本”,因为样本本身就已经加权过了。
除了抽样设计权重,有些调查还会根据样本的无应答模式进行修正,经过这一修正得到的权重被称作“无应答调整权重”。无应答调整权重是以抽样设计权重为基础再乘以一个系数得到的,这个调整系数则与具体的无应答模式有关。比如前文提到,男性、年轻人、流动人口和社会经济地位比较高的人拒访率会高一些,那么相应地,符合这些特征的人的调整系数就会大一些。这样,通过放大应答率较低的群体的权重,就可以在一定程度上减轻无应答造成的偏差。
最后,有些调查还会在无应答调整权重的基础上根据总体特征再进行一次调整,这步调整以后的权重通常被称作“事后调整权重”。从理论上说,事后调整的目的是为了纠正覆盖偏差。以CFPS2010为例,其最后公布的权重就经过了事后调整,这步调整是以2010年普查数据中的家庭户人口数为基础的。普查数据公布了全国家庭户中1人户、2人户、3人户等的比重,根据调查数据我们也能算出相应的比重,但它与普查数据往往会有差距。如果我们以普查数据为基础,调整样本中不同规模家庭的权重,就可以使其分布更接近普查,从而至少在家庭规模这一个层面上提高样本数据的代表性。
从“抽样设计权重”到“无应答调整权重”再到“事后调整权重”,权重的计算越来越复杂,其功能也越来越丰富。但是不是复杂的权重比简单的权重更好呢?不一定!因为复杂的权重在计算时所做的假定比简单权重要多。举例来说,无应答调整权重基于我们对样本无应答模式的估计,所以这一步估计是否准确会直接影响其效果。事后调整权重也是同样的道理。而且,加权本身就涉及一个假定:我们将某个对象的权重从1调整到2,实际上就是把这一个对象当两个算,假设总体中还存在与这个对象完全相同的另一个对象,而且它还被我们抽中了。因为我们事实上没有调查到另一个对象,所以我们只能假设它,很种假设不一定是完全合理的。总而言之,加权虽能在一定程度上缓解抽样框、抽样过程和无应答导致的偏差,但其本身也不是万能的,使用的时候需要根据情况选用合适的权重才可以。
编辑:潘雨 江祥雪
· · · · · ·
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
2008卫生计学模拟测验题.pdf 14页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
2008卫生计学模拟测验题.pdf
你可能关注的文档:
·····
··········
医学统计学/卫生统计学
一、名词解释
1.抽样误差
5.计量资料
二、填空题
卫生统计资料分为____ 、____和____三类。
概率是指某事件发生机会大小的量,可用____ 、____或____表示。
相对数可分为____ 、____ 、____三类。
统计表主要由____ 、____ 、____和____组成。
统计表的纵标目位于表内的____它说明同一____数字意义。
误差来源于____ 、____ 、____ 。
统计的基本工作步骤____ 、____ 、____ 、____ 。
统计资料的整理分为____ 、____ 、____ 、____ 四个步骤
三、选择题
A1 型选择题
1.统计工作的前提与基础是
A.设计 B.收集资料
C.整理资料
D.校对资料
E.分析资料
2.统计工作四个基本步骤是
A.设计,收集资料,整理资料和分析资料
B.收集日常生活资料,报告卡片,分析资料,总结
C.收集统计报表,日常医疗工作资料,分析资料,描述资料
D.收集专门内容报告卡片,进行整理,分析资料,核对资料
E.收集病历,日常医疗工作资料,分析资料,归组
3.统计中所说的样本是指
A. 随意从总体中抽取出的部分个体
B.依照研究者要求从总体中抽取出有意义的部分个体
C.按照随机原则抽取总体中有代表性的部分个体
D.依照研究者要求从总体中抽取的部分个体
E.按分布的顺序抽取部分个体
4.统计中所说的总体是指
A. 随意想象的研究对象的全体
B.根据研究目的确定的研究对象的全体
C.根据时间来划分的研究对象的全体
D.根据地区来划分的研究对象的全体
E.根据人群来划分的研究对象的全体
5.总体的要求是
6.对观察单位按某项指标的等级顺序分组,再清点各组观察单位的个数所得的资料称作
A.计量资料 B.计数资料
C.配对资料
D.相关资料
E.等级资料
广州中医药大学预防医学与卫生统计学教研室
7.对观察单位用定量的方法测量某项指标所获得的资料是
A.计量资料 B.计数资料
C.配对资料
D.相关资料
E.等级资料
8.样本指标值与总体指标值之差主要是指
A. 随机测量误差 B.关系误差
C.容许误差
D.抽样误差
E.系统误差
9. 由于各种偶然的因素影响,造成同一对象多次测定的结果不完全一致,往往是有的稍高,
有的稍低,这种差异是
A.系统误差 B. 随机测量误差
C.抽样误差
D.偏倚误差
E.标准误差
10.统计学上说的系统误差、测量误差和抽样误差三种误差,在实际工作中有
A.三种误差都不可避免
B.系统误差和抽样误差不可避免
C.系统误差和测量误差不可避免
D.测量误差和抽样误差不可避免 E.三种误差都可避免
11.抽样误差是指
A.个体值和总体参数值之差
B.个体值和样本统计量值之差
C.样本统计量值和总体参数值之差 D.样本统计量值和样本统计量值之差
E.总体参数值和总体参数值之差
12.某事件发生的概率为 1,即意味着
A.某事件发生的可能性为 1% B.某事件可能发生
C.某事件可能不发生
D.某事件必然不发生 E.某事件必然发生
13.某事件发生概率为 0,即意味着
A.某事件发生的可能性为 100%
B.某事件可能发生
正在加载中,请稍后...

我要回帖

更多关于 系统误差和随机误差 的文章

 

随机推荐