去掉2.5个标准差以后怎么统计学平均年龄标准差

- Database Error
已经将此出错信息详细记录, 由此给您带来的访问不便我们深感歉意当前位置: >>
管理统计学
管理统计学天津大学管理学院 杨宝臣1 授课教师? ? ???? ?杨宝臣 博士 天津大学管理学院教授、博士生导师 技术经济研究所所长 美国密西根大学富布莱特高级研究学者 新加坡南洋理工大学、德国康斯坦茨大学 博士 后 电话:
Email:bchyang@2 目录第一章 统计概述………………………………………………………………………4 第二章统计数据整理与显示…………………………………………………………18 ?第一节 数据的计量与类型 ?第二节 统计数据的来源 ?第三节 定性数据的整理与显示 ?第四节 数值型数据的整理与显示 第三章 数据分布特征的测度………………………………………………………83 ?第一节 集中趋势的测度 ?第二节 离散程度的测度 ?第三节 偏态与峰度的测度 第四章 概率与概率分布………………………………………………………………153 ?第一节 概率基础 ?第二节 随机变量及其分布 第五章 抽样与参数估计………………………………………………………………273 ?第一节 抽样与抽样分布 ?第二节 参数估计基本方法 ?第三节 总体均值和总体比例的区间估计 第六章 假设检验…………………………………………………………………………340 ?第一节 假设检验的一般问题 ?第二节 一个正态总体的参数检验 ?第三节 统计过程控制 第七章 相关与回归分析………………………………………………………………412 ?第一节 变量间的相关关系 ?第二节 一元线性回归 ?第三节 多元线性回归3 什么是统计??1. 统计工作 ? 收集数据的活动?2. 统计数据? 对现象计量的结果?3. 统计学 ? 分析数据的方法与技术4 什么是统计学?? 统计学是一门收集、整理和分析数据的方法科学 ,其目的是探索数据的内在数量规律性,以达到 对客观事物的科学认识。 ? 1. 数据搜集:例如,调查与 试验 ? 2. 数据整理:例如,分组 ? 3. 数据展示:例如, 图和表 ? 4. 数据分析:例如,回归分析5 Statistics的定义 (不列颠百科全书)?Statistics: the science of collecting, analyzing, presenting, and interpreting data.Copyright
Encyclopaedia Britannica, Inc.(不列颠百科全书)6? 统计数据的内在规律(一些例子)???正常条件下新生婴儿的性别比为107:100 投掷一枚均匀的硬币,出现正面和反面的 频率各为1/2;投掷一枚骰子出现1~6点的 频率各为1/6 农作物的产量与施肥量之间存在相关关系7 统计学的分科?统计学的分科描述统计推断统计理论统计应用统计8 统计方法统计方法描述统计推断统计参数估计假设检验9 描述统计?内容? ? ?搜集数据 整理数据 展示数据¥50?? ?目的25描述数据特征 0 找出数据的基本规律Q1 Q2 Q3 Q4x = 30 s2 = 10510 推断统计?内容 ? 参数估计 ? 假设检验 目的总体??对总体特征作出推断样 本11 描述统计与推断统计的关系概率论 (包括分布理论、大数定律 和中心极限定理等)推断统计样本数据描述统计 (统计数据的搜集、整 理、显示和分析等)反映客观 现象的数 据总体数据(利用样本信息和概率 论对总体的数量特征进 行估计和检验等)总体内在的 数量规律性统计学探索现象数量规律性的过程12 理论统计与应用统计??理论统计 ? 研究统计学的一般理论 ? 研究统计方法的数学原理 应用统计 ? 研究统计学在各领域的具体应用13 参数估计推 断 性 统 计 学假设检验 方差分析 回归分析 时间序列分析14 统计学的应用领域经济学 医学管理学统计学工程学社会学…15 统计学中的几个主要术语1. 总体(Population)所关心的所有元素的集合2. 样本(Sample)总体的一部分3. 参数(Parameter)总体的数字特征4. 统计量(Statistic)样本的概括性测度值16 几种常用的统计软件 (Software)?典型的统计软件? ? ? ? ?SPSS SAS MINITAB STATISTICA ExcelSAS SPSSSTATISTICA MINITAB Excel17 第二章 统计数据整理与显示第一节 第二节 第三节 第四节 数据的计量与类型 统计数据的来源 定性数据的整理与显示 数值型数据的整理与显示18 第一节 数据的计量与类型定义:统计数据 统计数据(Statistical data)是指可用以 推导出某项结论的一些事实或数字。 它有三个基本的构成要素:元素、变量 、观测值19 统计数据元素(Element) 基 本 构 成 要 素研究对象由各 元素组成变量(Variable)关于元素的一 种属性或特征观测(Observation)数据中关于某 一元素所有各 变量的信息20 统计数据变量(Variable)定量变量(Quantitative variable) 结果可用数字表示 ? 定性变量(Qualitative Variable)?结果不可用数字表示21 统计数据表1-1 员工个人数据表姓名 性别 年龄身高 (m) 1.85 1.65 1.72 1.60 1.83体重 (kg) 65 55 60 53 68民 族 汉 回 满 回 汉甲 乙 丙 丁 戊男 女 男 女 男33 25 26 35 32公司 服务 年限 3 2 1 4 2受教 育年 限 18 16 15 16 1922 数据的计量尺度23 四种计量尺度数据的计量尺度定类尺度定序尺度定距尺度定比尺度24 定类尺度1. 2. 3. 4. 5.6.7.计量层次最低 对事物进行平行的分类 各类别可以指定数字代码表示 使用时必须符合类别穷尽和互斥的要求 数据表现为“类别” 具有=或?的数学特性 比如:性别分男女25 定序尺度1. 2. 3. 4. 5.6.对事物分类的同时给出各类别的顺序 比定类尺度精确 未测量出类别之间的准确差值 数据表现为“类别”,但有序 具有&或&的数学特性 比如: 成绩为优良中差26 定距尺度1. 2. 3. 4. 5.对事物的准确测度 比定序尺度精确 数据表现为“数值” 没有绝对零点 具有 + 或 - 的数学特性 例如:张三的SAT成绩为1205,而李四的SAT成绩为 1090。所以张三的成绩比李四高115个点27 定比尺度1. 2. 3. 4. 5.对事物的准确测度 与定距尺度处于同一层次 数据表现为“数值” 有绝对零点 具有 ? 或 ? 的数学特性例如: M的在大学期间修满了36个学分,而K在大学期间修 满了72个学分。所以K所修的学分是M的2倍。28 四种计量尺度的比较四种计量尺度的比较计量尺度定类尺度 定序尺度 定距尺度 定比尺度数学特性分类(=,≠ ) 排序( & ,& ) 间距( + ,- ) 比值( × ,÷ )√√ √√ √ √√ √ √ √“√”表示该尺度所具有的特性29 数据类型和分析方法30 数据类型与统计方法?数据类型与统计方法定类数据定序数据定距数据定比数据定性数据非参数方法定量数据参数方法31 第二节 统计数据的收集间接引用统 计 资 料 的 收 集实验式收集 统计数据 直接收集 非实验式收 集 统计数据F.W.Taylor的科学管理 理论中的工作定额原理, 用实验式的方法获得工 人合理的日工作量数据。气象数据收集,商 品价格的变化对商 品需求量的影响。32 第三节定性数据的整理与显示一. 定类数据的整理与显示 二. 定序数据的整理与显示33 定类数据的整理与显示(基本问题)1.2.3.4.要弄清所面对的数据类型,因为不同类型的 数据,所采取的处理方式和方法是不同的 对定类数据和定序数据主要是做分类整理 对定距数据和定比数据则主要是做分组整理适合于低层次数据的整理和显示方法也适合 于高层次的数据;但适合于高层次数据的整 理和显示方法并不适合于低层次的数据34 定类数据的整理(基本过程)1. 列出各类别 2. 计算各类别的频数 3. 制作频数分布表 4. 用图形显示数据? ? ? ???? ? ??35 定类数据的整理(可计算的指标)1. 2. 3. 4. 频 数:落在各类别中的数据个数 比 例:某一类别数据占全部数据的比值 百分比:将对比的基数作为100而计算的比值 比 率:不同类别数值的比值36 定类数据整理―频数分布表 (实例)【 例 2.1】 为 研 究广告市场 的状况,一家广告公司在某 城市随机抽取200人就广告 问题做了邮寄问卷调查,其 中的一个问题是“您比较关 心下列哪一类广告?”1.商品广告;2.服务广 告;3.金融广告;4.房地 产广告;5.招生招聘广告 ;6.其他广告。表3-1 某城市居民关注广告类型的频数分布广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计人数(人) 112 51 9 16 10 2 200比例 0.560 0.255 0.045 0.080 0.050 0.010 1频率 (%) 56.0 25.5 4.5 8.0 5.0 1.0 10037 定类数据的图示―条形图(条形图的制作)1.2.3.4.条形图是用宽度相同的条形的高度或长短来 表示数据变动的图形 条形图有单式、复式等形式 在表示定类数据的分布时,是用条形图的高 度来表示各类别数据的频数或频率 绘制时,各类别可以放在纵轴,称为条形图, 也可以放在横轴,称为柱形图38 定类数据的图示―条形图2其他广告10广招生招聘广告 告 房地产广告 类 型 金融广告服务广告 商品广告16 951 11204080人数(人) 12039图3-1 某城市居民关注不同类型广告的人数分布 定类数据的图示―圆形图(圆形图的制作)1.2.3.4.也称饼图,是用圆形及园内扇形的面积来表示数 值大小的图形 主要用于表示总体中各组成部分所占的比例,对 于研究结构性问题十分有用 在绘制圆形图时,总体中各部分所占的百分比用 园内的各个扇形面积表示,这些扇形的中心角度 ,是按各部分百分比占3600的相应比例确定的 例如,关注服务广告的人数占总人数的百分比为 25.5%,那么其扇形的中心角度就应为 %=91.80,其余类推40 定类数据的图示―圆形图房地产广告 招生招聘广告 其他广告 1.0% 8.0% 5.8% 金融广告 4.5%服务广告 25.5%商品广告 56.0%图3-2 某城市居民关注不同类型广告的人数构成41 定序数据的整理(可计算的指标)1. 累计频数:将各类别的频数逐级累加 2. 累计频率:将各类别的频率(百分比)逐级累加??? ???42 定序数据频数分布表(实例 )【例2.2】在一项 城市住房问题的 研究中,研究人 员在甲乙两个城 市各抽样调查300 户,其中的一个 问题是:“您对 您家庭目前的住 房状况是否满意 ?1.非常不满 意;2.不满意; 3.一般;4.满 意;5.非常满意 。表3-2 甲城市家庭对住房状况评价的频数分布 甲城市 回答类别 户数 (户) 24 108 93 45 30 300 百分比 (%) 8 36 31 15 10 100.0 向上累积 户数 (户) 24 132 225 270 300 ― 百分比 (%) 8.0 44.0 75.0 90.0 100.0 ― 向下累积 户数 (户) 300 276 168 75 30 ― 百分比 (%) 100.0 92 56 25 10 ―43非常不满意 不满意 一般 满意 非常满意 合计 定序数据频数分布表(实例 )表3-3 乙城市家庭对住房状况评价的频数分布乙城市回答类别 向上累积 户数 (户) 21 99 78 64 38 300 百分比 (%) 7.0 33.0 26.0 21.3 12.7 100.0 户数 (户) 21 120 198 262 300 ― 百分比 (%) 7.0 40.0 66.0 87.3 100.0 ― 向下累积 户数 (户) 300 279 180 102 38 ― 百分比 (%) 100.0 93.0 60.0 34.0 12.7 ―44非常不满意 不满意 一般 满意 非常满意 合计 定序数据的图示―累计频数分布图累 积 300 户 数 200 (户) 100 0 132400 270 300225累 积 300 户 300 数 200 (户) 100 0400276 168 75 30 非常 满意24满意 非常 满意非常 不满意 一般 不满意(a)向下累积非常 不满意 一般 满意 不满意 (b)向上累积图3-3 甲城市家庭对住房状况评价的累积频数分布45 定类数据的图示―环形图(环形图的制作)1.2.??环形图中间有一个“空洞”,总体中的每一 部分数据用环中的一段表示 环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例 环形图则可以同时绘制多个总体的数据系列, 每一个总体的数据系列为一个环3.4.环形图可用于进行比较研究 环形图可用于展示定类和定序的数据46 品质数据的图示―环形图13% 10% 15% 21%7% 8%非常不满意33% 不满意 一般 31%36% 满意非常满意26% 图3-4 甲乙两城市家庭对住房状况的评价47 第四节定量数据的整理与显示一. 数据的分组 二. 定量数据的图示 三. 频数分布的类型48 频数分布表的编制编制频数分 布表的步骤确 定 组 距 计 算 频 数 编 制 表 格49确 定 组 数 频数分布表的编制(实例)【 例 2.3】 某 生 产 车 间 50 名 工 人 日 加工零件数如下 (单位:个)。 试采用单变量值 对数据进行分组 。117 108 110 112 137122 131 118 134 114124 125 123 127 120129 117 126 123 128139 122 133 119 124107 133 134 113 115117 126 127 120 139130 122 123 123 128122 118 118 127 124125 108 112 135 12150 分组方法分组方法单变量值分组组距分组等距分组异距分组51 单变量值分组(要点)1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况? ? ? ?52 单变量值分组表(实例)表3-4零件数 (个)107 108 110 112 113 114 115 117 118某车间50名工人日加工零件数分组表频数 (人)1 2 1 2 1 1 1 3 3零件数 (个)119 120 121 122 123 124 125 126 127频数 (人)1 2 1 4 4 3 2 2 3零件数 (个)128 129 130 131 133 134 135 137 139频数 (人)2 1 1 1 2 2 1 1 253 组距分组(要点)1. 2. 3.4.5.将变量值的一个区间作为一组 适合于连续变量 ? 适合于变量值较多的情况 ? 必须遵循“不重不漏”的原则 ? 可采用等距分组,也可采用不 ? 等距分组~? ~? ~? ~? ?~?54 组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特 征和规律为目的。在实际分组时,可以按 Sturges 提 出的经验公式来确定组数Klg(n) K ? 1? lg(2)2. 确定各组的组距:组距(Class Width)是一个组的上 限与下限之差,可根据全部数据的最大值和最小值 及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 3. 根据分组整理成频数分布表55 组距分组(几个概念)1. 2. 3. 4. 下 限:一个组的最小值 上 限:一个组的最大值 组 距:上限与下限之差 组中值:下限与上限之间的中点值 组中值=下限值+上限值 256 等距分组表(上下组限重叠)表3-5 某车间50名工人日加工零件数分组表 按零件数分组 频数(人) 频率(%)105~110 110~115 115~120 120~125 125~130 130~135 135~140 3 5 8 14 10 6 4 50 6 10 16 28 20 12 8 10057合计 等距分组表(上下组限间断)表3-6 某车间50名工人日加工零件数分组表 按零件数分组 频数(人) 频率(%)105~109 110~114 115~119 120~124 125~129 130~134 135~139 3 5 8 14 10 6 4 50 6 10 16 28 20 12 8 10058合计 等距分组表(使用开口组)表3-7 某车间50名工人日加工零件数分组表 按零件数分组 频数(人) 频率(%)110以下 110~114 115~119 120~124 125~129 130~134 135以上 3 5 8 14 10 6 4 50 6 10 16 28 20 12 8 10059合计 组距分组与不等距分组(在表现频数分布上的差异)1.? ?等距分组各组频数的分布不受组距大小的影响 可直接根据绝对频数来观察频数分布的特征和 规律2.?不等距分组??各组频数的分布受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际 状况 需要用频数密度(频数密度=频数/组距)反映 频数分布的实际状况60 定量数据的图示61 分组数据―直方图(直方图的制作)1.2.3.用矩形的宽度和高度来表示频数分布的图 形,实际上是用矩形的面积来表示各组的 频数分布 在直角坐标中,用横轴表示数据分组,纵 轴表示频数或频率,各组与相应的频数就 形成了一个矩形,即直方图(Histogram) 直方图下的总面积等于162 分组数据―直方图 (直方图的绘制)我一眼就看出 来了,大多数 人的日加工零 件数在120~ 125之间!频 15 数12(人) 963105 110 115 120 125 130 135 140日加工零件数(个)图3-5 某车间工人日加工零件数的直方图63 分组数据―直方图(直方图与条形图的区别)1.2.3.条形图是用条形的长度(横置时)表示各类别 频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩 形的高度表示每一组的频数或百分比,宽 度则表示各组的组距,其高度与宽度均有 意义 直方图的各矩形通常是连续排列,条形图 则是分开排列64 分组数据―折线图(折线图的制作)1. 2.3.?折线图也称频数多边形图(Frequency polygon) 是在直方图的基础上,把直方图顶部的中点(组 中值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数 一半的位置)连接到横轴,最后一个矩形顶部中点 与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者 所表示的频数分布是一致的65? 分组数据―折线图(折线图的绘制)15 频 数 (人) 12 9 6 折线图下的面积 与直方图的面积 相等!3105 110 115 120 125 130 135 140日加工零件数(个)图3-6 某车间工人日加工零件数的折线图66 未分组数据―箱线图(箱线图的制作)1. 2.3.?用于显示未分组的原始数据或分组数据的分布 箱线图由一组数据的5个特征值绘制而成,它 由一个箱子和两条线段组成 其绘制方法是:首先找出一组数据的 5个特征值,即最大值、最 小值、中位数Me 和两个四分位数(下四分位数QL 和上四分位数QU) 连接两个四分(位)数画出箱子,再将两个极值 点与箱子相连接67? 未分组数据―单批数据箱线图(箱线图的构成)X 最小值 QL 中位数QUX 最大值4681012图3-9 简单箱线图68 未分组数据―单批数据箱线图(实例)最小值 107 下四分位数 117.75 中位数 上四分位数 123 128 最大值 139105110115 120125130 135 140图3-10 50名工人日加工零件数的箱线图69 未分组数据―多批数据箱线图 (实例)【 例 2.4】 从 某大学经济管 理专业二年级 学生中随机抽 取11人,对8门 主要课程的考 试成绩进行调 查,所得结果 如表3-8。试绘 制各科考试成 绩的批比较箱 线图,并分析 各科考试成绩 的分布特征表3-8 课程名称 11名学生各科的考试成绩数据 学生编号 1 76 65 93 74 68 70 55 85 2 90 95 81 87 75 73 91 78 3 97 51 76 85 70 92 68 81 4 71 74 88 69 84 65 73 95 5 70 78 66 90 73 78 84 70 6 93 63 79 80 60 87 81 67 7 86 91 83 77 76 90 70 82 8 83 82 92 84 81 70 69 72 9 78 75 78 91 88 66 94 80 10 11 85 71 86 74 68 79 62 81 81 55 78 70 75 68 71 7770英语 经济数学 西方经济学 市场营销学 财务管理 基础会计学 统计学计算机应用基础 未分组数据―多批数据箱线图105 95 85 75 65 55 45英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础Min-Max 25%-75% Median value图3-128门课程考试成绩的箱线图71 未分组数据―箱线图105 95 85 75 65 55 45Min-Max 25%-75% Median value学生1 学生3 学生5 学生7 学生9 学生11 学生2 学生4 学生6 学生8 学生10图3-1311名学生8门课程考试成绩的箱线图72 时间序列数据―线图(线图的制作)? 绘制线图时应注意以下几点1. 2.3.时间一般绘在横轴,指标数据绘在纵轴 图形的长宽比例要适当,其长宽比例大致 为10:7 一般情况下,纵轴数据下端应从D0‖开始 ,以便于比较。数据与D0‖之间的间距过 大时,可以采取折断的符号将纵轴折断73 时间序列数据―线图(实例)【例2.5】已知 年 我国城乡居民 家庭的人均收 入数据如表311。试绘制线 图表3-11 年城乡居民家庭人均收入年份93 96 城镇居民 6.6 6.2 8.9 5.1农村居民 708.6 784.0 921.6 7.7 1.1 2162.074¥$ 时间序列数据6000城镇居民 收 入 4000 (元) 农村居民20000 19911992199319941995199619971998图3-14 城乡居民家庭人均收入75 多变量数据―雷达图(要点)1.3.4.5.雷达图(Radar Chart)是显示多个变量的 常用图示方法 在显示或对比各变量的数值总和时十分有 用 假定各变量的取值具有相同的正负号,总 的绝对值与图形所围成的区域成正比 可用于研究多个样本之间的相似程度76 多变量数据―雷达图(雷达图的制作)? 设有n组样本S1,S2,…Sn,每个样本测得P个 变量X1,X2,Xp,要绘制这P个变量的雷达 图,其具体做法是先做一个圆,然后将圆P等分,得到P个点,令 这P个点分别对应P个变量,在将这P个点与圆心 连线,得到P个幅射状的半径,这P个半径分别作 为P个变量的坐标轴,每个变量值的大小由半径 上的点到圆心的距离表示?再将同一样本的值在P个坐标上的点连线。这样 ,n个样本形成的n个多边形就是一个雷达图?77 多变量数据―雷达图(实例)【 例 2.6】1997 年 我国城乡居民家 庭平均每人各项 生活消费支出数 据如表3-12。试绘 制雷达图。 表3-12 1997年城乡居民家庭平均每人生活消费支出项 目食品 衣着 家庭设备用品及服务 医疗保健 交通通讯 娱乐教育文化服务 居住 杂项商品与服务城镇居民.91 316.89 179.68 232.90 448.38 358.64 185.65农村居民890.28 109.41 85.41 62.45 53.92 148.18 233.23 34.27今天的 主食是 面包合 计4185.641617.1578 多变量数据―雷达图(由 Excel 绘制的雷达图)食品 2000 杂项商品 与服务 (元) 0 居住 0 家庭设备用 品及服务 衣着娱乐教育 文化服务 交通通讯医疗保健 城镇居民 农村居民图3-15 1997年城镇居民家庭消费支出79 多变量数据―雷达图(实例)【 例 2.7】 为 研 究 某 条河流的污染程度 ,环保局分别在上 游、中游和下游设 立取样点,每个取 样点化验水中的五 项污染指标,所得 数据如表3-13。将各 指标用雷达图表示 出来,并分析该河 流的主要污染源。表3-13不同样本点的化验指标指标1 指标2 指标3 指标4 指标5 上游 4.52 5.0 483 196 14中游下游0.342.171.46.8362084111263580 多变量数据―雷达图指标 1
指标 5 1 0.1 指标 2指标 4指标 3上游 中游 下游图3-16 河流污染指标雷达图81 数据类型及图示(小结)数据类型与显示 数值型数据 分组数据 折 线 图 原始数据 茎 叶 图 箱 线 图 时序数据 线 图品质数据 总计表多元数据雷 达 图82条 圆 环 直 形 形 形 方 图 图 图 图 第三章 数据分布特征的测度第一节 集中趋势的测度 第二节 离散程度的测度 第三节 偏态与峰度的测度83 数据分布的特征集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰度 (形状)84 数据分布的特征和测度数据的特征和测度集中趋势众 数 中位数 均 值离散程度异众比率分布的形状偏 态四分位差 方差和标准差 离散系数峰 度85 第一节 一. 二. 三. 四.集中趋势的测度众数 中位数和分位数 均值 众数、中位数和均值的比较86 数据特征分布的和测度数据的特征和测度集中趋势众 数 中位数 均 值离散程度异众比率分布的形状偏 态四分位差 方差和标准差 离散系数峰 度87 集中趋势(Central tendency)1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据一般水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值4. 低层次数据的集中趋势测度值适用于高层次的测量数据, 反过来,高层次数据的集中趋势测度值并不适用于低层次 的测量数据 5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌握 的数据的类型来确定88 众数集中趋势的测度值之一一组数据中出现次数最多的变量值1.2. 3. 4. 5.不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和 数值型数据89 众数(众数的不唯一性)无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 多于一个众数 原始数据: 25 28 28 36 42 42?90 定类数据的众数(算例)【例】根据第三章表3-1中的数据, 计算众数表3-1 某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计 人数(人) 112 51 9 16 10 2 200 比例 0.560 0.255 0.045 0.080 0.050 0.010 1 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100解:这里的变量为“广告类 型”,这是个定类变量,不 同类型的广告就是变量值。 我们看到,在所调查的200 人当中,关注商品广告的人 数最多,为112人,占总被 调查人数的56%,因此众数 为“商品广告”这一类别, 即 Mo=商品广告91 定序数据的众数(算例)【例】根据第三章表3-2中的数据, 计算众数表3-2 甲城市家庭对住房状况评价的频数分布回答类别 非常不满意 不满意 一般 满意 非常满意 合计甲城市户数 (户) 24 108 93 45 30 300 百分比 (%) 8 36 31 15 10 100.0解:这里的数据为定 序数据。变量为“回 答类别”。甲城市中 对住房表示不满意的 户 数 最 多 , 为 108 户 , 因此众数为“不满意” 这一类别,即 Mo=不满意92 定量分组数据的众数(要点及计算公式)1. 众数的值与相邻两组频数的分布 有关 2. 相邻两组的频数相等时,众数组的组中 值即为众数?Mo3. 相邻两组的频数不相等时,众数采用 下列近似公式计算f ? f ?1 M0 ? L ? ?i ? ( f ? f ?1 ) ? ( f ? f ?1 )MoL为众数的下限值, i 为组距4. 该公式假定众数组的频数在众数组内均匀分布Mo 定量分组数据的众数(算例)【 例 3.1】 根据第三 章 表 3-5 中 的数据, 计 算 50 名 工人日加 工零件数 的众数表3-5 某车间50名工人日加工零件数分组表按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 频数(人) 3 5 8 14 10 6 4 50 累积频数 3 8 16 30 40 46 50 ―14 ? 8 M 0 ? 120 ? ? 5 ? 123(个) ? (14 ? 8) ? (14 ? 10) 中位数和分位数95 中位数1. 2.集中趋势的测度值之一 排序后处于中间位置上的值50%3. 不受极端值的影响 Me50%4. 主要用于定序数据,也可用数值型数据,但不能用于定 类数据 5. 各变量值与中位数的离差绝对值之和最小,即?Xi ?1ni? M e ? min96 中位数(位置的确定)N ?1 中位数位置 ? 2未分组数据:N 组距分组数据: 中位数位置 ? 297 未分组数据的中位数(计算公式)? X ? N ?1 ? ? ? 2 ? ? ? ? Me ? ? ? 1? ? ?XN ? XN ? ?1 ? ?2 ? 2 2 ? ? ?当N为奇数时 当N为偶数时 定序数据的中位数(算例)【例3.2】根据第三章表3-2中的数 据,计算甲城市家庭对住房满意状 况评价的中位数表3-2 甲城市家庭对住房状况评价的频数分布解:中位数的位置为:回答类别甲城市 户数 (户) 累计频数300/2=15024 132 225 270 300―非常不满意 不满意 一般 满意 非常满意合计24 108 93 45 30300从累计频数看,中位数 的在“一般”这一组别 中。因此 Me=一般99 定量数据的中位数(5个数据的算例)? ? ?原始数据: 排 序: 位 置:24 22 21 26 20 20 21 22 24 26 1 2 3 4 5 ? N ?1 5 ?1 位置 ? ? ?3 2 2 中位数 ? 22100 定量组数据的中位数(6个数据的算例)原始数据: 排 序: 位 置: 10 5 9 12 6 8 5 6 8 9 10 12 1 2 ?3 4 5 6 位置 ? N+1 ? 6+1 ? 3.5 2 2 8+9 ? 8.5 中位数 ? 2101? ? ? 定量分组数据的中位数(要点及计算公式)1.2.根据位置公式确定中位数所在的组 采用下列近似公式计算: N ? S m?1 2 Me ? L ? ?i ? fmL为中位数所在组的下限值, S为上一组累积频数, f 为 所在组的频数, i 为组距4. 该公式假定中位数组的频数在该组内均匀分布 定量分组数据的中位数(算例)【 例 3.3】 根据第三 章 表 3-5 中 的数据, 计算50 名 工人日加 工零件数 的中位数表3-5 某车间50名工人日加工零件数分组表按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 频数(人) 3 5 8 14 10 6 4 50 累积频数 3 8 16 30 40 46 50 ―50 ? 16 M e ? 120 ? 2 ? 5 ? 123 .21(个) ? 14 四分位数? ?1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值25% 25% 25% 25%QL QM 3. 不受极端值的影响 QU4. 主要用于定序数据,也可用于数值型数据, 但不能用于定类数据104 四分位数(位置的确定)下四分位数(QL)位置 =14 3(N+1 上四分位数(QU)位置 = ) 4 下四分位数(QL)位置 = 4 上四分位数(QL)位置 =N+未分组数据:N 3N4105组距分组数据: 定序数据的四分位数(算例)【例3.4】根据第三章表3-2中的数据,计算甲城市家庭对住房 满意状况评价的四分位数表3-2 甲城市家庭对住房状况评价的频数分布 解:下四分位数(QL)的位置为: QL位置=(300)/4=75 上四分位数(QL)的位置为: QU位置=(3×300)/4=225 从累计频数看, QL在“不满意” 这一组别中; QU在“一般”这 一组别中。因此 QL =不满意 QU =一般106回答类别 非常不满意 不满意 一般 满意 非常满意 合计甲城市 户数 (户) 24 108 93 45 30 300 累计频数 24 132 225 270 300 ― 定量数据的四分位数(7个数据的算例)? ? ?原始数据: 排 序: 位 置:23 21 21 23 1 2?30 25 3=32 26 47+128 25 26 28 30 32 5 6 7?QL位置 = 1N+4 4 3(N+1 3(7+1) = =6 QU位置 = ) 4 4=2QL= 23QU = 30107 定量数据的四分位数(6个数据的算例)? ? ?原始数据: 23 21 30 28 25 26 排 序: 21 23 25 26 28 30 位 置: 1 2 3 4 5 6?3(N+1 3(6+1) QU位置 = = = 5.25 ) 4 4 QL= 21+0.75(23-21) QU = 28+0.25(30-28) = 22. 5 = 28.5108QL位置 = 1 4N+=6+14?= 1.75 均值? ? ???1. 集中趋势的测度值之一 2. 最常用的测度值 3. 一组数据的均衡点所在 4. 易受极端值的影响 5. 用于数值型数据,不能用于定类数据 和定序数据109 均值(计算公式)设一组数据为:X1 ,X2 ,… ,XN 简单均值的计算公式为 NX 1 ? X 2 ? ? ? X N i ?1 X? ? N N?Xi设分组后的数据为:X1 ,X2 ,… ,XK 相应的频数为: F1 , F2,… ,FK 加权均值的计算公式为X 1 F1 ? X 2 F2 ? ? ? X N FN X ? ? ? F1 ? F2 ? ? ? FN?X Fi ?1 K iKi?Fi ?1i 简单均值(算例)?原始数据: 10591368X1 ? X 2 ? X 3 ? X 4 ? X 5 ? X 6 X? ? N 6 10 ? 5 ? 9 ? 13 ? 6 ? 8 ? 6 ? 8.5i ?1 i111?XN 加权均值(算例)【例3.7】根据第三章表3-5中的数据,计算50 名工人日加工零件数的均值表3-1 某车间50名工人日加工零件均值计算表 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计K组中值(Xi) 107.5 112.5 117.5 122.5 127.5 132.5 137.5 ―频数(Fi) 3 5 8 14 10 6 4 50XiFi 322.5 562.5 940.0 5.0 795.0 550.0 6160.0X ? ??Xi ?1 K i ?1iFii?F?6160 ? 123 .(个) 2 ? 50112 加权均值(权数对均值的影响)?甲乙两组各有10名学生,他们的考试成绩及其分布数据 如下甲组: 考试成绩(X ): 0 人数分布(F ):1 20 1 100 8? ? ? ?乙组: 考试成绩(X ): 0 人数分布(F ):820 1100 1X甲 ? X乙 ?? Xii=1? Xii=1n? ?0×1+20×1+100×8100×8+20×1+100×1 10? 82(分) ? 12(分)113n 均值(数学性质)?1. 各变量值与均值的离差之和等于零?(Xi ?1ni? X) ?02.各变量值与均值的离差平方和最小?(Xi ?1ni? X ) ? min2114 几何平均数1. 2. 3. 4. 5.?? ???集中趋势的测度值之一 N 个变量值乘积的 N 次方根 适用于特殊的数据 主要用于计算平均发展速度 计算公式为GM ?NX 1 ? X 2 ??? X N ?N?Xi ?1Ni6. 可看作是均值的一种变 ? log X i 形 log G ? 1 (log X ? log X ? ? ? log X ) ? i ?1 M 1 2 NN N115N 几何平均数(算例)?【例3.10】一位投资者持有一种股票,1996 年、1997年、1998年和1999年收益率分别为 4.5%、2.0%、3.5%、5.4%。计算该投资者在 这四年内的平均收益率。GM ? N X 1 ? X 2 ? ? ? X N ? 4 104 .5% ? 102 .0% ? 103 .5% ? 105 .4% ? 103 .84 %平均收益率=103.84%-1=3.84%116 众数、中位数和均值的比较117 众数、中位数和均值的关系均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值左偏分布对称分布右偏分布 数据类型与集中趋势测度值表3-4 数据类型和所适用的集中趋势测度值数据类型 适 用 的 测 度 值 定类数据 ※众数 ― ― ― ― ― 定序数据 ※中位数 四分位数 众数 ― ― ― 定距数据 ※均值 众数 中位数 四分位数 ― ― 定比数据 ※均值 调和平均数 几何平均数 中位数 四分位数 众数119 第二节离散程度的测度一. 四分位差 二. 方差及标准差 三. 相对离散程度:离散系数120 离中趋势1. 数据分布的另一个重要特征2. 离中趋势的各测度值是对数据离散程度所作的描述 3. 反映各变量值远离其中心值的程度,因此也称为离中趋势 4. 从另一个侧面说明了集中趋势测度值的代表程度 5. 不同类型的数据有不同的离散程度测度值121 数据的特征和测度数据的特征和测度集中趋势众 数 中位数 均 值离散程度分布的形状偏 态四分位差 方差和标准差 离散系数峰 度122 四分位差123 四分位差?? ? ? ? 5. 6.1. 离散程度的测度值之一2. 也称为内距或四分间距3. 上四分位数与下四分位数之差QD = QU - Q L 4. 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性124 四分位差(定序数据的算例)【例3.12】根据第三章表3-2中的数据, 计算甲城市家庭对住房满意状况评价 的四分位差表3-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市 户数 (户) 累计频数解:设非常不满意为1, 不满意为2, 一般为3, 满 意 为 4, 非 常 满 意 为 5 已知 QL = 不满意 = 2, QU = 一般 = 3 四分位差: QD = QU = QL非常不满意 不满意 一般 满意 非常满意合计24 108 93 45 3030024 132 225 270 300―=3C2 =1125 方差和标准差126 极差1. 一组数据的最大值与最小值之差 ? 2. 离散程度的最简单测度值 ? 3. 易受极端值影响 ? 4. 未考虑数据的分布 7 8 9 10 7 8 9 10 5. 计算公式为?未分组数据 组距分组数据R = max(Xi) - min(Xi) R. =最高组上限 - 最低组下限127 方差和标准差?? ? 4. 5.1. 离散程度的测度值之一2. 最常用的测度值X = 8.34 6 8 10 123. 反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或 标准差;根据样本数据计算的,称为样 本方差或标准差128 总体方差和标准差(计算公式)方差的计算公式未分组数据:标准差的计算公式未分组数据:?2 ??(X i ? X )i ?1N2N??( X i ? X )2 ?i ?1NN( X i ? X ) 2 Fi ?i ?1 K组距分组数据:组距分组数据:2? ? ?2?(Xi ?1Ki K? X ) Fi?? ?? Fii ?1?Fi ?1Ki 总体标准差(计算过程及结果)【例3.14】根据第三章表3-5中的数据,计算工人日加工零件数的标准差表3-6 某车间50名工人日加工零件标准差计算表 按零件数分组 组中值(Xi) 频数(Fi) (Xi- X )2 (Xi- X )2Fi105~110 110~115 115~120 120~125 125~130 130~135 135~140合计107.5 112.5 117.5 122.5 127.5 132.5 137.5―K3 5 8 14 10 6 450i K246.49 114.49 32.49 0.49 18.49 86.49 204.49―739.47 572.45 259.92 6.86 184.90 518.94 817.963100.5? ? ??(Xi ?1? X ) 2 Fii?Fi ?1?3100 .5 ? 7.87 (个) ? 50130 样本方差和标准差(计算公式)方差的计算公式未分组数据:注意: 样本方差用自 由度n-1去除!标准差的计算公式未分组数据:S n2?1 ?( xi ? x ) 2 ?i ?1nn ?1( xi ? x ) 2 f i ?i ?1 kS n ?1 ?( xi ? x ) 2 ?i ?1nn ?1( xi ? x ) 2 f i ?i ?1 k组距分组数据:组距分组数据:S n2?1 ? ??i ?1kfi ?1S n ?1 ? ??fi ?1ki?1 样本方差 自由度(degree of freedom)1.2.3.4.一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值?x 确定后, 只有n-1个数据可以自由取值,其中必有一个数据则 不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 ?x = 5。当 ?x = 5 确定后,x1,x2和x3有两个数据可以 自由取值,另一个则不能自由取值,比如x1=6, x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面来解释 ,从实际应用角度看,在抽样估计中,当用样本方 差去估计总体方差σ2时,它是σ2的无偏估计量132 样本方差(算例)?原始数据: 10S2 n ?1?? (xi ?1n591368i? x)2n ?1 2 2 2 (10 ? 8.5) ? (5 ? 8.5) ? ? ? (8 ? 8.5) ? 6 ?1 ? 8.3133 样本标准差(算例)原始数据:?10591368样本标准差S n ?1 ?? (xi ?1ni? x)2n ?1? 8.3 ? 2.88134 方差(简化计算公式)( X i ? X )2 ?i ?1 N总体方差? ?2Nn 2?nX i2 ?i ?1NN2 i? ?X ?n2样本方差S n2?1? ? ? ( xi ? x ) ? x ? ? xi ? i ?1 ? ? i ?1 ? i ?1 ? ? n ?1 n ? 1 n(n ? 1)2 标准化值(概念要点和计算公式)? ? ? ? ?1. 也称标准分数 2. 给出某一个值在一组数据中的相对位置3. 可用于判断一组数据是否有离群点 4. 用于对变量的标准化处理 5. 计算公式为Xi ? X xi ? x Zi ? 或 Zi ? ? S n?1136 相对离散程度:变异系数137 变异系数(概念要点和计算公式)?1. 标准差与其相应的均值之比?2. 消除了数据水平高低和计量单位的影 响3. 测度了数据的相对离散程度 4. 用于对不同组别数据离散程度的比较 5. 计算公式为 V ? ? ?? ? ?XS 或 Vs ? x138 变异系数(实例和计算过程)【例3.16】某管理局抽查了所属的8家企业,其产品销售数据 如表3.7。试比较产品销售额与销售利润的离散程度表3-7企业编号 1 2 3 4 5 6 7 8某管理局所属8家企业的产品销售数据销售利润(万元) X28.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0139产品销售额(万元) X1170 220 390 430 480 650 950 1000 变异系数(计算结果)X1=536.25(万元) X2=32.5215(万元)S1=309.19(万元)309.19 =0.577 V1= 536.25S2=23.09(万元)23.09 V2= =0.710 32.5215结论: 计算结果表明,V1&V2,说明产品销售额的 离散程度小于销售利润的离散程度140 数据类型与离散程度测度值表3-8 数据类型和所适用的离散程度测度值数据类型 适 用 的 测 度 值 定类数据 ※异众比率 ― ― ― ― ― 定序数据 ※四分位差 异众比率 ― ― ― ― 定距数据或定比数据 ※方差或标准差 ※离散系数(比较时用) 平均差 极差 四分位差 异众比率141 第三节偏态与峰度的测度一. 偏态及其测度 二. 峰度及其测度142 数据的特征和测度数据的特征和测度集中趋势众 数 中位数 均 值离散程度异众比率分布的形状偏 态四分位差 方差和标准差 离散系数峰 度143 偏态与峰度分布的形状偏态 峰度左偏分布扁平分布与标准正态 分布比较!右偏分布尖峰分布144 偏态(概念要点)? ? ? ? ?1. 数据分布偏斜程度的测度2. 偏态系数=0为对称分布3. 偏态系数& 0为右偏分布4. 偏态系数& 0为左偏分布5. 计算公式为?3 ?? ?XK i ?1i? X ? Fi3 3145N? 偏态(实例)【 例 3.17】 已 知 1997年我国农村居 民家庭按纯收入分 组的有关数据如表 3.9 。 试 计 算 偏 态 系数表3-10 1997年农村居民家庭纯收入数据按纯收入分组(元)500以下 500~00 00~00 00~00 00以上户数比重(%)2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94146 偏态与峰度(从直方图上观察)25户 数 比 重 (% )20 1 5 1 0结论:1. 为右偏分布 2. 峰度适中5←500 100 0250 0300 0350 0400 450 0 0按纯收入分组(元)147500 0→农村居民家庭村收入数据的直方图 偏态系数(计算过程)表3-10 农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组 (百元)5以下 5―10 10―15 15―20 20―25 25―30 30―35 35―40 40―45 45―50 50以上组中值 Xi2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5户数比重(%) Fi2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94(Xi- X ) Fi3-154.64 -336.46 -144.87 -11.84 0.18 23.16 89.02 171.43 250.72 320.74 1481.81(Xi- X ) Fi46.51 .52 0.20 140.60 985.49 2.94 41.33合计―1001689.2572521.25148 偏态系数(计算结果)根据上表数据计算得X ? ? Xi ? ?i ?1KFi? Fii ?13K? 21.429 (百元) ? ? ? ?? Xi ?i ?1KFi?Fi ?1K? 12 .089 (百元) ?i将计算结果代入公式得?3 ?? ?XK i ?1i? X ? FiN? 3?? X i ? 21.429 ?3 Fi ?i ?1111 ? ?12.089 ?3?1689 .25 ? 0.956 结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯 收入的分布为右偏分布,即收入较少的家庭占据多数,而收入 较高的家庭则占少数,而且偏斜的程度较大149 峰度(概念要点)?1. 数据分布扁平程度的测度??2. 峰度系数=3扁平程度适中3. 峰度系数&3为扁平分布??4. 峰度系数&3为尖峰分布5. 计算公式为 K?4 ?? ?Xi ?1i? X ? Fi4 4150N? 峰度系数系数(实例计算结果)【例3.18】根据表3-10中的计算结果,计算农村 居民家庭纯收入分布的峰度系数 代入公式得?4 ?? ?XK i ?1i? X ? Fi4 4N??1 ? ?12 .089 ?72521 .252? 3.4结论:由于=3.4&3,说明我国农村居民家庭纯收 入的分布为尖峰分布,说明低收入家庭占有较大 的比重151 由Excel输出的描述统计量平均 122.98 S 标准误差 1.14 ?x ? 中 值 (中 位 数 ) 123 n 模 式 (众 数 ) 122 2 标准偏差 n(n ? 1) ( xi ? x ) 4 ? 3 ( xi ? x ) 2 (n ? 1) 8 . 0 3 样本方差 64.43 峰值 -0.41 (n ? 1)( n ? 2)( n ? 3) S 4 偏斜度 0.00 区 域 (极 差 ) 32 最小值 107 n ( xi ? x ) 3 最大值 139 求和 6149 (n ? 1)( n ? 2) S 3 计数 50 最大( 1 ) 139 最小( 1 ) 107 置信度( 9 5 . 0 % ) 2.28?????152 第四章 概率与概率分布? ?第一节 概率基础 第二节 随机变量及其分布153 第一节 概率基础一.二.随机事件及其概率概率的性质与运算法则154 随机事件的几个基本概念155 试 验1.2. 3.在相同条件下,对事物或现象所进行的观察例如:掷一枚骰子,观察其出现的点数 试验具有以下特点? ?可以在相同的条件下重复进行 每次试验的可能结果可能不止一个,但试验的所 有可能结果在试验之前是确切知道的 在试验结束之前,不能确定该次试验的确切结果?156 事件的概念1.事件:随机试验的每一个可能结果(任何样本点集合)?例如:掷一枚骰子出现的点数为32.随机事件:每次试验可能出现也可能不出现的事件?例如:掷一枚骰子可能出现的点数例如:掷一枚骰子出现的点数小于7 例如:掷一枚骰子出现的点数大于61573.必然事件:每次试验一定出现的事件,用?表示?4.不可能事件:每次试验一定不出现的事件,用?表示? 事件与样本空间1.基本事件? ?一个不可能再分的随机事件 例如:掷一枚骰子出现的点数 一个试验中所有基本事件的集合,用?表示 例如:在掷枚骰子的试验中,??{1,2,3,4,5,6} 在投掷硬币的试验中,??{正面,反面}2.样本空间? ? ?158 事件的关系和运算(事件的包含)? 若事件A发生必然导致事件B发生, 则 称事件B包含事件A,或事件A包含于事件 B,记作或 A ? B或 B ? A?B AB?A159 事件的关系和运算(事件的并或和)? 事件A和事件B中至少有一个发生的事件称为 事件A与事件B 的并。它是由属于事件A或事件B 的所有的样本点组成的集合,记为A∪B或A+B?ABA∪B160 事件的关系和运算(事件的交或积)? 事件A与事件B同时发生的事件称为事件A与事 件B的交,它是由属于事件A也属于事件B的所有 公共样本点所组成的集合,记为B∩A 或AB?A BA∩B161 事件的关系和运算(互斥事件)? 事件A与事件B中,若有一个发生,另一个必定不 发生, 则称事件A与事件B是互斥的,否则称两个事 件是相容的。显然,事件A与事件B互斥的充分必要 条件是事件A与事件B没有公共的样本点?ABA 与 B互不相容162 事件的关系和运算(事件的逆)? 一个事件B与事件A 互斥,且它与事件 A的并是 整个样本空间?,则称事件 B 是事件 A 的逆事件。 它是由样本空间中所有不属于事件A的样本点所组 成的集合,记为?A?A?A163 事件的关系和运算(事件的差)? 事件A发生但事件B不发生的事件称为事件A 与事件B的差,它是由属于事件A而不属于事件 B的那些样本点构成的集合,记为A-B?A B A-B164 事件的概率165 事件的概率1.2. 3. 4.事件A的概率是对事件A在试验中出现的 可能性大小的一种度量 表示事件A出现可能性大小的数值 事件A的概率表示为P(A) 概率的定义有:古典定义、统计定义和 主观概率定义166 事件的概率?例如,投掷一枚硬币,出现正面和反面的频率, 随着投掷次数 n 的增大,出现正面和反面的频率 稳定在1/2左右正面 /试验次数1.000.75 0.50 0.25 0.0002550 75 试验的次数100125167 概率的古典定义?如果某一随机试验的结果有限,而且各个 结果在每次试验中出现的可能性相同,则 事件A发生的概率为该事件所包含的基本 事件个数 m 与样本空间中所包含的基本事 件个数 n 的比值,记为事件A所包含的基本事件个数 m P( A) ? = 样本空间所包含的基本事件个数 n168 概率的古典定义(实例)【例】某钢铁公司所属三个工厂的职工人数如下表。从该公司中随机抽取1人,问: (1)该职工为男性的概率 (2)该职工为炼钢厂职工的概率某钢铁公司所属企业职工人数工厂 炼钢厂 炼铁厂 轧钢厂 合计 男职工 0 8500 女职工 0 4000 合计 00 12500169 概率的古典定义(计算结果)解:(1)用A 表示D抽中的职工为男性‖这一事件;A为全公 司男职工的集合;基本空间为全公司职工的集合。 则 全公司男性职工人数 8500 P( A) ? ? ? 0.68 全公司职工总人数 12500 (2) 用B 表示“抽中的职工为炼钢厂职工”;B为炼钢厂 全体职工的集合;基本空间为全体职工的集合。则炼钢厂职工人数 4800 P( B) ? ? ? 0.384 全公司职工总人数 12500170 概率的统计定义?在相同条件下进行n次随机试验,事件A出 现 m 次,则比值 m/n 称为事件A发生的频 率。随着n的增大,该频率围绕某一常数P 上下摆动,且波动的幅度逐渐减小,取向 于稳定,这个频率的稳定值即为事件A的 概率,记为m P( A) ? ? p n171 概率的统计定义(实例)【例】:某工厂为节约用电,规定每天的用电量指标 为1000度。按照上个月的用电记录,30天中有12天的 用电量超过规定指标,若第二个月仍没有具体的节电 措施,试问该厂第一天用电量超过指标的概率。 解:上个月30天的记录可以看作是重复进行了30次 试验,试验A表示用电超过指标出现了12次。根据概 率的统计定义有 超过用电指标天数 12 P( A) ? ? ? 0.4 试验的天数 30172 主观概率定义1.2.3.对一些无法重复的试验,确定其结果的概 率只能根据以往的经验人为确定 概率是一个决策者对某事件是否发生,根 据个人掌握的信息对该事件发生可能性的 判断 例如,我认为2009年的中国股市是一个盘 整年173 概率的性质与运算法则174 概率的性质1.非负性?对任意事件A,有 0 ? P ? 1 必然事件的概率为1;不可能事件的概率为0。 即P ( ? ) = 1; P ( ? ) = 0 若A与B互斥,则P ( A∪B ) = P ( A ) + P ( B ) 推广到多个两两互斥事件A1,A2,…,An,有 P ( A1∪A2 ∪… ∪An) = P ( A1 ) + P (A2 ) + …+ P (An )1752.规范性?3.可加性? ? 概率的加法法则?1.2.? 法则一 两个互斥事件之和的概率,等于两个事件 概率之和。设A和B为两个互斥事件,则 P ( A∪B ) = P ( A ) + P ( B ) 事件A1,A2,…,An两两互斥,则有 P ( A1∪A2 ∪… ∪An) = P ( A1 ) + P (A2 ) + …+ P (An )176 概率的加法法则(实例)【例】根据钢铁公司职工的例子,随机抽取一 名职工,计算该职工为炼钢厂或轧钢厂职工的 概率 解:用A表示“抽中的为炼钢厂职工”这一 事件; B 表示“抽中的为轧钢厂职工”这一事 件。随机抽取一人为炼钢厂或轧钢厂职工的事 件为互斥事件A与B 的和,其发生的概率为 P( A ? B) ? P( A) ? P( B) ? ? ? 0.504 177 概率的加法法则? 法则二 对任意两个随机事件A和B , 它 们 和 的 概 率为两个事件分别概率的和减去两个事 件交的概率,即P ( A∪B ) = P ( A ) + P ( B ) - P ( A∩B )178 概率的加法法则(实例)【例】设某地有甲、乙两种报纸,该地成年人中 有20%读甲报纸,16%读乙报纸,8%两种报纸 都读。问成年人中有百分之几至少读一种报纸。 解:设A={读甲报纸},B={读乙报纸},C= {至少读一种报纸}。则P ( C ) =P ( A∪B )= P ( A ) + P ( B ) - P ( A∩B ) =0.2 + 0.16 - 0.08 = 0.28179 条件概率与独立事件180 条件概率?? 在事件B已经发生的条件下,求事件 A发生的概率,称这种概率为事件B发 生条件下事件A发生的条件概率,记为P(AB) P(A|B) = P(B)181 条件概率的图示?事件A 事件B 一旦事件B发生事件 A?B及其 概率P (A?B)事件B及其 概率P (B)182 概率的乘法公式1.2. 3.用来计算两事件交的概率 以条件概率的定义为基础 设A、B为两个事件,若P(B)&0,则 P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A)183 概率的乘法公式(实例)【例】设有1000中产品,其中850件是正品, 150件是次品,从中依次抽取2件,两件都是次 品的概率是多少? 解 : 设 Ai 表 示 “ 第 i 次 抽 到 的 是 次 品 ”(i=1,2),所求概率为P(A1A2)P( A1 A2 ) ? P( A1 ) P( A2 | A1 ) 150 149 ? ? ? 0.9184 事件的独立性1.2.3. ? 4. ?一个事件的发生与否并不影响另一个事件 发生的概率,则称两个事件独立 若事件A与B独立,则P(B|A)=P(B), P(A|B)=P(A) 此时概率的乘法公式可简化为 P(AB)=P(B)? P(B) 推广到n个独立事件,有 P(A1 A2 …An)=P(A1)P(A2) … P(An)185 事件的独立性(实例)【例】某工人同时看管三台机床,每单位时间(如30分钟)内机 床不需要看管的概率:甲机床为0.9,乙机床为0.8,丙机床为 0.85。若机床是自动且独立地工作,求(1)在30分钟内三台机床都不需要看管的概率(2)在30分钟内甲、乙机床不需要看管,且丙机床需要看管 的概率解:设 A1,A2,A3 为甲、乙、丙三台机床不需要看管的事 件, A3 为丙机床需要看管的事件,依题意有 (1) P(A1A2A3)= P(A1) ?P(A2) ? P(A3) =0.9?0.8?0.85 =0.612(2) P(A1A2?A3)= P(A1) ?P(A2) ? P(?A3)= 0.9?0.8?(1-0.85) =0.108186 全概公式?? 设事件A1,A2,…,An 两两互斥, A1+A2+…+ An=?(满足这两个条件的事件组称为一个完备事 件组),且P(Ai)&0(i=1,2, …,n),则对任意事件B ,有 nP( B) ? ? p ( Ai ) P ( B | Ai )i ?1我们把事件A1,A2,…,An 看作是引起事件B发 生的所有可能原因,事件B 能且只能在原有A1, A2,…,An 之一发生的条件下发生,求事件B 的 概率就是上面的全概公式187 全概公式(实例)【例】某车间用甲、乙、丙三台机床进行生产,各种机床的 次品率分别为5%、4%、2%,它们各自的产品分别占总产 量的25%、35%、40%,将它们的产品组合在一起,求任取 一个是次品的概率。 解:设 A1表示“产品来自甲台机床”, A2表示“产品来 自乙台机床”, A3表示“产品来自丙台机床”, B表示“取 到次品”。根据全概公式有P ( B ) ? ? p ( Ai ) P ( B | Ai )i ?13? 0.25 ? 0.05 ? 0.35 ? 0.04 ? 0.40 ? 0.02 ? 0.0345188 贝叶斯公式(逆概公式)1.2.与全概公式解决的问题相反,贝叶斯公式是建立 在条件概率的基础上寻找事件发生的原因 设n个事件A1,A2,…,An 两两互斥, A1+A2+…+ An=? (满足这两个条件的事件组称为 一个完备事件组),且P(Ai)&0(i=1,2, …,n),则P( Ai | B) ?P( Ai ) P( B | Ai )? p( A ) P( B | A )j ?1 j j189n 贝叶斯公式【例】某车间用甲、乙、丙三台机床进行生产,各种机床的 次品率分别为5%、4%、2%,它们各自的产品分别占总产量 的25%、35%、40%,将它们的产品组合在一起,如果取到 的一件产品是次品,分别求这一产品是甲、乙、丙生产的概 率 解:设 A1表示“产品来自甲台机床”, A2表示“产品来自 乙台机床”, A3表示“产品来自丙台机床”, B表示“取到 次品”。根据贝叶斯公式有:0.25 ? 0.05 ? 0.5 0.35 ? 0.04 P ( A2 | B ) ? ? 0.406 0. ? 0.02 P ( A3 | B ) ? ? 0.232 0.0345 P ( A1 | B ) ?(实例)190 第二节 随机变量及其分布一. 随机变量的概念二. 离散型随机变量的概率分布 三. 连续型随机变量的概率分布191 随机变量的概念192 随机变量的概念1. 2. 3. 4.一次试验的结果的数值性描述 一般用 X、Y、Z 来表示 例如: 投掷两枚硬币出现正面的数量 根据取值情况的不同分为离散型随机变 量和连续型随机变量193 离散型随机变量1.随机变量 X 取有限个值或所有取值都可以逐 个列举出来 X1 , X2,…以确定的概率取这些不同的值 离散型随机变量的一些例子试验 抽查100个产品 一家餐馆营业一天 电脑公司一个月的销售 销售一辆汽车 随机变量 取到次品的个数 顾客数 销售量 顾客性别 可能的取值 0,1,2, …,100 0,1,2, … 0,1, 2,… 男性为0,女性为11942. 3. 连续型随机变量1.2.3.随机变量 X 取无限个值 所有可能取值不可以逐个列举出来,而是取 数轴上某一区间内的任意点 连续型随机变量的一些例子试验 随机变量 可能的取值X?0 使用寿命(小时) 抽查一批电子元件 半年后工程完成的百分比 0? X ?100 新建一座住宅楼 X?0 测量一个产品的长度 测量误差(cm)195 离散型随机变量的概率分布196 离散型随机变量的概率分布1.2. 3.列出离散型随机变量X的所有可能取值 列出随机变量取这些值的概率 通常用下面的表格来表示X = xi P(X =xi)=pi x1 ,x2 ,… ,xn p1 ,p2 ,… ,pn4. P(X =xi)=pi称为离散型随机变量的概率函数 ? pi?0? ? pi 0i ?1n?1197 离散型随机变量的概率分布(实例)【例】如规定打靶中域Ⅰ得3分,中域Ⅱ得2分 ,中域Ⅲ得1分,中域外得0分。今某射手每100 次射击,平均有30次中域Ⅰ,55次中域Ⅱ,10 次中Ⅲ,5次中域外。则考察每次射击得分为 0,1,2,3这一离散型随机变量,其概率分布为 X = xi P(X=xi)?pi 0 1 2 30.05 0.10 0.55 0.30198 离散型随机变量的概率分布(0―1分布)1.2.一个离散型随机变量X只取两个可能的值 ? 例如,男性用 1表示,女性用0表示; 合格品用 1 表示,不合格品用0表示 列出随机变量取这两个值的概率199 离散型随机变量的概率分布(0―1分布实例)【例】已知一批产品的次品率为p=0.05,合格 率为 q=1-p=1-0.5=0.95。并指定废品用1表示 ,合格品用0表示。则任取一件为废品或合格品 这一离散型随机变量,其概率分布为P(x)X = xiP(X=xi)=pi00.0510.951 0.5 01x200 离散型随机变量的概率分布(均匀分布)1.2. 3.一个离散型随机变量取各个值的概率相同 列出随机变量取值及其取值的概率 例如,投掷一枚骰子,出现的点数及其出 现各点的概率201 离散型随机变量的概率分布(均匀分布实例)【例】投掷一枚骰子,出现的点数是个离散型 随机变量,其概率分布为 X = xiP(X=xi)=piP(x)1/61231/641/651/661/61/6 1/60123456x202 离散型随机变量的数学期望和 方差203 离散型随机变量的数学期望1.2. 3.在离散型随机变量X的一切可能取值的完备 组中,各可能取值xi与其取相对应的概率pi乘 积之和 描述离散型随机变量取值的集中程度 计算公式为E ( X ) ? ? xi pii ?1 ? n( X取有限个值) ( X取无穷个值)204E ( X ) ? ? xi pii ?1 离散型随机变量的方差1.2.3.随机变量X的每一个取值与期望值的离差平方 和的数学期望,记为D(X) 描述离散型随机变量取值的分散程度 计算公式为D ( X ) ? E[ X ? E ( X )] 2 若X是离散型随机变量,则 D( X ) ?? ?xi ?1?i? E ( X )? ? p i2205 离散型随机变量的方差(实例)【例】投掷一枚骰子,出现的点数是个离散型随机 变量,其概率分布为如下。计算数学期望和方差X = xi P(X =xi)=pi1263 1/64 1/65 1/66 1/61/6 1/61 1 解:数学期望为:E ( X ) ? ? xi pi ? 1 ? ? ? ? 6 ? ? 3.5 6 6 i ?1方差为:D( X ) ? ? ?xi ? E ( X )?2 ? pii ?16? (1 ? 3.5) 2 ?1 1 ? ? ? (6 ? 3.5) 2 ? ? 2.206 常见的离散型概率分布207 二项试验(贝努里试验)1.2.二项分布与贝努里试验有关 贝努里试验具有如下属性? ??? ?试验包含了n 个相同的试验 每次试验只有两个可能的结果,即D成功‖和 D失败‖ 出现D成功‖的概率 p 对每次试验结果是相同 的;D失败‖的概率 q 也相同,且 p + q = 1 试验是相互独立的 试验D成功‖或D失败‖可以计数208 二项分布1.2.进行 n 次重复试验,出现D成功‖的次数的 概率分布称为二项分布 设X为 n 次重复试验中事件A出现的次数, X 取 x 的概率为P?X ? x? ? C nx p x q n ? xx 式中:C n ? n! x! ( n ? x )!( x ? 0,1,2,? , n)209 二项分布1.显然, 对于P{X=x}? 0, x =1,2,…,n,有C nx p x q n ? x ? ( p ? q) 2 ? 1 ?x ?0 n2.同样有P?0 ? X ? m? ? P?m ? X ? n? ??Cx ?0 n x?mmx np x q n? xx n? x3.?C p q 当 n = 1 时,二项分布化简为x nP?X ? x? ? p x q1? x ? 1x ? 0,1210 二项分布的数学期望和方差1.? 2. ?二项分布的数学期望为 E ( X ) = np 方差为 D ( X ) = npq211 二项分布(实例1)【例1】已知某生产线产品的次品率为5%,现 从生产线上随机抽查3件。求在所抽取的3件产 品中恰好有2件次品的概率。 解:设 X 为所抽取的3件产品中的次品数, 则X~B ( 3 , 0.05),根据二项分布公式有P?X ? 2? ? C (0.05) (0.95)2 3 23? 2? 0.007125212 例2: 雇工问题n二项分布某公司希望雇佣比较少的员工,根据 以往经验每年有10%的员工被辞退。因 此,随机抽取一名工人,他就有10%的 可能性明年离开公司。那么,如果随机 抽取3名工人,他们当中有一个人离开公 司的可能性是多少呢?213 例2: 雇工问题应用二项公式,令 令: p = .10, n = 3, x = 11 P( X ? 1) ? C3 (0.1)1 (0.9) 2= (3)(0.1)(0.81)=0.243 例2: 雇工问题?应用二项分布表p .30 . .n 3x 0 1 2 3.10 . ..15 . ..20 . ..25 . ..35 . ..40 . ..45 . ..50 . .215 例2:雇工问题 ? 树图第一个工人 第二个工人 辞退 (.1)辞退 (.1) 留下 (.9) 第三个工人 辞退 (.1) 留下 (.9) 辞退 (.1) 留下 (.9) 辞退 (.1) 辞退(.1) x 3 2 2 1 2 1 1 0 可能性. ..0090.留下 (.9)辞退 (.9)留下 (.9) 辞退 (.1) 留下 (.9).0810.216 例2:雇工问题?二项式分布? ???三个雇员中被辞退的员工数量的期望值 E(x) = ? = 3(.1) = .3 方差 Var(x) = ? 2 = 3(.1)(.9) = .27 标准差SD( x) ? ? ? 3(.1)(.9) ? .52217 泊松分布1.2.用于描述在一指定时间范围内或在一定的 长度、面积、体积之内每一事件出现次数 的分布 泊松分布的例子???一个城市在一个月内发生的交通事故次数 消费者协会一个星期内收到的消费者投诉次 数 人寿保险公司每天收到的死亡声明的人数218 泊松概率分布函数?e P?X ? x? ? x!x ??( x ? 0,1,2,? , n)?― 给定的时间间隔、长度、面积、体 积内D成功‖的平均数 e = 2.71828 x ―给定的时间间隔、长度、面积、体 积内D成功‖的次数219 泊松概率分布的期望和方差1. ?2.? ?泊松分布的数学期望为 E(X)=? 方差为 D(X)=?220 例子: 医院问题??应用泊松公式 医院急诊室平均每小时6个人。 那么在30分钟里来4个人的概率是多少?34 (2.71828)?3 f (4) ? ? .1680 4!??? = 6/小时 = 3/半小时, x = 4221 例子: 医院问题?应用泊松分布表?2.1 . . . . . . . . . . . . . . . . . . . . . . .1336 .. . 2.6 . . . . . . . . . . . . . . . . . . . . . . . . .0081x 0 1 2 3 4 5 6 7 8222 泊松分布(实例)【例】假定某企业的职工中在周一请假的人数X 服从泊松分布,且设周一请事假的平均人数为 2.5人。求 (1)X 的均值及标准差 (2)在给定的某周一正好请事假是5人的概率 解:(1) E(X)=?=2.5;D(X) = ?=?2.5=1.581(2.5) 5 e ?2.5 (2) P?X ? 5? ? ? 0.067 5!223 泊松分布(作为二项分布的近似)1.当试验的次数 n 很大,成功的概率 p 很小时 ,可用泊松分布来近似地计算二项分布的概 率,即C pqx nx n? x?e ? x!x ??2. 实际应用中,当 P?0.25,n&20,np?5时, 近似效果良好224 连续型随机变量的概率分布225 连续型随机变量的概率分布1.2. 3. 4. 5.连续型随机变量可以取某一区间或整个实数轴上的任 意一个值 它取任何一个特定的值的概率都等于0 不能列出每一个值及其相应的概率 通常研究它取某一区间值的概率 在反映连续型随机变量的概率分布时,可以用分布密 度函数来描述。 概率密度函数f(x): 在连续型概率分布中,描述其概 率分布的函数称为概率密度函数。如果曲线f(x)在x轴 上围成的面积等于1,则f(x)为一个概率密度函数。2266. 概率密度函数1.设X为一连续型随机变量,x 为任意实数 ,X的概率密度函数记为f(x),它满足条 件(1) f ( x) ? 0 (2) ??? ??f ( x)dx ? 12. f(x)不是概率227 概率密度函数?? 密度函数 f(x)表示X 的所有取值 x 及其频 数f(x)频数 (值, 频数)f(x)a值bx228 概率密度函数?? 在平面直角坐标系中画出f(x)的图形,则对于任 何实数 x1 & x2,P(x1& X? x2)是该曲线下从x1 到 x2的面积概率是曲线下的面积P(a ? X ? b) ? ? f ( x)dxabf(x)abx229 分布函数1.2.连续型随机变量的概率也可以用分布函数 F(x)来表示 分布函数定义为F ( x) ? P( X ? x) ? ? f (t )dt?? bx(?? ? x ? ??)P(a ? X ? b) ? ? f ( x)dx ? F (b) ? F (a)a230 分布函数与密度函数的图示1.2.密度函数曲线下的面积等于1 分布函数是曲线下小于 x0 的面积f (x )F ( x0 )x0x231 连续型随机变量的期望和方差1.连续型随机变量的数学期望为E ( X ) ? ? xf ( x)dx ? ??? ??2.方差为D( X ) ? ??x ? E( X )? ????2f ( x)dx ? ?2232 均匀分布233 均匀分布1.若随机变量X的概率密 度函数为? 1 a? X ?b ? f ( x) ? ? b ? a ?0 其他 ?f( x )1 b?a?称X在区间[a ,b]上 均匀分布 数学期望和方差分别为a?bx2.a?b (b ? a) 2 E( X ) ? ; D( X ) ? 2 12 例子: 行车问题开车从甲地到乙地的时间服从5小时到7 小时之间的均匀分布 概率密度函数是 f(x) = 1/2 5 & x &7 =0 其他 这里: x=行车时间235 例子:行车问题? ?行车时间服从均匀概率分布f(x)1/2 x 5 6 7行车时间236 例子: 行车问题?从甲地到乙地用6小时到6.3小时 的概率是多少?f(x) P(6 & x & 6.3) = 1/2(0.3) = .15 1/2 x 5 6 6.3 行车时间 7237 例子:行车问题x的均值E(x) = (a + b)/2 = (5 +7)/2 =6x的方差 Var(x) = (b - a)2/12 = (7 C 5)2/12 = 0.33238 正态分布239 正态分布的重要性?1. 描述连续型随机变量的最重要的分布?2. 它应用广泛? ? ? ?人的身高和重量 考试成绩 产品产量 投资收益?测量误差等等?3. 经典统计推断的基础240 概率密度函数1 f ( x) ? e ? 2???1 2?? x ? ? ?2 2, ??? x??f(x) = 随机变量 X 的频数 ??2 = 总体方差 ?? =3.14159; e = 2.71828 ?x = 随机变量的取值 (-? & x & ?) ?? = 总体均值241 ?正态分布 正态分布图f(x)?x242 正态分布函数的性质1. 2.概率密度函数在x 的上方,即f (x)&0 正态曲线的最高点在均值?,它也是分布的中位数和众数 每一特定正态分布通过均值?的标准差?来区分。 ?决定曲线的 高度,?决定曲线的平缓程度,即宽度 曲线f(x)相对于均值?对称,尾端向两个方向无限延伸,且理论 上永远不会与横轴相交 正态曲线下的总面积等于1 随机变量的概率由曲线下的面积给出 记成:3.4.5. 6.7.x ~ N (? , ? )2 ? 和? 对正态曲线的影响B A C244 正态分布的概率概率是曲线下的面积!f(x)P(a ? x ? b) ? ? f ( x)dx ? ?ababx 标准正态分布的重要性1.2.3.一般的正态分布取决于均值?和标准差 ? 计算概率时 ,每一个正态分布都需要有 自己的正态概率分布表,这种表格是无穷 多的 若能将一般的正态分布转化为标准正态分 布,计算概率时只需要查一张表246 标准正态分布函数1.? 2. 标准正态分布的概率密度函数x2 ? 2任何一个一般的正态分布,可通过下面的线性 变换转化为标准正态分布 X ?? Z ? ~ N (0,1)1 ? ( x) ? e , ??? x?? 2? 3. 标准正态分布的分布函数 t x x 1 ? ( x) ? ? ? ( x)dt ? ? e 2 dt ?? ?? 2?2247 标准正态分布Z?一般正态分布X ???标准正态分布?? ?1?x??0Z248 标准正态分布表的使用1.2. 3. 4.将一个一般的转换为标准正态分布 计算概率时 ,查标准正态概率分布表 对于负的 x ,可由? (-x)?1?? ?x?得到 对于标准正态分布,即X~N(0,1),有? ?P (a? X ?b)? ? ?b? ?? ?a? P (|X| ?a)? 2? ?a? ?15.对于一般正态分布,即X~N(? , ?),有 ?a?? X ?? b??? P ( a ? X ? b) ? P? ? ? ? ? ? ? ? ?249 标准化的例子 P(5 ? X ? 6.2)X ? ? 6.2 ? 5 Z? ? ? 0.12 ? 10一般正态分布??10标准正态分布? ?1.0478? ?5 6.2x? ?0 0.12Z250 标准化的例子 P(2.9 ? X ? 7.1)X ? ? 2.9 ? 5 Z? ? ? ? .21 ? 10 X ? ? 7.1 ? 5 Z? ? ? .21 ? 10一般正态分布标准正态分布? = 10?=1.1664.2.9 5 7.1 X-.21 0 .21Z251 正态分布【例】设X~N(0,1),求以下概率: (1) P(X &1.5) (4) P(| X | ? 2) ;(2) P(X &2); (3) P(-1&X ?3) ;解:(1) P(X &1.5) = ? (1.5)=0.9332 (2) P(X &2)=1- P(2 ? X)=1-0.7 (3) P(-1&X ?3)= P(X ?3)- P(X &-1) = ?(3)- ?(-1)= ?(3) C [1-?(1)]= 0..4(4) P(| X | ? 2) = P(-2? X |? 2)= ?(2)- ?(2)= ?(2)- [1-?(2)]=2 ?(2)- 1=0.9545252 正态分布【例】设X~N(5,32),求以下概率(1) P(X ?10) ; (2) P(2&X &10) 解: (1)P( X? X ? 5 10 ? 5 ? ? 10 ) ? P? ? ? 3 3 ? ? ? X ?5 ? ? P? ? 1.67 ? ? ? (1.67 ) ? 0.9525 ? 3 ?(2)X ? 5 10 ? 5 ? ?2?5 P ( 2 ? X ? 10 ) ? P? ? ? ? 3 3 ? ? 3 X ?5 ? ? ? P? ? 1 ? ? 1.67 ? 3 ? ? ? ? (1.67 ) ? ? ( ?1) ? 0.7938253 正态分布?正态概率分布的特征??曲线下的总面积是1(均值左边占0.5,右边 占0.5。 正态随机变量的概率是由曲线下的面积决定 的。254 正态分布?正态概率分布的特征?正态随机变量在均值+/-1个标准差的范围内 取值的概率达到68.26% 正态随机变量在均值+/-2倍标准差的范围内 取值的概率达到95.44% 正态随机变量在均值+/-3倍标准差的范围内 取值的概率达到99.72%255?? 例子: 机油销售问题某商店销售一种流行的摩托机油。当这种油的存货 降到20公斤时,就可能发生缺货. 假设每天的销售量 2 服从均值为15,标准差为6公斤的正态分布 N (15, 6 )经理想知道日销售量大于20公斤的概率 P(x & 20) 。x ? 15 20 ? 15 P( x ? 20) ? 1 ? P( x ? 20) ? 1 ? P( ? ) 6 6 ? 1 ? P( z ? 0.833) ? 1 ? 0.7697 ? 0.2033 例子: 机油销售问题?标准正态表显示z=0和z=0.83之间的区域占 0.2967。尾部的区域占0.5-0.3。所求 概率是0.2033。区域面积 = .2967? ? ? ?z = (x - ?)/?= (20 - 15)/6 = .83区域面积 = .5 0 .83区域面积 = .5 - .2967= .2033z257? ?标准正态概率表.00 .01 .02 .03例子: 机油销售问题.04 .05 .06 .07 .08 .09z.0 . . . . . .1 . . . . . .2 . . . . . .3 . . . . . .4 .5 .6 .7 .8 .9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .258 例子:机油销售问题?如果商店经理想要缺货的概率不大于0.05, 订货单应为多少?Area = .05 Area = .5 Area = .45 z.05 0259? ?令 z.05 表示.05 区域的 z值。 例子: 机油销售问题?我们现在查标准正态概率表中占 0.4500的区域,以找出对应的z.05 的值。z . .00 . .01 . .02 . .03 . .04 . .05 . .06 . .07 . .08 . .09 . 1.5 . . . . . 1.6 . . . . . 1.7 . . . . . 1.8 . . . . . 1.9 . . . . . . . . . . . . . . . .260??z.05 = 1.645 标准正态概率分布 x对应的值由以下决定: x = ? + z.05? ?? = 15 + 1.645(6) = 24.87 24.87公斤是在.05的显著性水平下,缺 货的订货点。 将订货点定位25公斤以 保持发生缺货的概率在0.05以下。261例子: 机油销售问题 指数分布??指数概率分布在描述完成一项任务的时 间上有重要应用。 指数随机变量可以用来描述:? ?洗车厂两辆汽车到达的时间间隔 装载一辆汽车所需的时间等等262 指数分布指数分布密度函数f ( x) ? 1?e? x/?x & 0, ? & 0这里 : ? 为 x的均值 e = 2.71828263 指数概率分布指数概率分布函数P( x ? x0 ) ? 1 ? e ? xo / ?这里:x0 = x的某一个特定值264 例子: 洗车店洗车店车辆到达的时间间隔服从均值 为3分钟的指数分布。店主想知道两辆相 继到达的车的时间间隔小于等于2分钟的 概率。P(x & 2) = 1 - 2. = 1 .5134 = .4866265 ?概率密度函数图f(x).4例子: 洗车店.3.2 .1P(x & 2) = area = .4866x 1 2 3 4 5 6 7 8 9 10相继到达车辆的时间间隔 (mins.)266 泊松分布与指数分布间的关系泊松分布提供了每间隔事件 发生的数量描述指数分布提供了 事件发生的间隔长度的描述267 二项分布的正态近似268 二项分布的正态近似1.2.当n 很大时,二项随机变量X近似服从正态分 布N{np , np(1-p)} 对于一个二项随机变量X,当n很大时,求 P(x1?X?x2)时可用正态分布近似为P?x1 ? X ? x 2 ? ?x ? x1?Cx2x np qxn? x??b1 2?aet2 ? 2dt? ? (b) ? ? (a)x1 ? np 式中:a ? npq , b? x 2 ? np npq269,q ? 1? p 为什么概率是近似的P(x).3 .2正态曲线增加的概率增加的部分与减少 的部分不一定相等正态曲线减少的概率.1.0 0 2 4 6 8 10270x正态概率:曲线下 从3.5到4.5的面积二项概率:矩形的面积 二项分布的正态近似(实例)【例】100台机床彼此独立地工作,每台机床的实际工作时间 占全部工作时间的8%。求(1)任一时刻有70~80台机床在工作的概率 (2)任一时刻有80台以上机床在工作的概率 解:设 X 表示100机床中工作着的机床数,则 X~B(100,0.8) 。现用正态分布近似计算,np=80,npq=164 4 4 ? ? ? (1.5) ? ? (?2.5) ? 0.927 ? X ? 80 ? ? 0 ? ? 1 ? ?(0) ? 0.5 (2) P( X ? 80) ? P? ? 4 ?(1) (70 ? X ? 10) ? P? 70 ? 80 ? X ? 80 ? 86 ? 80 ? P ? ??271 统计推断的过程总体样 本样本统计量例如:样本均 值、比例、方 差272 第五章 抽样与参数估计第一节 抽样与抽样分布 第二节 参数估计基本方法 第三节 总体均值和总体比例的区间 估计273 学习目标1. 2. 3. 4.了解抽样和抽样分布的基本概念 理解抽样分布与总体分布的关系 了解点估计的概念和估计量的优良标准 掌握总体均值、总体比例和总体方差的区 间估计274 第一节 抽样与抽样分布一.二.三.四.五.六.总体、个体和样本 关于抽样方法 样本均值的分布与中心极限定理 样本方差的分布 两个样本方差比的分布 T 统计量的分布275 总体、个体和样本(概念要点) ?总体(Population):调查研究的事物或现象 的全体?个体(Item unit):组成总体的每个元素 ?样本(Sample):从总体中所抽取的部分个体 ?样本容量(Sample size):样本中所含个体的 数量276 抽样方法(概念要点)1.??概率抽样:根据已知的概率选取样本??简单随机抽样:完全随机地抽选样本分层抽样:总体分成不同的“层”,然后在每一层内进行抽样? ?? ?整群抽样:将一组被调查者(群)作为一个抽样单位等距抽样:在样本框中每隔一定距离抽选一个被调查者 非随机抽样:由调查人员自由选取被调查者 判断抽样:通过某些条件过滤来选择被调查者2.? ?非概率抽样:不是完全按随机原则选取样本? ?3.配额抽样:选择一群特定数目、满足特定条件的被调查者277 5.1 统计抽样基本概念??总体由研究对象的全体所组成。 样本是总体中的部分元素所组成的集合。 目标总体是我们要推断的总体 抽样总体是实际抽取样本的总体? ?278 5.1 统计抽样基本概念?在抽样之前,应将总体划分为抽样单 位。抽样单位既可以是一个简单的个 体,也可以是一组个体。?对某一个特殊研究,抽样单位的名册 称为抽样框。279 5.2 抽样调查种类和抽样方法邮寄调查调 查 方 法电话调查个人采访调查280 调查误差进行一次抽样调查 可能出现的如测量 误差、采访者误差 及数据处理误差等。非抽样误差调 查 误 差抽样误差由于没有对总体的 所有单位进行调查 而产生的误差281 简单随机抽样从一个容量为N的有限总体中抽取得到一个 容量为n的简单随机样本,使每一个容量为 n的可能样本,都有相同的概率被抽中。抽样总体中所 有个体的名册建立抽样框使用随机数表,可 以保证抽样总体中 的每个个体都有相 同的概率被抽中282根据随机数表进行抽样 分层简单随机抽样分层简单随机抽样的步骤:也称为层将总体划分H组从第h层中抽取一个容量 为nh的简单随机样本由这H个简单随 机样本的联合资 料,可得出诸如 总体均值、总体 总量及总体比率 等各种总体参数 的估计。283 分层简单随机抽样?? ?如果各层内的差异比层间的差异小,则分 层简单随机样本可得到更大的精度(总体 参数的区间估计将更窄)。 各层的划分应依据样本设计者的判断。 根据应用,总体可按部门、地区、年龄、 产品类型、销售水平等分层。284 分层简单随机抽样?[例5.1]某大学管理学院想对今年的毕 业生进行一次调查,以便了解他们开 始工作时的年薪。285 整群抽样整群抽样需要将总体各个个体分为N组(也称作 群),使总体中每个个体只属于一群。总体组1组2个体1个体2个体3个体4个体5个体6286 整群抽样例如,我们想调查某省的登记选民。则有两种方 法:第一种方法是建立包含该省所有登 记选民的抽样框,然后根据抽样框, 选择选民的一个简单随机样本。 调查某省 的登记选民。 有两种方法:第二种方法是整群抽样,我们选择用 该省各县的清单作抽样框。在这个方法中, 每个县(或群)包含一组登记选民,而该 省的每个登记选民只属于一群。287 整群抽样当群内的个体存在 差异时,整群抽样可 提供较好的结果。分层抽样 和整群抽样 都将总体划 分为组,因 此这两种抽 样过程感觉 上是相似的。整群抽样 与 分层抽样 的 比较选择整群抽样 与分层抽样的原因 是不同的。理想情形是每一群是整个 总体的一个缩影,这时,抽 取很少的群就可以提供关于 整个总体特征的信息。288 整群抽样[例5.2] 某省拥有12000名执业注册会计师的注册会计师协 会进行了一项调查。作为调查的一部分,注册会计师 协会收集与收入、性别和与注册会计师生活方式有关 的因素的信息。因为用个人采访法去搜集所需要的信 息,因此注册会计师协会采用整群抽样,以使总的差 旅费和采访费用达到最小。抽样框中包含所有在该省 登记注册的执业会计师事务所。289 整群抽样[例5.2](续) 假设有1000群,即在该省登记注册的从事会计活 动的会计师事务所有1000个,选择10个会计师事务 所为一个简单随机样本。290 整群抽样291 系统抽样例如,需要从容量为5000的总体中抽取一个容 量为50的样本,我们可以从总体中随机选择一个, 然后在其后面的抽样框中,每隔100个个体选择一个, 可得到样本中其余的个体。因为第一个个体的选择是随机的,因此系统样 本常常假定具有简单随机样本的性质。当抽样框是 由总体中的个体随机排列而形成时,这种假定通常 是合适的。292 样本均值的抽样分布293 抽样分布(概念要点)1.所有样本指标(如均值、比例、方差等) 所形成的分布称为抽样分布是一种理论概率分布 随机变量是 样本统计量?2. 3.样本均值, 样本比例等4.结果来自容量相同的所有可能样本294 样本均值的抽样分布(一个例子)【例】设一个总体,含有4个元素(个体),即总体单 位数 N=4。4 个个体分别为 X1=1、 X2=2、 X3=3 、 X4=4 。总体的均值、方差及分布如下均值和方差??总体分布.3?Xi ?1NiNN i ?1? 2.5?2 ?(X i ? ?)2 ? N? 1.25.2 .1 01 2 3 4295 样本均值的抽样分布(一个例子)? 现从总体中抽取n=2的简单随机样本,在重复 抽样条件下,共有42=16个样本。所有样本的结果 如下表所有可能的n = 2 的样本(共16个) 第一个 观察值 第二个观察值 1 2 3 412 3 41,12,1 3,1 4,11,22,2 3,2 4,21,32,3 3,3 4,31,42,4 3,4 4,4296 样本均值的抽样分布(一个例子)? 计算出各样本的均值,如下表。并给出样本 均值的抽样分布16个样本的均值(x) 第一个 观察值 1 2 3 4 第二个观察值 1 1.0 1.5 2.0 2.5 2 1.5 2.0 2.5 3.0 3 2.0 2.5 3.0 3.5 4 2.5 3.0 3.5 4.0.2 .3 P(x).10 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x样本均值的抽样分布297 所有样本均值的均值和方差1.0 ? 1.5 ? ? ? 4.0 ?x ? ? ? 2.5 ? ? M 16i ?1 i?xn i ?1n? ?2 x? (xi? ?x )2M (1.0 ? 2.5) 2 ? ? ? (4.0 ? 2.5) 2 ?2 ? ? 0.625 ? 16 n式中:M为样本数目 比较及结论:1. 样本均值的均值(数学期望)等于总体均值2. 样本均值的方差等于总体方差的1/n298 样本均值的分布与总体分布的比较总体分布.3P(x)抽样分布.3 .2 .1 0.2 .1 012341.0 1.5 2.0 2.5 3.0 3.5 4.0 x? = 2.5σ2 =1.25? x ? 2.52 ? x ? 0.625299 样本均值的抽样分布 与中心极限定理当总体服从正态分布N ~ (μ,σ2 )时,来自该总体的所 有容量为n的样本的均值?X也服从正态分布,?X 的 数学期望为μ,方差为σ2/n。即?X~N(μ,σ2/n)? =10n=4 ?x ?5 n =16 ? x ? 2.5? = 50X? x ? 50X总体分布抽样分布300 中心极限定理(图示)中心极限定理:设从均值为?,方差为? 2的一个任意总 体中抽取容量为n的样本,当n充分大时,样本均值的抽 样分布近似服从均值为μ、方差为σ2/n的正态分布 ? ?x ? n 一个任意分布的总体当样本容量足够 大时(n &30) , 样本均值的抽样 分布逐渐趋于正 态分布?x ? ?X301 样本方差的抽样分布302 样本方差的分布?设总体服从正态分布N ~ (μ,σ2 ), X1,X2, …,Xn为来自该正态总体的样本,则样本方 差 s2 的分布为s 2 ~ ? (n ? 1) 2 ? /(n ? 1) 将?2(n C 1)称为自由度为(n-1)的卡方分布2303 S2卡方 1 ? ? ? ?x ? x ? n ?1n i ?1 i22) (?分布不同容量样本的抽样分布n=1n=4 n=10选择容量为n 的总体简单随机样本??计算样本方差S2计算卡方值n=20?2 = (n-1)S2/σ2计算出所有的?2? 2值304 均值的标准差1.所有可能的样本均值的标准差,测度所 有样本均值的离散程度小于总体标准差 计算公式为2. 3.?x ??n305 T 统计量的分布306 T 统计量的分布?设X1,X2,…,Xn是来自正态总体N~(μ,σ2 )的一个样本, 称 ( X ? ?) T? 为统计量,它服从自由度为(n-1)的t 分布 S nt 分布标准正态分布 t (df = 13)正态分布t (df = 5)ZXt 分布与正态分布的比较不同自由度的t分 布t307 第二节 参数估计基本方法 一. 点估计 二. 点估计的优良性准则 三. 区间估计308 参数估计的方法估 计 方 法点估计区间估计矩估计法 顺序统计量法 最大似然法 最小二乘法309 被估计的总体参数总体参数 均值 一个总体 比例 方差 均值之差 两个总体 比例之差 方差比 符号表示 用于估计的样 本统计量?Px? p s2 x1 ? x2 ? ? p1 ? p22 s12 s2310?2 ?1 ? ?2P ? P2 12 ? 12 ? 2 点估计311 点估计1. 从总体中抽取一个样本,根据该样本的统 计量对总体的未知参数作出一个数值点 的估计? 例如: 用样本均值作为总体未知均值的估计 值就是一个点估计2. 点估计没有给出估计值接近总体未知参 数程度的信息 3. 点估计的方法有矩估计法、顺序统计量法 、最大似然法、最小二乘法等312 估计量1. 用于估计总体某一参数的随机变量? ??如样本均值,样本比例、样本中位数等 例如: 样本均值就是总体均值?的一个估计量 如果样本均值 ?x = 3 ,则 3 就是?的估计值2. 理论基础是抽样分布313 估计量的优良性准则(无偏性)无偏性:估计量的数学期望等于被估计的总 体数P( X )无偏 有偏AC?X314 估计量的优良性准则(有效性)有效性:一个方差较小的无偏估计量称为一个更 有效的估计量。如,与其他估计量相比,样本均值 是一个更有效的估计量均值的抽样分布P(X )BA中位数的抽样分布?X315 估计量的优良性准则(一致性)一致性:随着样本容量的增大,估计量越来越接 近被估计的总体参数较大的样本容量P(X )B A较小的样本容量?X316 区间估计317 区间估计1. 根据一个样本的观察值给出总体参数的估计范围 给出总体参数落在这一区间的概率例如: 总体均值落在50~70之间,Z信度为 95%置信区间样本统计量 (点估计)置信下限置信上限318 置信区间估计置信区间均 值 ?2 已知 ?2?未知?比例方差319 落在总体均值某一区间内的样 本X = ? ? Z?x?_ ?x? - 2.58?x? -1.65 ?x? +1.65?xX? +2.58x? -1.96 ?x? +1.96?x90%的样本95% 的样本99% 的样本320 置信水平1. 2.总体未知参数落在区间内的概率 表示为 (1 - ??????为显著性水平,是总体参数未在区间内的概 率?3.常用的显著性水平值有 99%, 95%, 90%相应的 ??为0.01,0.05,0.10321 区间与置信水平均值的抽样分布?/2?x1-??/2?x ? ?(1 - ?) % 的概率保证区间包含了?X? % 的概率,区间未包含?322 影响区间宽度的因素1.数据的离散程度,用 ? 来测度? ? 样本容量,x ? n2.3.置信水平 (1 - ?),影响 Z 的大小323 第三节 总体均值和总体比例 的区间估计一.二.三.总体均值的区间估计 总体比例的区间估计 样本容量的确定324 总体均值的区间估计 2已知) (?325 总体均值的置信区间(?2 已知)1.? ?假定条件总体服从正态分布,且总体方差(?2)已知 如果不是正态分布,可以由正态分布来近似 (n ? 30)2.使用正态分布统计量ZZ ? x???n~ N (0,1)3. 总体均值 ? 在1-?置信水平下的置信区间为 ? ? ? ? , x ? Z? 2 ? x ? Z? 2 ? n n? ?326 总体均值的区间估计(正态总体:实例)【例】某种零件 解:已知X~N(?,0.152),?x=2.14, n=9, 长度服从正态分 1-? = 0.95,Z?/2=1.96 布,从该批产品 总体均值?的置信区间为 中随机抽取9件 ? ? ? ? ? x ? Z? 2 , x ? Z? 2 ? ,测得其平均长 ? ? n n? ? 度为21.4 mm。 ? 0.15 0.15 ? 已知总体标准差 ? ? 21 .4 ? 1.96 ,21 .4 ? 1.96 ? ? ? ? =0.15mm,试 9 9 ? ? 建立该种零件平 ? ?21 .302 ,21 .498 ? 均长度的置信区 我们可以95%的概率保证该种零件的平 间,给定置信水 均长度在21.302~21.498 mm之间 平为0.95。327 总体均值的区间估计(非正态总体:实例)解:已知 ?x=26, ?=6,n=100, 1-? = 【例】某大学从该 0.95,Z?/2=1.96 校学生中随机抽取 ? ? ? ? 100 人 , 调 查 到 他 ? x ? Z? 2 , x ? Z? 2 ? ? ? 们平均每天参加体 n n? ? 育锻炼的时间为26 ? 6 6 ? 分钟。试以95%的 ? ? 26 ? 1.96 ,26 ? 1.96 ? ? ? 100 100 ? ? 置信水平估计该大 学全体学生平均每 ? ?24 .824 ,27 .176 ? 天参加体育锻炼的 我们可以95%的概率保证平均每天 时间(已知总体方 参加锻炼的时间在24.824~27.176 差为36小时)。 分钟之间328 总体均值的区间估计 2未知) (?329 总体均值的置信区间(?2 未知)1.? ?假定条件总体方差(?2)未知 总体必须服从正态分布2.使用 t 分布统计量t?3.x?? sn ?1 n~ t (n ? 1)总体均值 ? 在1-?置信水平下的置信区间为sn ?1 sn ?1 ? ? , x ? t? 2 ? x ? t? 2 ? n n? ?330 总体均值的区间估计(实例)【例】从一个 正态总体中抽 取一个随机样 本 , n = 25 ,其均值`x = 50 , 标 准 差 s = 8。 建 立总体均值m 的 95% 的 置 信 区间。解:已知X~N(?,?2),?x=50, s=8, n=25, 1-? = 0.95,t?/2=2.0639。 s n ?1 s n ?1 ? ? ? x ? t? 2 , x ? t? 2 ? ? ? n n? ?? 8 8 ? ? ? 50 ? 2.0639 ,50 ? 2.0639 ? ? ? 25 25 ? ? ? ?46.69,53.3? 我们可以95%的概率保证总体均值 在46.69~53.30 之间331 总体比例的区间估计332 总体比例的置信区间1. 假定条件 ? 两类结果 ? 总体服从二项分布 ? 可以由正态分布来近似 使用正态分布统计量Z2.3.p (1 ? p ) n 总体比例P 的置信区间为 ? ? p(1 ? p) ? p ? Z? 2 nZ?? p? p~ N (0,1)333 总体比例的置信区间(实例)? p 【例】某企业在一项 解:已知 ?n=200 , =0.7 , n p =140&5, 关于职工流动原因的 n(1- p )=60&5,?= 0.95,Z?/2=1.96 研究中,从该企业前 ? ? p (1 ? p ) 职工的总体中随机选 ? p ? Z? 2 n 取了200人组成一个 样本。在对其进行访 0.7(1 ? 0.7) ? 0.7 ? 1.96 问时,有140人说他 200 们离开该企业是由于 ?0.636 ,0.764 ? 同管理人员不能融洽 相处。试对由于这种 我们可以95%的概率保证该企业职 原因而离开该企业的 工由于同管理人员不能融洽相处而 人员的真正比例构造 离开的比例在63.6%~76.4%之间 95%的置信区间。334 ? 样本容量的确定335 估计总体均值时样本容量的确定1. 根据均值区间估计公式可得样本容量n为 2 ? Z ? 2? 2 其中: ? ? Z ? 2 n? n ?2 2. 样本容量n与总体方差?2、允许误差?、临 界值 Z之间的关系为? ? ? 与总体方差成正比 与允许误差成反比 与临界值成正比336 样本容量的确定(实例)【例】一家广告公 解 : 已 知 ? 2=1800000 , ? =0.05 , 想估计某类商店去 Z?/2=1.96,?=500 年所花的平均广告 应抽取的样本容量为 费用有多少 。经验 表明,总体方差约 2 Z ? 2? 2 为1800000元。如置 n? 信度取95%,并要使 ?2 估计处在总体平均 值附近500元的范围 (1.96 ) 2 (1800000 ) ? 内,这家广告公司 500 2

我要回帖

更多关于 统计学 标准差 的文章

 

随机推荐