剔除回归直线相关与回归偏离较大的数据,能否得到更优的估计出的回归模型

格式:doc&&&
贡献者:Mlea4444
上传时间: 10:43
此文档归属以下专题
暂无相关专题
-------------
新增文件夹...
(多个标签用逗号分隔)
&第四章 回归分析
分享到:&&
下载本文档需要登录,并付出相应积分。()
文件大小:1.78MB
所需积分:& 20
&2006-, All rights reserved.当前位置: >>
第四章 违反经典假定的回归模型-经济计量学
第四章违背经典假定的回归模型在前面几章里我们讨论的回归模 型中都有一些基本的假定。只有当一 个回归模型满足经典假定条件时,才 能得到一个较好的估计。然而,在研 究实际的社会经济等问题时,经常会 遇到一些违背经典假定的情况。1 在这些情况下,如果直接用普通最小二乘法建立模型,会得到很不理想的结果。因此,如何处理这些问题,就是我 们需要面对的问题。2 在这一章里我们将重点讨论模型中 出现了违背经典假定的几种情况时 的诊断及解决办法。异方差序列相关 多重共线性3 第一节异方差性一、异方差性的概念和产生的原因 (一)异方差性的概念4 在回归模型的基本假设中,假定随机误差项u1,u2,…,un 具有相同的方差,独立或不相关,即对于所有 样本点,有:? E (ui ) ? 0, (i ? 1, 2, ???, n) ? ?σ 2 , i ? j (i, j ? 1,2,? ? ?, n) ? ?Cov(ui ,u j ) ? ?0, i ? j ? ? (6.1)5 但是在建立实际问题的回归模型时,经 常存在与此假设相违背的情况,一种是经 济计量建模中常说的方差非齐性或异方差 性,即:Var (ui ) ? Var (u j )当i? j时 (6.2)6 异方差性: 在线性模型的基本 假定中,关于方差不变的假定不成 立,其他假定不变的情形称为异方 差性。7 (二)异方差产生的原因 实际问题是非常错综复杂的,因而在建 立实际问题的回归分析模型时,经常会出 现某一因素或一些因素随着解释变量观测 值的变化而对被解释变量产生不同的影响 ,导致随机误差项产生不同方差。通过下 面的几个例子,我们可以了解产生异方差 性的背景和原因。8 【例6.1】按照差错―学习模式,当人们 学习时,动作上出现的差错随时间的增 加而逐渐减少。如在某一时期内测验打 字差错数(Y)与打字实习小时数(X) 之间的关系。随着打字实习小时数的增 加,打字差错平均字数及它们的方差不 是不变的,而是随之减少的。这个模型 中就出现了异方差。9 【例6.2】在研究城镇居民收入与消费的 关系时,我们知道居民收入与消费水平有 着密切的关系。用 Xi 表示第 i 户的收入 ,Yi 表示第 i 户的消费额,那么反映收入 与消费之间的模型为:Yi ? ?1 ? ? 2 X i ? u, i ? 1,2,?, n(6.3)10 在式(6.3)的模型中,因为各户的 收入不同,消费观念和习惯的差异, 导致消费的差异非常大,模型中存在 明显的异方差性。一般情况下,低收入的家庭购买 差异性较小,大都购买生活必需品;11 但是高收入的家庭购买行为差异就 很大,高档消费品很多,房子、汽车 的规格选择余地也很大,这样购买金 额的差异就很大;导致消费模型的随 机误差项具有不同的方差。12 【例6.3】利用某行业的不同企业的截面样 本数据估计C-D生产函数Y ? AK L e? ? u(6.4)由于这里的u表示了包括不同企业的工艺、地理条件、工人素质、管理水平上的差 异以及其他因素。对于不同企业,这些因 素对产出的影响程度不同,引起ui偏离0 均值的程度不同,出现了异方差。13 引起异方差的原因还有很多,如 模型中省略了重要的解释变量,模型的函数形式设定不准确等都容易产生异方差。一般情况下样本数据为截面数据时容易产生异方差性。14 二、异方差产生的后果 当一个回归模型中的随机误差 项存在异方差时,是否可以继续使用普通的最小二乘法?倘若我们仍然使用,将会产生什么样的后果?15 ? 当模型中存在异方差时,参数 ? 的方差将大于在同方差条件下的方差。如果用普通最小二乘法估计参数,将出现低估? ?的真实方差的情况。进一步将导致回归系数的检验值高估,可能造成本来不显著的某些回归系数变成显著。这将给回归方程的应用效果带来一些影响。16 ? ) ? E [ ? ? E( ? )] 2 ? ? Var( ? 2 2 2? E [ Σki ui ]2 2 1 1 2 2 2 22? E (k u ? k u ? ? ? k u ?2 2 n n2k1k 2u1u 2 ? ? ? 2k n ?1k n u n ?1u n )17 当模型中存在异方差时,普通最 小二乘估计存在以下问题。18 1.参数估计量虽是无偏的,但不是最 小方差线性无偏估计 根据经典线性回归中关于参数估计量 的无偏性和有效性的证明过程,可以看 出,当线性回归模型出现异方差性时, 其普通最小二乘法参数估计量仍然具有 无偏性,但不具有有效性。19 而且,在大样本情况下,参数估计量 也不具有渐近有效性,这就是说参数估 计量不具有一致性。20 2.参数的显著性检验失效 在经典线性回归模型中,关于变量的显 著性检验构造了t 统计量,在该统计量中? u2 ,并且 包含有随机误差项共同的方差该t 统计量服从自由度为(n-k)的t 分布。如果出现了异方差性,t 检验就失去意义。采用其他检验也是如此。21 3.回归方程的应用效果极不理想,或者说模型的预测失效。一方面,由于上述后果,使得模型 不具有良好的统计性质;另一方面,在 预测值的置信区间中也包含有随机误差 项共同的方差 ? 。所以,当模型出现2 u异方差性时,它的预测功能失效。22 三、异方差性的检验对于异方差性的检验,人们进 行了大量的研究,提出的诊断方法 已有10多种,但没有一个公认的最 优方法,下面介绍几种常见的方法 。23 (一)残差图分析法残差图分析法是一种直观、方便的分析方法。它以残差2 e为纵坐标,以其他适宜 i的变量为横坐标画散点图。常用的横坐标有三种选择:(1)以拟合值(2)以Xi 为横坐标? 为横坐标; Yii ?,;(3)以观 1,2,? ? ?, n测时间或序号为横坐标。24 e2X图6.125 e2图6.2X26 图6.1和图6.2是以X 为横坐标,残差 e2为纵坐标的残差图,表现出残差有一定 的趋势。这样的情况下,我们就可以判断 出该回归模型有一定的异方差性。图6.1 表明ui的方差2 反比于解释变量Xi,图 ?i6.2表明ui 的方差正比于解释变量Xi 。 ? i227 在EViews软件包中,直接给出了以ei 为纵坐标,以观测时间或序 号为横坐标的残差图。28 如果回归模型适合于样本数据,那么残差ei 应反映ui 所假定的性质,因此可以根据ei 来判断回归模型ui 是否具有某些性质。一般情况下,当回归模型满足所有假定时,以ei 为纵坐标的残差图上的n 个点散布应是随机的、无任何规律。29 (二)等级相关系数法等级相关系数法又称斯皮尔曼 (Spearman)检验,是一种应用较广泛的 方法。这种检验方法既适用于大样本,也 适用于小样本。将异方差性与误差项和某 个解释变量之间相关程度联系起来,从而 将对异方差性的研究转化为对它们之间相 关程度的研究。30 进行等级相关系数检验通常 有三个步骤: 第一步,作Y 关于X 的普通最小二乘 估计,求出ui 的估计值,即ei 的值。31 第二步,取ei 的绝对值,即 ei ,把 算出等级相关系数X i 和 ei按递增或递减的次序划分等级。按下式计rs ? 1 ?6 n( n2?d ? 1)i ?1n2 i(6.5)ei其中,n为样本容量,di 为对应于Xi 和 等级的差数。的32 第三步,做等级相关系数的显著性 检验。在n&8的情况下,用下式对样本等级相关系数 rs 进行t 检验。检验的统计量为t?rsn?2 1? r2 s(6.6)33 如果t ? t? (n ? 2)2,则可以认为异方t ? t? (n ? 2)2差性问 不存在,如果 说明 Xi 和ei,之间存在系统关系,则说明模型中存在异方差。34 在多元的情况下,需对每一个解释变量做等级相关系数检验。只有当每个解释变量检验都不存在异方差时模型中才不存在异方差。否则,模型中存在异方差。35 (三)戈德菲尔德-匡特检验(样 本分段比检验)首先将样本按某个解释变量的大小顺序 排列,并将样本从中间截成两段;然后各 段分别用普通最小二乘法拟合回归模型, 并分别计算各段的残差平方和。36 令第一段为高方差段,第二段为低方差 段,并记两段的样本容量分别为n1 和n2 ,模型参数个数为k,两段样本回归残差 分别为e1i和e2i,则两段的残差平方和分 别为RSS1 ? ? ei ?1 n1 2 1i和2 RSS2 ? ? e2i i ?1n2,从而可计算出各段模型的随机误差项的方差估计量分别为RSS1 ? ? ? n1 ? k2 1和RSS 2 ? ? ? n2 ? k2 237 由此可构造出检验统计量为? ? RSS1 /( n1 ? k ) F? ? ? ? RSS2 /( n2 ? k )2 1 2 2(6.7)38 该统计量服从自由度为(n1-k)和(n2-k) 的F分布。在给定的显著性水平 ? 之下,若此统计量F的值大于临界值F? ? n1 ? k , n2 ? k ?则可认为有异方差的存在。39 为了提高此检验的功效,戈德菲尔 德和匡特曾经建议,将观测样本分成 两段时,可将中间的部分数据删掉。 然而,删掉的数据越多,各段中估计 的自由度就越小,从而又会影响检验 的功效。因此,删掉的中间部分数据 也不能太多。一般地,删掉的数据不 应多于样本观测数据的1/3。40 (四)戈里瑟(Glejser)检验 用残差绝对值 对每个解释变量建立各 ei 种回归模型,如ei ? ?1 ? ? 2 X i ? viei ? ?1 ? ? 2 X i ? vi1 ei ? ?1 ? ? 2 ? vi Xi等等,并检验回归系数 ? 2 是否为0。41 设原假设为 H 0 : ? 2 ? 0 备择假设为 H 1 : ? 2 ? 0? ,应用t 检验判断,如果, 2 ? 0 则有异方差。这种方法不仅能检验出模型中存在的 异方差,而且把异方差的表现形式找出来便于后面改进时使用。42 (五)怀特检验用残差平方 ei2 对所有解释变量及其平方项和交叉乘积项 为0。2 X 2 , X 3 , ???, X 2 , X 32 , ???, X 2 X 3 , ???进行线性回归,并检验各回归系数是否43 对于两个解释变量的回归模型Yi ? ?1 ? ? 2 X 2i ? ? 3 X 3i ? ui(6.8)怀特检验步骤如下: 第一步,使用普通最小二乘法估计模 型(6.8),并获得残差 ei 。44 第二步,做如下的辅助回归2 ei2 ? ? 1 ? ? 2 X 2i ? ? 3 X 3i ? ? 4 X 2i ? ? 5 X 32i ? ? 6 X 2i X 3i ? vi(6.9)就是将残差ei 的平方 ei2 对所有的解释变 量及解释变量的平方与交叉积回归,求这个辅助回归的判定系数 R2。45 第三步,在无异方差的原假设下,可以 证明,辅助回归的 R2 乘以样本容量n,渐 近地服从自由度为辅助回归中解释变量个 数 r(不包括常数项)的x2分布,即n ? R ~ ? (r )2 2(6.10)在本例中,辅助回归有5 个解释变量,因此r=5。46 第四步,如果水平的临界大于临界2 大于选定显著性 n?R ?2 值,则有异方差。如果不值,则无异方差,即在辅助 ?2?2 ? ?3 ? ?4 ? ?5 ? ?6 ? 0回归中,在EViews软件中,给出了怀特检验程序,可以直接输入相应条件,即可获得怀特检验的结果。47 四、异方差性的修正办法当我们所研究的问题存在异方差性 时,就违背了线性回归模型的经典假 定。此时,就不能用普通最小二乘法 进行参数估计。48 必须寻求适当的补救方法,对原来的 模型进行变换,使变换后的模型满足 同方差性假定,然后进行模型参数的 估计,就可得到理想的回归模型。49 加权最小二乘法我们考虑一元线性回归模型Yi ? ?1 ? ? 2 X i ? u, i ? 1,2,?, n (6.11)50 ? i2 已知时 (一)如果每个观察值的误差项方差 ? i2 是已知 的,使用 为权数,对模型(6.11)作 1/ ? i 如下变换:X i ui ?1 ? ? ?2 ? ?i ?i ?i ?i Yi(6.12)51 由于Var (?iui)?1?2 iVar (ui ) ?1?2 i?? ? 12 i通过加权变换使误差项变成同方差了。52 如果模型的其他假定条件都满足,则 模型(6.12)就变成满足经典假定的回归模型 了,就可利用普通最小二乘法估计参数, 得到的估计量是最佳线性无偏估计量。53 通过加权变换使原模型中的异方 差误差项转换为同方差误差项,使加权变换后的模型满足最小二乘法的假定,从而使用普通最小二乘法估计参数,这种方法称为加权最小二乘法。54 ? i2 (二)2 i未知时如果 ? 是未知的,一般情况下, 我们可根据误差与解释变量或被解 释变量的关系来确定变换的权数。 一般我们先采用戈里瑟检验方法确 定ei 与Xi 之间的关系。55 1.如 认为ei 与 X i 之间为线性关系,则可? ? E ?u2 i2 i???2Xi(6.13)这时,选择1 Xi为权数,即对模型(6.11)1 Xi两边同时乘以 同方差模型。,将异方差模型变为56 即将模型(6.11)变为Yi Xi??1Xi? ?2 X i ?ui Xi(6.14)57 容易证实模型(6.14)为同方差模型。可用普通最小二乘法估计模型(6.14)的参数,得到最佳线性无偏估计量。模型(6.14)是无截距模型,要用过原点回归去估计参数?1 ,,EViews软件包 ?2提供了这种功能。58 2.如 ei 与X i 之间为线性关系,则 可认为? ? E (u ) ? ? X2 i 2 i 22 i(6.15)59 这时,选择1/Xi为权数,可将模型(6.11)变换为如下模型:Yi ui ?1 ? ? ?2 ? Xi Xi Xi(6.16)60 容易证实,模型(6.16)为同方差模型,可使用普通最小二乘法估计参数 ?1 , ? 2 。注意,在变换后的模型(6.16)中,斜率项距截项,截距项?是原模型(6.11)的 1是原模型(6.11)的 ?2斜率项。61 五、实际案例现有2001年北京市规模最大的 41个百货零售商店的商品销售收入 和利税总额资料如表6.1所示。62 表6.1 北京市41家最大百货商店销售资料 单位:万元商店名称 北京百盛轻工发展有限公司 北京北辰购物中心 北京华联商厦有限公司 城乡贸易中心股份有限公司 赛特购物中心 王府井百货大楼 销售收入X
北京双安商场北京庄胜崇光百货商场 北京燕莎友谊商城993336701西单商场股份有限公司138030933363 续表商店名称 北京物美商城有限责任公司 菜市口百货有限责任公司 北京翠微集团 北京中友百货有限责任公司 西单赛特商城有限责任公司 北京市复兴商业城 北京蓝岛大厦 北京东安集团公司长安商场 北京锐步体育用品中心 北京城乡华懋商厦有限公司 销售收入X 65 76
利税总额Y 92 62 43 121864 商店名称 华远西单购物中心股份公司销售收入X 15285利税总额Y 1787北京燕莎望京购物中心北京中旭三利百货公司 北京创益佳商场 北京世都百货有限责任公司46305 220411016823 581 979北京兴城商厦百盛购物中心百盛商场 北京小白羊超市 北京市大明眼镜公司 亿客隆商业股份有限公司 北京友谊商店股份有限公司 方庄购物中心股份有限公司27070
696956 716 0 795北京市顺义国泰商业大厦北京西单商场顺义联营大楼 北京市朝阳商业大楼13652537514 411 65 利用普通最小二乘法,根据表6.1中的 数据,我们可以估计出该回归方程为? Y ? ?329.996 ? 0.075 X Se ? (810.332) (0.012) t ? (?0.407)2(6.105)R ? 0.489 DW ? 1.616(6.17)66 根据此回归方程,可以求出利税? 总额的回归估计值和残差 ei ? (Yi ? Yi ),然后将销售收入Xi 作为横坐标, 残差ei 为纵坐标,画出回归残差图。从残差图看,残差的有不断扩大的趋势,ui 存在明显的异方差性。67 普 通 残 差80006000400020000-2000-4000-00
000图6.3 残差图销售收入(万元)X68 我们运用戈里瑟检验,可得如 下的残差回归方程:e ? 562 .419 ? 0.027 X Se ? (748 .857 )(3.215 ) t ? (1.160 ) (3.692 ) R ? 0.2592(6.18)69 e ? ?858 .638 ? 13.314 X Se ? (748 .857 ) (3.215 ) t ? (?1.147 ) (4.141) R 2 ? 0.305(6.19)很明显,对这二个残差回归方程的回归 系数的显著性检验,均拒绝同方差假设, 表明存在异方差性。70 式(6.19)的判定系数2 较大。因此, R认为ei有线性关系, 与 Xi? i2 ? E (u i2 ) ?,应选择 ? 2Xi为权数对原模型 1 Xi(6.11)进行变换。71 对变换后的模型使用普通最小二乘法 得到如下结果:1 Yi / X i ? 26.611 ? 0.069 X i Xi Se ? (442 .622 ) t ? (0.060 ) R ? 0.2302(0.011) (6.194 ) DW ? 1.684(6.20)72 对比加权最小二乘估计式(6.20)与 普通最小二乘估计式(6.17),我们发现斜 率系数相差很小,但加权最小二乘估计 的标准误(0.011)要小于普通最小二乘 估计的标准误(0.012),说明在有异方 差的情形下,普通最小二乘估计高估了 估计量的标准误。73 最后,我们得到的最佳估计值应为 26.611和0.069,最终模型应为? ? Yi ? 26.611 ? 0.069 X i(6.21)74 第二节序列相关一、序列相关的概念和产生的原因(一) 序列相关的概念75 在进行回归分析时,我们总假定其随 机误差项是不相关的,即Cov(ui , u j ) ? 0, i ? j(6.22)上式表示不同时点的误差项之间不相 关。如果一个回归模型不满足上式,即 , Cov(ui , u j ) ? 0 ,则我们称随机误差项之间存 在着序列相关现象,也称为自相关。76 (二) 序列相关产生的背景和原因我们在实际问题的研究中,经常遇到时间序列中出现序列相关的情形。产生序列相关的背景及其原因通常有以下几个方面。77 1.遗漏了重要的解释变量在回归分析的建模过程中,如果忽略了一个或几个重要的解释变量,而这些遗漏的重要变量随着时间的推移而呈现出相关的趋势,回归模型中的误差项就会具有明显的相关趋势,这是因为误差项包含了遗漏的变量。78 2.经济变量的滞后性在实际问题的研究中,许多经济变量都会产生滞后影响,例如物价指数、基建投资、国民收入、消费、货币发行量等都有一定的滞后性。如前期消费额对后期消费额一般会有明显的影响。79 消费支出对收入的回归分析中,经常会发现当期的消费支出除了依赖于其他变量外,还依赖于前期的消费支出,用模型表示为: Yt ? ?1 ? ?2 X t ? ?3Yt ?1 ? ut 。 出 现这 种现象的原因是由于心理、技术及制度上 等等的原因,消费者不轻易改变他们的消 费习惯。这个模型中就出现了序列相关。80 3.回归函数形式的设定错误也可能引起序列相关例如,假定某实际问题的正确回归函 数应由指数模型 (6.23) 来表示。Y ? ?1 exp( ? 2 X ? u )(6.23)81 但是,研究者误用线性回归模型 (6.24) 来表示。Y ? ?1 ? ? 2 X ? u这时,误差项'(6.24)u'表现为序列相关。82 4.蛛网现象(Cobweb Phenomenon)。是微观经济学中的一个概念。它表示 某种商品的供给量因受前一期价格影响 而表现出来的某种规律性,即呈蛛网状 收敛或发散于供需的均衡点。由于规律 性的作用,使得所用回归模型的误差项 不再是随机的了,而产生了某种自相关。83 例如,许多农产品的当期供给受前一期的价 格的影响。这样,今年某种农产品的生产和供 给计划取决于上一年的价格。因此,农产品的 供给函数可表示为St ? ?1 ? ? 2 Pt ?1 ? ut , t ? 1, 2, ???, n(6.25) 其中,St=t 时期农产品供给量;Pt-1=t-1时期农 产品的价格。84 假设在t 时期末,价格Pt 低于Pt-1, 于是在t+1期初,农民决定比t 时期少 生产一些,则t+1期的产量会低于t期 。这样下去,就会形成蛛网现象。85 5.对原始数据加工整理。在回归分析建模中,我们经常要对原始数据进行一些处理,如在具有季节性时序资料的建模中,我们常常要消除季节性,对数据作修匀处理。但如果采用了不恰当的差分变换,也会带来序列相关。86 序列相关问题不仅在时序资料的建模中会经常碰到,而且在截面样本中有时也会存在。大多数经济时间序列由于受经济波动规律的作用,一般随着时间的推移有一种向下或向上变动的趋势。所以,随机误差项ut 一般会出现序列相关的情形。87 二、序列相关性带来的后果 当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的经典假定,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下序列相关产生的后果与异方差类似。88 1.参数的估计量是无偏的,但不是 有效的。 2.可能严重低估误差项的方差。89 3.常用的F 检验和t 检验失效。使用普通最小二乘法估计参数可能 导致回归参数统计检验为显著,但实 际上并不显著的严重错误结论。90 4.如果不加处理地运用普通 最小二乘法估计模型参数,回归参数的置信区间和利用回归模型进行预测的结果会存在较大的误差。91 三、序列相关的检验 当随机误差项存在序列相关时会给 普通最小二乘法的应用带来非常严重的 后果。因此,如何诊断随机误差项是否 存在序列相关就成为一个极其重要的问 题。下面介绍几种主要的诊断方法。92 序列相关的检验图示检验法自相关系数法DW检验法93 (一)图示检验法 图示法是一种直观的诊断方法,它 是把给定的回归模型直接用普通最小二 乘法估计参数,求出残差项et ,et作为ut 随机项的真实估计值,再描绘et 的散点 图,根据散点图来判断et的相关性。残 差et的散点图通常有两种绘制方式 。94 etet-1图 6.4et与et-1的关系95 绘制et-1 ,et 的散点图。用(et-1 ,et )(t = 1,2,…n)作为散布点绘图,如果大部分点落在第Ⅰ、Ⅲ象限,表明随机误差项ut存在着正的序列相关,如图6.4所示。96 etet-1图 6.5et与et-1的关系如果大部分点落在第Ⅱ、Ⅳ象限,那么随机 误差项ut 存在着负自相关,如图6.5所示。97 et t图 6.6 et的分布按照时间顺序绘制回归残差项的et 图形。如果 et(t=1,2,…,n)随着t 的变化逐次有规律地变化,呈现锯齿 形或循环形状的变化,就可断言et 存在相关,表明存在着 序列相关;如果et 随着t的变化逐次变化并不断地改变符 号,那么随机误差项ut 存在负的序列相关;如图6.6所示 。98 ett图 6.7 et的分布 如果et 随着t 的变化逐次变化并不频繁地改变符号, 而是几个正的et 后面跟着几个负的,则表明随机误差项存ut 在正的序列相关,如图6.7所示。99 (二) 自相关系数法 误差序列 u1 , u2 , ???, ut 的自相关系数定义为???u ut ?2 n t ?2 2 tnt t ?1 n?u ?ut ?22 t ?1(6.26)100 自相关系数 1], 当?的取值范围是[-1,?接近于1时,表明误差序列存在正相关,当? 接近于-1时,表明误差序列存在负相关。101 在实际应用中,误差序列 u1 , u2 , ???, un的真实值是未知的,需要用其估计值 e t代替,得自相关系数的估计值为? ???e et ?2 n t ?2 2 tnt t ?1 n?e ?et ?2(6.27)2 t ?1102 ? ? 作为自相关系数 ? 的估计值与样本量有关,需要做统计显著性检验才能确定自相关性的存在,通常采用下面介绍的DW检验代替对? ?的检验。103 (三)DW检验DW检验是J.Durbin(杜宾)和G.S.Watson(沃特森)于1951年提出的一种适用于小样本的检验方法。DW检验只能用于检验随机误差项具有一阶自回归形式的序列相关问题。这种检验方法是建立经济计量模型中最常用的方法,一般的计算机软件都可以计算出DW值。104 随机误差项的一阶自回归形式为ut ? ?ut ?1 ? vt(6.28)为了检验序列的相关性,构造的原假设是H0 : ? ? 0(6.29)105 为了检验上述假设,构造DW统计量首先 要求出回归估计式的残差et 定义DW统计 量为DW ?? (et ?2nt n? et ?1 )2 t2?et ?1(6.30)106 我们推导出DW值的取值范围。et2 ? ? et2?1 ? 2? et et ?1 ?t ?2 t ?2 t ?2 n n nDW ?et2 ?t ?1n(6.31)107 在认为:et2 ? ? et2?1 ? ? et2 ?t ?2 t ?2 t ?1nnn则:n ? ? ? ? et et ?1 ? ? DW ? 2?1 ? t ? 2n ? 2 ? ? et ? ? t ?1 ? ?(6.32)108 由于? ???e et ?2 nnt t ?1?et ?12 t因此? DW ? 2(1 ? ? )109 所以,DW值与 ? 的对应关系如表6.2所示。 ?表 6.2? DW值与 ? 的值的对应关系? ?-1 (-1,0) 0 (0,1) 1DW 4 (2,4) 2 (0,2) 0110 由上述讨论可知DW的取值范围为0≤DW≤4根据样本容量 n 和解释变量的数 目k′(不包括常数项)查DW分布表,得临 界值 dL 和 dU ,然后依下列准则考察计 算得到的DW值,以决定模型的自相关状 态。111 表6.30≤DW≤dL dL<DW≤dUDW 检验决策规则误差项u1,u2,…,un间存在正相关 不能判定是否有自相关 误差项u1,u2,…,un间无自相关dU<DW<4-dU 4-dU≤DW<4-dL不能判定是否有自相关误差项u1,u2,…,un间存在负相关4-dL≤DW≤4112 表6.3可以用坐标图更加直观地表示出来:113 f (DW)正 自 相 关 dL不 能 确 定 dU无 自相 关 2不 能 确 定负 自 相 关DW4-dU 4-dL 4图6.8 DW 检验示意图114 需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性。 ① DW检验有两个不能确定的区域,一 旦DW值落在这两个区域,就无法判断。 这时,只有增大样本容量或选取其他方法 。115 ② DW统计量的上、下界表要求n≥15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断。③ DW检验不适应随机误差项具有高阶序列相关的检验。④ 只适用于有常数项的回归模型并且解释变量中不能含滞后的被解释变量。116 (四)拉格朗日乘数检验(BreuschGoldfrey) --高阶自相关检验ut ? ?1ut ?1 ? ?2ut ?2 ? ??? ? ? put ? p ? vt检验如下的约束回归Yt ? ?1 ? ? 2 X 2t ? ? ? ? k X kt ? ?1ut ?1 ? ? ? ? p ut ? p ? vt117 vt为经典误差项原假设为H 0 : ?1 ? ? 2 ? ? ? ? p ? 0118 检验步骤: 1.Ols估计回归方程,得到残差e 2.作辅助回归et ? ?1 ? ? 2 X 2t ? ? ? ? k X kt ? ?1et ?1 ? ? ? ? p et ? p ? vt119 3.LM ? (n ? p) R 2 ? ? ? 2 pLM统计量大于临界值,就拒绝 原假设,表明存在自相关。120 四、补救措施当一个回归模型存在序列相关性时,首先要查明序列相关产生的原因。如果是回归模型选用不当,则应改用适当的回归模型;如果是缺少重要的解释变量,则应增加该解释变量;如果以上两种方法都不 能消除序列相关,则需采用方法处理。本 书在此介绍几种常用的方法。121 (一)差分法 差分法是一类克服序列相关的有效 的方法,被广泛地采用。差分法是将原 模型变换为差分模型,分为一阶差分法 和广义差分法。122 1.一阶差分法 一阶差分法是将原模型Yt ? ?1 ? ? 2 X 2t ? ??? ? ?k X kt ? ut变换为(6.33)?Yt ? ? 2 ?X 2t ? ??? ? ?k ?X kt ? ut ? ut ?1(6.34)123 其中,?X it ? X it ? X i ,t ?1?i ? 2, 3, ?, k ??Yt ? Yt ? Yt ?1如果原模型存在完全一阶正自相关,即:ut ? ut ?1 ? vt(6.35)其中, vt 为经典误差项。124 那么对于式(6.34)的差分模型,则应满足应用普通最小二乘法的经典假定, 用普通最小二乘法估计式(6.34)的差分 模型,得到的参数估计量即为原模型参数 的无偏、有效的估计量。125 实际问题中,完全一阶正自相关的情 况并不多见,所以人们不是经常直接使用 差分模型。对于非完全一阶正自相关的情 况,只要存在一定程度的一阶正自相关, 差分模型就可以有效地加以克服。通常人 们采用下面的广义差分法,但估计的过程 将变得较为复杂。126 2.广义差分法 广义差分法可以克服所有类型的序列相关带来的问题,一阶差分法是它的一个特例。127 如果原模型(6.33)存在ut ? ?1ut ?1 ? ?2ut ?2 ? ??? ? ? put ? p ? vt(6.36)vt 为经典误差项,则可以将原模型(6.33)变换为128 Yt ? ?1Yt ?1 ? ? 2Yt ? 2 ? ? ? ? p Yt ? p ? ? 1 ( 1 ? ?1 ? ? 2 ? ? ? ? p ) ? ? 2 ( X 2t ? ?1 X 2 ,t ?1 ? ? 2 X 2 ,t ? 2 ? ? ? ? p X 2 ,t ? p ) ? ? ? ? k ( X kt ? ?1 X k ,t ?1 ? ? 2 X k ,t ? 2 ? ? ? ? p X k ,t ? p ) ? vt(6.37)129 3.随机误差项相关系数的估计 应用广义差分法,必须已知不同样本点 之间随机误差项的相关系数 ?1 , ?2 , ???, ? p 。实际上,人们并不知道它们的具体数值,所以必须首先对它们进行估计。于是发展 了许多估计方法,诸如迭代法、杜宾两步 法等。130 其基本思路是采用普通最小二乘法估 计原模型,得到随机误差项的“近似估计 值”,然后利用该“近似估计值”求得随 机误差项相关系数的估计量。不同的方法 旨在力图使得这些估计量更加逼近实际。131 例如,杜宾两步法就是其中一种常用 的方法。以采用普通最小二乘法估计原模 型得到的随机误差项的“近似估计值”作为模型(6.36)的样本观测值,采用普通最小? ? ? ? 二乘法估计该模型,得到 1 , ? 2 ,?, ? p,? 作为随机误差项的相关系数1 , ?2 , ???, ? p的第一步估计值。132 ut ? ?1ut ?1 ? ?2ut ?2 ? ??? ? ? put ? p ? vt(6.36)133 ? ? ? 将 ?1 , ?2 , ???, ? p 的第一步估计值 ?1 , ? 2 ,?, ? p,替换方程(6.37)右边的 ?1 , ?2 , ???, ? p ,然后 再采用普通最小二乘法估计该方程。134 Yt ? ?1Yt ?1 ? ? 2Yt ? 2 ? ? ? ? p Yt ? p ? ? 1 ( 1 ? ?1 ? ? 2 ? ? ? ? p ) ? ? 2 ( X 2t ? ?1 X 2 ,t ?1 ? ? 2 X 2 ,t ? 2 ? ? ? ? p X 2 ,t ? p ) ? ? ? ? k ( X kt ? ?1 X k ,t ?1 ? ? 2 X k ,t ? 2 ? ? ? ? p X k ,t ? p ) ? vt(6.37)135 目的不是为了得到原模型参数 ?1 , ? 2 , ???, ? k 的估计量,而是为了得到 ?1 , ?2 , ???, ? p 的第? ? 二步估计值 ?1 , ? 2 ,…, ? ?? ? ?p。 这就是求得随机误差项的相关系数估计值的“两步法”。136 ? ? ? 将第二步估计值 ?1 , ? 2 ,… ? p , 用于模型 ? ? ?(6.37)的样本观测值的计算中,然后再采用普通最小二乘法估计 该 方程,得到原 模型参数 ?1 , ? 2 , ???, ? k 的估计值。137 (二)广义最小二乘法(GLS) 广义最小二乘法,顾名思义,是最具有 普遍意义的最小二乘法。其中普通最小二 乘法和加权最小二乘法是它的特例。138 五、实际案例表6.4是北京市年城镇居民 家庭人均收入与人均支出的数据。以人均 实际支出为被解释变量, 以人均实际收入 为解释变量可建立消费函数。139 表6.4 北京市城镇居民家庭收入与支出数据表(单位:元)人均生活消 费支出( 元) 359.86 408.66 490.44 511.43 商品零售物 价指数 (%) 100.00 101.50 108.60 110.20 人均实际 收入( 元) 450.18 484.28 551.93 562.22 人均实际 支出( 元) 359.86 402.62 451.60 464.09年份人均收入 (元) 450.18 491.54 599.40 619.57残差80 1981-30.91 -11.70 -9.43 -4.05198285 1986668.06716.60 837.65 7.33534.82574.06 666.75 923.32 1067.38112.30113.00 115.40 136.80 145.90594.89634.16 725.87 847.11 902.90476.24508.02 577.77 674.94 731.58-14.45-9.79 -3.36 10.09 28.21140 续表年份人均收入( 元) 7.67 7.33 3.10人均生活消 费支出(元) 5.55 6.05 4.65商品零售物价 指数(%) 158.60 193.30 229.10 238.50 258.80 280.30人均实际收 人均实际支 入 出 (元) (元) 891.07 914.47 829.14 866.81 911.85 .58 753.00 663.64 690.17 718.77 761.56残差89 9228.38 41.64 11.20 11.72 9.22 -11.341993963935.398.68 7945.782939.609.76 5729.45327.70386.40 435.10 466.901200.911.06 1701.82897.043.70 1227.13-12.10-8.20 2.78 -27.89141 采用普通最小二乘法,估计出回归方程为? Yt ? 79 .930 ? 0.690 X t Se ? ( 12 .399 )( 0.013 ) t ? ( 6.446 ) ( 53 .621 ) R ? 0.9942(6.38)DW ? 0.575142 模型中,DW=0.575,取, ? 5% 查DW上 ?下界表 dL=1.18,dU=1.40, DW&1.18说明误差项存在正自相关。143 回归模型的残差列在表6.4中, 可以明 显地看出残差序列存在着某种模式的变 动,该残差的前7项均为负值,中间连 续7项均为正值,然后又连续多项为负 值,且这些残差值由小逐渐增大然后又 逐 渐 减小,这表明该残差序列存在着较 强的正自相关,预示着回归模型的随机 误差项可能存在着一阶自回归变动模式。144 设原模型的误差项为,序列相关的 形式为一阶自相关。即u t ? ?u t ?1 ? vtvt为经典误差项。(6.39)145 使用普通最小二乘法估计? 的估计值? ? ,得et ? 0.657 et ?1 Se ? (0.178 ) t ? (3.701)(6.40)? =0.657,t 检验表明 ? 是高度显著的 ,显然误差项ut 有一阶正自相关。? ?146 使用 ? 进行广义差分变换,变换后的模 ? 型形式为:? ? ? Yt ? ?Yt ?1 ? ?1 (1 ? ? ) ? ? 2 ( X t ? ?X t ?1 ) ? vt(6.40)? 将 ? =0.657代入模型(6.41),令? X ? X t ? ?X t ?1* t? Yt ? Yt ? ?Yt ?1*147 使用普通最小二乘法估计式(6.41)的参 数,得? Yt * ? 36.010 ? 0.669 X t* Se ? (8.105 ) R 2 ? 0.985 (0.021) DW ? 1.830 t ? (4.443) (32.416 )(6.42)显然,在模型(6.42)中,DW=1.830,已知 。因此,在广义 dU ? 1.40, dU ? DW ? 2 差分模型(6.42)中已无序列相关。148 ? ? 据 ?1 (1 ? ? ) ? 36.010 ,可得? ? 36.010 ? 104 .985 ?1 1 ? 0.657(6.43)因此,原回归模型应为Yt ? 104 .985 ? 0.669 X t(6.44)149 在进行广义差分时,解释变量X 与 被解释变量Y均以差分形式出现,因而 样本容量由n减少为n-1,即丢失了第一 个观测值。如果样本容量较大,减少一 个观测值对估计结果影响不大。但是,如果样本容量较小,则对估计精度产生较大的影响。150 此时,可采用普莱斯―温斯滕(PraisWinsten)变换,将第一个样本观测值补 充到差分序列中。第一个观测值变换为Y1 1 ? ? 和X 1 1 ? ?22此时,样本容量依然为n。151 本例中,采用普莱斯―温斯滕变换后的普通最小二乘估计结果为? Yt* ? 36.607 ? 0.668 X t* Se ? (7.896 ) (0.020 ) t ? (4.636 ) (33.029 ) R 2 ? 0.985 DW ? 1.797(6.45)152 对比式(6.45)和式(6.42),两者差异较小。 因为本例中n=19,是一个不算小的样本。153 第三节多重共线性一、多重共线性的概念及产生的原因(一)多重共线性的概念154 多元线性回归模型有一个经典假定,就是要求多元线性回归模型Yi ? ?1 ? ? 2 X 2i ? ? ? ? k X ki ? ui中的解释变量 X 之间无线性关系。155 为了考虑常数项,取变量 X 1i ? 1 ,则如果 存在不全为0的k个数 c1 , c 2 , ?, ck ,使得c1 X 1i ? c2 X 2i ? ? ? ck X ki ? 0, i ? 1, 2, ?, n(6.46)则称解释变量 X 1 , X 2 , ?, X k 之间存在完全 多重共性线。156 如c2 ? 0 ,则式(6.46)可写为c3 ck c1 ? ? X 1i ? X 3i ? ? ? X ki c2 c2 c2(6.47)X 2i即 X 2i 是其它解释变量的精确线性组合。157 在实际问题中,完全的多重共线性并不多 见,常见的是式(6.46)近似成立的情形,即 存在不全为0的k个数 c1 , c2 , ?, ck ,使得c1 X 1i ? c2 X 2i ? ? ? ck X ki ? 0, i ? 1, 2, ?, n(6.48)称解释变量 X 1 , X 2 , ???, X k 之间存在近似多 重共性线。158 式(6.48)可表达为c1 X 1i ? c2 X 2i ? ? ? ck X ki ? vi ? 0其中(6.49)v i 为随机误差项。c3 ck c1 1 ? ? X 1i ? X 3i ? ? ? X ki ? vi c2 c2 c2 c2如 c2 ? 0 ,则式(6.49)可写为X 2i(6.50)159 式(6.50)表明,不是其它解释变量的精确线性组合,而是其它解释变量 的线性组合与随机误差项的和。160 解释变量 X 1 , X 2 , ???, X k 之间存在 的多重共线性,也称为复共线性。 在实际经济问题的多元回归分析中 ,多重共线性的情形很多。161 1. 如何诊断解释变量间的多重共线性? 2.多重共线性情形会给多元线性回归 分析带来什么影响? 3.如何克服多重共线性的影响?162 (二)多重共线性产生的背景和原因在现实的生活当中,解释变量之间完 全不相关的情形是非常少见的,尤其是 研究某个经济问题时,涉及的解释变量 较多,我们很难找到一组解释变量,它 们之间互不相关,而且它们又都对被解 释变量有显著影响。163 客观地说,某一经济现象,涉及到 多个影响因素时,这些影响因素之 间大都有一定的相关性。164 当我们所研究的经济问题涉及到时 间序列资料时,由于经济变量随时间 往往存在共同的变化趋势,使得它们 之间容易出现共线性。165 二、多重共线性的后果 设多元线性回归模型Y ? ?1 ? ?2 X 2 ? ?3 X 3 ? ??? ? ? k X k ? u的一组数, c1 , c 2 ? ??, c k 使得:(6.51)存在完全的多重共线性,即存在不全为0c1 X1i ? c2 X 2i ? ??? ? ck X ki ? 0, i ? 1, 2, ???, nX 这里, 1i ? 1 。(6.52)166 由样本数据 X 1i , X 2i ,?, X ki 所组成的设计矩阵X 的秩rank(X)&k,k 阶正规方程组? X ' X? ? X 'Y 的解不唯一,就是说不能得? 到 ? j 的唯一解。(注:此正规方程组X ' X? ? XY为矩阵表达式)167 在实际问题的研究中,经常见到的是近似共线性的情形,即存在不全为0的一组数 c1 , c 2 ,? ? ?, c k , 使得c1 X1i ? c2 X 2i ????? ck X ki ? vi ? 0, i ? 1,2, ???, n(6.53)168 此时,设计矩阵X 的秩rank(X)=k成立,解释变量间无完全的多重共线性,满足经? 典假定,普通最小二乘估计量 ? j 是 ? j的最佳线性无偏估计量。就是说最小二乘估计量是所有线性无偏估计量中方差最小 的,但这并不意味着最小二乘估计量的方 差一定是很小的。169 实际上,由于解释变量间的高度共线? 性,将使估计量 ? j 的方差很大? ?j的估计精度很低,这一点在第五章中 已有说明, 在后面的方差扩大因子分 析中可以得到证实。170 此时,我们无法正确判断解释 变量对被解释变量的影响程度,甚 至出现估计值的经济意义无法解释。 这样的情况在进行实际问题的回归 分析时会经常碰到。 一般情况下,完全多重共线性 的情况比较少见,也不难发现。171 严重多重共线性情形的后果1. 多重共线性不改变参数估计量的无偏性。事实上,对于严重多重共线性,参数估计量仍为最优的估计。2. 多重共线性使参数的最小二乘估计的方差很大,即估计值的精度很低。172 3. 各个回归系数的值很难精确估计,甚至可能出现符号错误的现象。4.回归系数对样本数据的微小变化变得非常敏感。173 三、多重共线性的检验 近年来,人们已经提出了许多可行的判断方法,下面我们介绍几种主要方法。174 (一)方差扩大因子法由第五章第二节的式(5.25)可知? Var ? j ?? ??2 2 jSSTj (1 ? R )(6.54)175 当解释变量Xj 与其它解释变量无线性关 系时,辅助回归的判定系数 R 2 ? 0 。此 j? 时,? j 的方差为? )? ? Var( ? j SSTj2(6.55)176 1 1? R2 j度量了由于Xj 与其它解释变量之? 间的线性关联程度对估计量 ? j 的方差的影响。称其为方差扩大因子,定义为1 VIF j ? 2 1? Rj由式(6.56)可知 VIF ? 1 。(6.56)177 R 2 度量了解释变量 X j 与其余k-1个解 由于 j释变量(包括常数项)的线性相关程度, 这种相关程度越强,说明解释变量之间的多重共线 R 2 也就越接近于1, VIF j 也就越大 性越严重, j 。 反之,Xj 与其余k-1个解释变量的线性相关程 度越弱,解释变量之间的多重共线性也就越弱 2 , R j 也就越接近于0, VIF 也就越接近于 1。j178 由此可见,VIF j 的大小反映了解释变量之间是否存在多重共线性,因此可由它来度量多重共线性的严重程度。经验表明,当 VIF j ≥10时,就说明解释变量Xj 与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。179 也可以用个 k 解释变量所对应的方差扩 大因子的平均数来度量多重共线性。当VIF ?1k? VIFj j?1k(6.57)远远大于10时就表示存在严重的多重 共线性问题。180 (二)直观判定法 1.R2 较高,而显著t 统计量较少时,可能存在多重共线性问题。2.当增加或剔除一个解释变量,或者改变一个观测值时,回归系数的估计值发生较大变化,我们就认为回归方程存在严重的多重共线性。181 3.一些重要的解释变量在回归方程 中没有通过显著性检验时,可初步判断 存在着严重的多重共线性。 4.有些解释变量的回归系数所带符 号与定性分析结果违背时,可能存在多 重共线性问题。 5.解释变量间的相关系数较大时, 可能会出现多重共线性问题。182 四、补救措施 当通过某种检验,发现解释变量中 存在严重的多重共线性时,我们就要设 法消除或缓解这种共线性。处理多重共 线性问题的方法很多,常用的有下面几 种。183 (一)使用非样本先验信息 如果据先前的经济计量分析或经济理 论分析已知模型中的共线性解释变量的参 数间具有某种线性关系,则可利用此条件 消除解释变量间的多重共线性。184 例如,柯布―道格拉斯生产函数,其对 数线性形式为LnY ? LnA ? ? LnL ? ? LnK ? u(6.59)式中,Y=国内生产总值,L=劳动力投 入,K=资本投入。185 由于在时间序列数据中劳动力投入L 和资本投入 K 有很高的相关性,因此 该模型中往往有较严重的多重共线性。 如果有先验信息判断该经济系统是规模 报酬不变的,则有 ? ? ? ? 1 。186 则式(6.59)变为Y K Ln ? LnA ? ?Ln ? u L L(6.60)即将式(6.59)的二个解释变量的对数线性 模型,转变为式(6.60)的一个解释变量的 对数线性模型,消除了多重共线性。187 使用普通最小二乘法估计出式(6.60)的? ? ? 资本弹性 ? ,则劳动力弹性为 ? ? 1 ? ?。从而得到式(6.59)的C―D生产函数。188 (二)横截面与时间序列数据并用 就是先利用横截面数据估计某一参 数,将结果代入原方程后,再利用时间 序列数据估计另一参数。189 例如,要研究汽车需求量,则可设定模型为LnYt ? ?1 ? ? 2 LnPt ? ? 3 LnI t ? ut(6.61)其中: Y =汽车销售量,P =汽车价格,I =收 入。 在时间序列数据中,价格和收入有着 较高的相关关系。因此,在式(6.61)中将 有多重共线性问题。190 如果我们能够取得此期间横截面数据 ,此时价格保持不变,则式(6.61)变为对 的一元回归模型,则可得到收入弹性的估 计值。然后再利用时间序列数据估计式 (6.62)? LnYt ? ? 3 LnI t ? ?1 ? ? 2 LnPt ? u t(6.62)? ? 得到 ?1 , ? 2 ,从而得到汽车需求模型。191 这种方法假定横截面数据估计 的收入弹性与时间序列数据估计的 收入弹性是相等的。192 (三)剔除一些不重要的共线性解释变量 通常在经济问题的建模中, 由于我 们认识水平的局限, 容易考虑过多的解释变量。 当涉及解释变量较多 时,大多数回归方程都受到多重共线性的影响。这时,最常用的办法是首先作解释变量的筛选,舍去一些解释变量。193 当回归方程中的全部解释变量都通过 显著性检验后,如果有几个变量的方差扩 大因子大于10,我们可把方差扩大因子最 大者所对应的解释变量首先剔除,再重新 建立回归方程,如果仍然存在严重的多重 共线性,则再继续剔除方差扩大因子最大 者所对应的解释变量,直到回归方程中不 再存在严重的多重共线性为止。194 总之,在选择回归模型时,可以将回归 系数的显著性检验、方差扩大因子VIF的多 重共线性检验与解释变量的经济意义结合起 来考虑,以引进或剔除变量。195 (四)增大样本容量建立一个实际经济问题的回归模型,如果所收集的样本数据太少,也容易产生多重共线性。从本质上讲,多重共线性是样本现象。196 据第五章第二节式(5.17)的分析可知,当增加样本容量n 时,会增大SSTj ? ? ( X ij ? X j ) 2i ?1 n。因此,在 R 2 固定不变的条件下,会减 j? 少估计量 ? j 的方差,从而减弱了多重共 线性对回归方程的影响。因此,增大样本容量也是缓解多重共线性的一个途径。197 增大样本容量的方法在有些经济问题中是不现实的,因为在经济问题中,许多解释变量是不受控制的,或由于种种原因不可能再得到一些新的样本数据。198 (五)使用有偏估计 处理多重共线性对回归模型的影响是近40年 来统计学家们关注的热点课题之一,除以上方 法被人们应用外,统计学家还致力改进古典的 最小二乘法,提出以采用有偏估计为代价来提 高估计量稳定性的方法,如岭回归法、主成分 法、偏最小二乘法等。199 五、实际案例 为了研究我国民航客运量的变化趋势及 其成因,我们以我国连续16年的数据进行 分析。其中,民航客运量作为被解释变量 ,以国民收入、消费额、铁路客运量、民 航航线里程、来华旅游入境人数为影响民 航客运量的主要因素。200 Y 表示民航客运量(万人),X1表示国民收入(亿元),X2表示消费额(亿元),X3表示铁路客运量(万人),X4表示民航航线里程(万公里), X5表示来华旅游入境人数(万人)。201 据表6.5的数据,使用普通最小二乘法, 得到以下回归模型。? Y ? 450 .909 ? 0.354 X 1 ? 0.561 X 2 ? 0.007 X 3 ? 21.578 X 4 ? 0.435 X 5 Se ? (178 .078 ) (0.085 ) (0.125 ) R 2 ? 0.997 DW ? 1.993 (0.002 ) (4.030 ) (5.354 ) (0.052 ) (8.440 ) t ? (2.532 ) (4.152 ) (?4.478 ) (?3.510 )(6.63)202 Dependent Variable: Y Method: Least Squares Date: 03/01/05 Time: 07:45 Sample: 1 16Included observations: 16Variable C X1 X2 X3 X4 X5 R-squared Coefficient 450.898 -0...188 0.998231 Std. Error 178.230 0....051560 Mean dependent var t-Statistic 2......440481 Prob. 0.0 0.6 0.0 Adjusted R-squaredS.E. of regression Sum squared resid Log likelihood0.99734649..98 -81.37209S.D. dependent varAkaike info criterion Schwarz criterion F-statistic960.672410.23 Durbin-Watson stat1.992846Prob(F-statistic)0.000000203 从输出结果可以看出,DW=1.993,表明 该模型不存在序列相关,虽然各回归系数 均通过了5%显示水平的t 检验,但通过调用EViews的Scalar命令计算得知,X1,X2的方差扩大因子很大,分别为 VIF1 ? , VIF2 ?
,远远超过10,并且X2的系数估计值为负,与理论分析不符。204 剔除X1,建立对四个解释变量的回归方 程,结果如下? Y ? 695 .039 ? 0.053 X 2 ? 0.012 X 3 ? 32.037 X 4 ? 0.399 X 5 Se ? (264 .525 ) (0.042 ) (0.003) R 2 ? 0.993 DW ? 2.211 (4.951) (0.080 ) (4.988 ) t ? (2.627 ) (?1.262 ) (?4.207 ) (6.471)(6.64)205 式(6.64)的解释变量X2的回归系数为负,与经济理论不符。 X 2 , X 3 , X 4 , X 5 的方差扩大因子分别为 VIF2 ? 77.546VIF3 ? 2.319, 4 ? 33.812 , VIF5 ? 24.469 X2的方差扩大 VIF因子为77.546,远大于10,说明模型 (6.64)中依然有较严重的多重共线性。206 剔除X2,用Y与三个解释变量X3,X4,X5,建 立回归方程,得到如下回归模型。Y ? 591 .876 ? 0.010 X 3 ? 26 .436 X 4 ? 0.317 X 5 Se ? (257 .730 ) (0.0026 ) ( 2.249 ) t ? ( 2.296 ) (?3.933 ) (11 .754 ) R 2 ? 0.993 DW ? 1.908(6.65)207(0.048 ) (6.568 ) 模型(6.65)中的三个解释变量系数的方差扩大因子分别为:VIF3 ? 1.984 VIF4 ? 6.650VIF , 5 ? 8.514 ,都小于10,并且回归系数也都有合理的解释,说明模型(6.65)中已不存 在严重的多重共线性。因为其它检验均已 通过,因此可将该模型确认为最终使用模 型。208 据该模型的最终结果可知,铁路客运 量与民航客运量呈反向关系,铁路客运量 每增加1万人,民航客运量将减少100人; 民航航线里程每增加1万公里,民航客运量 将增加26万人;来华旅游入境人数每增加1 万人,民航客运量将增加0.317万人。如此 可知,对民航客运量影响最大的因素是民 航航线里程和来华旅游入境人数。209 此回归模型的拟合优度很高,调整 的判定系数 R 2 ? 0.993 ,说明铁路客 运量、民航航线里程和来华旅游入境人 数这三个解释变量解释了民航客运量总变异的99.3%。210 例1:中国粮食生产函数Y―粮食产量(万吨) X1-化肥施用量(万千克) X2-粮食播种面积(千公顷) X3-成灾面积(公顷) X4-农业机械总动力(万千瓦) X5-农业劳动力(万人)211 例2:中国进口需求模型X-GDP(亿元) Y-进口额(亿美元)212 213 214 215
更多搜索:
| 广告服务 | 招纳纳贤 | 诚邀合作 | 联系我们 | 意见反馈 | 服务条款 |
All rights reserved Powered by
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 直线相关与回归 的文章

 

随机推荐