数据所有检验都可以通过 只有一个工具变量检验的p值过大 能不能直接把他剔除

原标题:【陆铭】面板数据、工具工具变量检验选择和HAUSMAN检验的若干问题

本文由计量经济学服务中心综合整理转载请注明来源。

此短文适用于对于面板数据和工具工具变量检验已经有初步了解的人士阅读过中级教材的相关内容。本文仅供参考请原谅中英文混用。中国科学院的徐志刚博士一一指明了此攵存在的错误并且对原文中存在的不足作了大量的补充,特表示感谢

面板数据作为计量经济学中的一个小分支,多数本科学校没有学過此课程主要面向研究生及以上,但是面板数据的实证分析在核心刊物上屡屡出现(例子:前天小编去市图书馆看某经济类核心期刊,一共有10篇文章其中3篇用的是面板数据,但不是简单的面板数据主要面板数据和别的模型的结合)。

一般而言面板数据模型的误差項由两部分组成,一部分是与个体观察单位有关的它概括了所有影响被解释工具变量检验,但不随时间变化的因素因此,面板数据模型也常常被成为非观测效应模型;另外一部分概括了因截面因时间而变化的不可观测因素通常被成为特异性误差或特异扰动项(事实上這第二部分误差还可分成两部分,一部分是不因截面变化但随时间变化的非观测因素对应的误差项Vt这一部分一般大家的处理办法是通过茬模型中引入时间虚拟工具变量检验来加以剥离和控制,另一部分才是因截面因时间而变化的不可观测因素不过一般计量经济学的面板數据分析中都主要讨论两部分,在更高级一点的统计学或计量经济学中会讨论误差分量模型它一般讨论三部分误差)。

非观测效应模型┅般根据对时不变非观测效应的不同假设可分为固定效应模型和随机效应模型传统上,大家都习惯这样分类:如果把非观测效应看做是各个截面或个体特有的可估计参数并且不随时间而变化,则模型为固定效应模型;如果把非观测效应看作随机工具变量检验并且符合┅个特定的分布,则模型为随机效应模型

不过,上述定义不是十分严谨而且一个非常容易让人产生误解的地方是似乎固定效应模型中嘚非观测效应是随时间不变的,是固定的而随机效应模型中的非观测效应则不是固定的,而是随时间变化的

一个逻辑上比较一致和严謹,并且越来越为大家所接受的假设是(参见Wooldridge的教材和Mundlak1978年的论文)不论固定效应还是随机效应都是随机的,都是概括了那些没有观测到嘚不随时间而变化的,但影响被解释工具变量检验的因素(尤其当截面个体比较大的时候这种假设是比较合理的)。非观测效应究竟應假设为固定效应还是随机效应关键看这部分不随时间变化的非观测效应对应的因素是否与模型中控制的观测到的解释工具变量检验相關,如果这个效应与可观测的解释工具变量检验不相关则这个效应成为随机效应。这也正是HAUSMAN设定检验所需要检验的假说

非观测效应模型因为对非观测效应假设的不同,因为使用面板数据信息的不同可以用不同方法来估计并且得到不同的估计量,一般有四个:

(4)随机效应估计量(REGLS或FGLS估计量)

这四个估计量因为假设和使用信息的不同而不同,各有优劣势相互之间也有密切关系。3和4分别是1和2的加权平均;4在特定的假设分别可以转化成1和3;如果HAUSMAN检验表明4和1没有区别的时候意味着1和2没有区别

RE假设未观察因素与解释工具变量检验是正交的,只不过在未观察因素里有两个部分一是与个体单位有关的,二是完全随机的RE在做估计的时候,是用这两个部分的方差计算出一个指數λ,来做quasi-demean也就是说在去平均的时候是用原值的y或x减去λ乘以y或x的均值,然后用GLS估计极端地,当λ为0时非观测效应是一个常数,并苴所有个体都一样就等价于Pooled OLS,当λ为1时说明完全随机的部分可以忽略,所有未观察因素都是与单位有关的于是就等价于FE。但FE不需要假定未观察因素与解释工具变量检验是正交的在做FE时,固定效应都被差分掉了所以也可得到consistent的结果。

PANEL数据的好处之一是如果未观察箌的是固定效应,那么在做DEMEAN时未观察因素就被差分掉了。这样就可以减少由于未观察的因素可能与解释工具变量检验相关而导致的内生性问题

二、那么PANEL的FE或者RE分析九避免了内生性问题吗?

只能说好一些如果内生的问题只是由于与单位有关的并不随时间变化的遗漏工具變量检验与解释工具变量检验有关造成的,这时数据的差分就解决了问题,但是别忘记还有一部分误差,如果这部分误差里包含的因素也可能影响解释工具变量检验那么,差分只能解决前面讲的问题由随机项里包括的因素与解释工具变量检验之间的关系导致的内生性问题还可能存在。

三、如何处理内生性问题

找IV解决。类似于在OLS基础上找IV但对PANEL的工具应该具有PANEL结构,除非你基础的估计没有使用PANEL的方法比如说对数据用了pooled OLS方法,但能够用pooled OLS方法分析PANEL DATA的条件是很严格的

1, IV应该尽量是外生的(如历史/自然/气候/地理之类)它应该在理论上對被解释工具变量检验(以下称Y)没有直接影响,但应该通过影响被工具的工具变量检验(以下称X)而间接影响被解释工具变量检验Y

2, 洳果上述理论逻辑通的话将内生工具变量检验X作为解释工具变量检验,IV和其他工具变量检验(X2)作为解释工具变量检验看IV是否显著,咜应该显著如果选了多个IV,就用F TEST看其是否都不显著同时,如果在多个IV中有一个是确定为外生的,那么可以用Sargan test ofoveridentifying restrictions来检验其他的IV是不是確实是外生的。

如果上述都没有问题做一下IV回归。完成后用HAUSMAN检验,这个检验的原假说是IV回归与原回归(不用IV的回归)的工具变量检验嘚系数并没有显著的不同看一下P值,如果P小于比如说0.1或者0.05,那么说明IV回归与原来的回归显著不同,原来的方程的确有内生性问题导致的估计偏误反之,如果P很高超过0.1,或0.05那说明IV回归与原来的回归没有显著不同,无法拒绝原来的回归没有显著的内生问题导致的估計偏误的原假设

如果选择的IV本身就影响Y,那它就不能被作为IV例如,Y在左边右边是X(被工具的),X2IV。当IV被放在方程右边时它最好昰不显著影响Y的。在Acemoglu(2001)里他就检验了他们的IV是否直接影响被解释工具变量检验,结果说明不直接影响于是这个IV是好的。当然一个恏的IV在前面的回归中也可能是显著的(不过一般如果理论和逻辑上IV是通过被工具的内生解释工具变量检验间接影响被解释工具变量检验的話,一般来说应该是被工具的内生解释工具变量检验使得IV不显著或者由于两者相关性很高,两者都不显著)但判断的标准还只是t值。這个工具变量检验显著完全有可能是因为它影响了其他显著的工具变量检验(比如被工具的工具变量检验)如果是这样,当包括了IV在原方程中以后其他工具变量检验(特别需要注意的是被工具的工具变量检验X)的系数可能发生明显变化。

(1978)的程序化所以,Hausman Test的命令(hausman)假设使鼡者知道需要比较的两个方程中哪一个是“无论原假说成立与否都是consistent”哪一个“在原假说下不仅efficient而且consistent,但若原假说不成立则inconsistent”,[1]然后在STATA 8下,步骤是:

(1)在关于是FE还是RE的检验中原假说是非观测效应与解释工具变量检验不相关,备择假说是两者相关FE是无论原假说成竝与否都是consistent,而RE在原假说下是consistent并且Asymptotically efficient(样本越大越有效),但如果原假说被拒绝则RE不是consistent的

所以做法应该是(STATA8的命令):

先做IV,因为它無论如何都是consistent的,但OLS只有在原假设成立即OLS结果与IV结果相同,内生性问题没有时才是consistent的。所以应该先做IV。

在老版本的STATA里如果不加特殊说明,STATA就会默认为先写的回归命令得到的是总是一致的估计结果后写的得到的是备择假设下不一致的估计结果。现在HAUSMAN命令规范了而苴扩展了。先跑哪个不重要关键在于写最后HAUSMAN命令时候的顺序,而且如果最近跑的一个没有用EST存名字的话要用“.”代替。

(1)对以上检驗的理解的另一种方式是我们先做一个假设条件要求更松的估计,然后再做一个假设条件更严格的相比之下,IV(IVFE)比OLS(FE)要求更松嫆易搞混的是FE比RE假设条件更松。RE假设未观察因素与解释工具变量检验是正交的只不过在未观察因素里有两个部分,一是与个体单位有关嘚二是完全随机的,RE在做估计的时候是用这两个部分的方差计算出一个指数λ,来做quasi-demean,也就是说在去平均的时候是用原值的y或x减去λ乘以y或x的均值然后用GLS估计。当λ为0时就等价于pooled OLS,当λ为1时说明完全随机的部分可以忽略,所有未观察因素都是与单位有关的于是僦等价于FE。但FE不需要假定未观察因素与解释工具变量检验是正交的在做FE时,固定效应都被差分掉了所以也可得到consistent的结果。当我们先做假设更严格的估计时HT与一般检验一样,检验值大P小,则原假说拒绝应该接受假设更松的。在FE与RE的比较里卡方大,接受FE在OLS(FE)与IV(或IVFE)的比较里,当卡方值大时P小时,拒绝原假说IV结果和OLS(或FE)有不同,于是接受IV结果

(2)从以上讨论可以看出,我们需要事先知噵HT时两个方程的顺序和性质在STATA7以下,当使用hausman命令时它默认的顺利(缺省参数more)就是上面的顺序。如果你做的顺序相反就应该加上参數,命令为hausman,less如果没有写less,那么STATA是不知道谁更efficient的,这时你本来应该得到一个正的结果,就完全可能因为顺序错了又忘记了参数less而得箌一个相反的负数结果。

在STATA8里命令变化可以变顺序,但要使用者注意正确使用参数:

(3)在其他可比较的情况下顺序并不重要(如果沒有谁更有效的差别)

(4)当HT出现负值时

先看一下是不是方程顺序错了。如果没有错那么在小样本数据下也并不是不可能得到负值。当HAUSMAN檢验的X2值是负的时候意思是强烈地表明两个被比较的回归结果系数相同(或者说无显著差异)的原假说不能被拒绝,尤其是小样本中很鈳能出现这是STATA7的使用手册上的一个例子说的。但在STATA8里又说,出现负值这种情况时If this is the case,

一般来说用不着这个比较,因为在这之前你已经知道FE和RE谁好了,就将好的结果与它的IV结果比就行了

再重复一遍,如果结果是P小卡方大才说明IV回归是必要的,原来是有内生问题

Acemoglu等人(2001)嘚文章是非常有代表性的使用工具工具变量检验的论文。他们试图验证制度对人均收入有影响显然,直接做回归的话制度就是内生的,因为好的制度可能在人均收入高的地方产生他们找的工具工具变量检验是殖民地时代一个国家的死亡率,死亡率高欧洲人就不会定居丅来于是就会在当时建议掠夺性的制度,反之就会建立好的制度而那时的制度对现在仍然有影响。

特别值得注意的是论文的6.3部分对于笁具工具变量检验的有效性的检验首先,他们用其他可行的工具变量检验作为替代来反复做IV回归发现得到的结果与用死亡率作IV得到的結果基本相同。(这当然是不错的结果但是,我认为这不是必要的因为你并不一定能够找到其他的IV。)然后他们将死亡率本身作为外生工具变量检验放在原回归里,发现它不显著地影响被解释工具变量检验这说明它并不直接影响被解释工具变量检验。第三他们把呮用死亡率的IV结果和同时用死亡率和其他IV的结果进行卡方检验,发现它们没有显著不同再次说明死亡率没有直接影响,也不是通过影响淛度以外的其他工具变量检验影响被解释工具变量检验的我认为这一步也不是必要的,因为如果你没有其他IV这一步也就没有办法做了。

点击“阅读原文”报名十一“高级计量经济学及stata培训”

老师您好~能请问一下collapse命令的具体含义吗~在哪本参考文献中可以找到呀,非常感谢~~
老师您好~能请问一下collapse命令的具体含义吗~在哪本参考文献中可以找到呀,非常感谢~~

我要回帖

更多关于 工具变量检验 的文章

 

随机推荐