在r语言中probit回归中怎么参数估计标准差量的样本标准差用什么函数生成

R语言由新西兰奥克兰大学ross ihaka和robert gentleman 开发。R语言是自由软件,可以放心大胆地使用,且具有非常强大的统计分析和作图功能,而且更重要的是R软件具有非常丰富的网上资源,目前R软件有3000多种贡献包,几乎可以实现所有的统计方法,目前大部分的顶级统计学家和计量经济学家都使用R语言,而且越来越多的数据分析实务人员也开始使用R语言。R语言具有简单易学,功能强大,体积小(仅40m左右),完全免费,可自由开发等特点,且R语言和S语言语法基本相同,绝大部分程序是互相兼容的。学习R软件正成为一种趋势。
R软件最优美的地方是,它能够修改很多前人编写的包的代码,做各种你所需的事情,实际你是站在巨人的肩膀上。
——Google首席经济学家Hal Varian
R语言初高级特训7月@北京 课程安排 时间:
初级:-11日(三天)
高级:-15日(三天)地点:北京市海淀区首都体育学院安排:上午9:00-12:00下午1:30-4:30答疑4:30-5:00费用:初级:2700元 / 2200元 (凭全日制学生证优惠价)高级:3000元 / 2400元 (凭全日制学生证优惠价)全程:5400元 / 4400元 (凭全日制学生证优惠价)(食宿自理)
讲师介绍 Gino老师早年获得名校数学与计算机专业学士和统计学专业硕士,近20年来一直进行着数据分析的理论和实践,数学、统计和计算机功底强悍。为人低调谦和,讲课富于激情和感染力。
他在高校担任过数学、计算机和统计学老师,也曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作,在实践中攻克统计建模和数据分析难题无数,数据处理与分析科学精准,在实际应用中取得良好的预期效果。
Gino老师自2006年起,开始使用R语言作为常用分析利器取代其它,用R语言解决和积累了学术和企业的很多数据分析案例,在R语言的使用上具有丰富的实战经验。
他从事R语言数据分析培训师多年,探索出一套以实例讲解带动理论理解和软件操作熟悉的方法,使学生能迅速理解统计思想并使用软件独立开展数据分析。
他至今培训了来自高校、研究所、国外和各行各业的上千名学员,每一次培训都好评如潮。来自学术和业界的学员均在培训中受益颇多。培训后使用R语言发表文章或者从事教学变得容易;培训过的学生应聘数据分析工作成功概率大,数据分析职位面试容易通过,有些学生进入百度、腾讯、携程、湘财证券等知名企事业单位从事数据分析工作。
他是经管之家(原人大经济论坛)特邀的数据分析名师,为论坛培养了多名数据分析培训师。 课程大纲 基础部分(3天):
R语言基础和数据可视化1.数据类型(数值型、逻辑型、缺失、字符串等)2.数据结构(向量、矩阵、数据框、列表、因子、日期、时间序列等)3.数据的读入和输出(文本文件、Excel、大数据文件等输入)4.作图函数(plot、points、lines、curve、box等)5.图形增强函数(colors、image、text、legend、loess等)6.高级作图方法(lattice和ggplot2包的强大作图)7.定性变量、离散变量、连续变量、多远变量的直方图、柱状图、散点图等各种图形可视化8.对向量、矩阵和列表进行运算(含seq、rep、逻辑和关系运算)9.提取和插入元素、基于数据框的整理10.对日期和时间的操作处理11.条件语句和循环语句12.编写函数解决复杂问题第2章 数据的获取和整理1.R和SQL数据库的交互2.日期和时间数据的处理(POSIX、日期与字符串的相互转换等)3.因子变量的操作4.索引数据整理方法5.NA与NULL使用技巧6.字符串操作(含正则表达式、拆分字符串、替换和标记等字符串函数实现)7.数据子集的筛选(subset、which和随机抽样)8.识别重复的标识和缺失值处理9.用强大的apply函数族、aggregate函数、cut函数和plyr函数合并汇总数据10.变量的重新编码11.用强大的reshape2等包整理数据第3章 数据分析的数学、统计和计算机基础1.R的矩阵运算(积、迹、特征值、特征向量)2.交叉表或列联表(联合分布、边际分布、条件分布)3.关联度的测量(卡方统计量、相关分析)4.理解随机变量和概率分布(各种离散连续分布、密度函数、分布函数、分位数)5.统计推断(含点估计和极大似然估计)6.抽样技术(含置换检验、bootstrap重抽样、样本含量的估计)7.置信区间(均值、比例p、方差、中位数的置信区间)8.参数检验、独立性检验(列联表卡方检验、Fisher精确检验)9.功效检验和非参数检验(分布、拟合优度、位置、秩和、尺度、一致性检验等)10.重复测量的方差分析和协方差分析11.向量化编程与重要算法R语言实现12.控制语句、返回、递归、排序和置换函数13.管理运筹学精要(含线性规划、目标规划、非线性规划等最优化方法)14.实际综合案例编程分析高级部分(3天):
第1章 线性和分类的方法1.回归树、决策树和随机森林2.线性模型的t检验等重要检验3.虚拟变量方法4.多重共线性问题(岭回归方法)5.变量筛选问题6.残差分析和杠杆点、强影响点分析(含异方差、序列相关等)7.分层线性回归(含多水平模型)8.Lasso回归9.偏最小二乘(PLS)10.两阶段最小二乘法和Heckman选择模型11.生存分析和cox回归模型12.对数线性模型13.Logistic回归(含二分类、多项分类、有序分类、计数模型、受限因变量模型)14.广义加性模型15.现代数据挖掘和经典统计的比较第2章 多元统计分析和随机模拟1.主成分分析和因子分析2.判别分析和聚类分析(含k-means聚类、分层聚类、PAM)3.典型相关分析和对应分析4.多元方差分析(MANOVA)模型5.多维标度(CMDS)分析6.联合分析7.Poisson过程和Markov链的模拟8.多元随机数的产生和统计模拟(二项分布模拟、正态概率模拟)9.Jacknife和Bootstrap方法的模拟计算10.蒙特卡洛模拟问题11.贝叶斯统计分析12.EM算法13.MCMC方法(含马尔科夫链、Gibbs抽样算法等)第3章 时间序列分析和量化投资1.平稳性和单位根检验2.ARMA模型的判断、建模、诊断和预测3.协整与误差修正模型(含Granger因果检验)4.VAR模型和状态空间模型5.金融波动的GARCH类模型、SV类模型和高频波动模型6.分位数回归与VaR极值方法7.量化投资基础(策略和方法)从零基础掌握R语言8月@上海
课程安排 时间:-8日初级;8月10-12日高级 (共六天)
地点:上海市南京东路培训教室
费用:初级:2700元 / 2200元 (凭全日制学生证优惠价)高级:3000元 / 2400元 (凭全日制学生证优惠价)全程:5400元 / 4400元 (凭全日制学生证优惠价)(食宿自理)
上午9:00-12:00
下午1:30-4:30
答疑4:30-5:00
讲师介绍 方老师,厦门大学统计学教授,博士生导师,耶鲁大学博士后。
主要研究:数据挖掘、应用统计。出版了国内第一本R语言中文教程《R语言统计分析软件简明教程》,并于2015年2月出版了《R数据分析:方法与案例详解》,该书在同类书籍中销售名列前茅,并被引入到台湾地区出版。
有10多年的R语言使用经验和实际的数据分析经验。曾先后在Journal of Multivariate Analysis等权威期刊发表论文60多篇。先后主持了多个国家自科、国家社科基金等项目。承担了多个企业数据挖掘项目,有丰富的实战经验。在全国开设了多个公开课,讲课生动活泼、深入浅出、以实际案例引出统计方法,再通过编程讲解实际操作和结果分析,深受学生喜欢。 课程大纲 【初级班】
第1讲(3小时)R语言入门与基本数据分析课程目标:掌握R语言的基本用法和基本数据分析1.R语言介绍2.编辑软件Rstudio使用3.R程序包的载入与使用4.数据对象及运算(向量、矩阵、数组、列表与数据框处理)第2讲
(3小时)数据读入、读出与R基本编程课程目标:掌握用R编写函数和对实际数据描述统计分析1. R数据读入与读出 (读入txt、xls、SPSS、SAS、stata以及数据库文件)2.R 函数编写3.R的条件与循环函数4.高效编程技巧介绍5.利用R做迭代优化求解第3讲(3小时)数据预处理与统计模拟1.数据预处理2.缺失值处理3.随机数生成4.常用统计方法的蒙特卡洛模拟5.随机抽样案例:蒙特卡罗模拟的应用第4讲(3小时)探索性分析与作图1.单变量数据分析与作图2.双变量数据分析与作图(列联表)3.多变量数据分析与作图(多变量相关系数矩阵
)案例分析:(1)统计作图在调查数据中的应用(2)统计作图在临床医学中的应用第5讲(3小时)线性回归课程目标:掌握线性回归方法与实际的建模分析1.一元线性回归2.多元线性回归3.逐步回归案例分析:中国税收收入增长案例分析第6讲 (3小时)Logistic回归课程目标:掌握logit模型、probit模型和决策树方法以及在信用卡违约预测的应用1.LPM模型2.Probit模型3.Logit模型案例分析:(1)新教学方法的效果(2)信用卡违约预测【高级班】
(3小时)Poisson回归,分位数回归课程目标:掌握poisson回归模型以及分位数回归在收入分配中的应用1.Poisson回归模型2.分位数回归模型案例:(1)轮船事故的计数数据模型(2)医疗需求的poisson回归模型(3)恩格尔定律的分位数回归(4)社会保障对家庭消费影响第2讲(3小时)聚类分析,分类分析课程目标:掌握数据挖掘中常用的聚类和分类方法及其实际应用。1.系统聚类分析2.K-means聚类分析3.决策树分析4.随机森林分析案例:(1)信用卡违约预测(2)银行贷款违约预测第3讲(3小时)主成分分析,因子分析课程目标:掌握数据挖掘中常用的主成分分析与因子分析及其实际应用。1.主成分分析2.因子分析案例:主成分在综合评价中的应用第4讲(3小时)变量选择与高维数据课程目标:掌握数据挖掘中高维数据分析方法及其实际应用。1.LASSO2.SCAD3.MCP4.Group
LASSO案例:(1)基因筛选(2)股票选股第5讲(3小时)关联规则,高级作图方法课程目标:掌握大数据分析中常用的关联规则方法及其实际中的应用。1.关联规则方法2.Aprior算法3.高级作图方法 ggplot2案例:超市购物篮分析第6讲(3小时)社交网络分析,互动交流讨论课程目标:掌握大数据分析中常用的社交网络分析方法及其实际中的应用。1.无向社交网络的构建2.加权社网络的构建3.社交网络的图像展示案例:股票市场社交网络分析 课程优惠
参加现场班赠送同等级视频;
现场班老学员9折优惠;
同一单位3人以上同时报名9折优惠;
同一单位6人以上同时报名8折优惠;
折扣优惠不叠加。
报名流程 1.点击阅读原文中的“我要报名”,网上填写信息提交,注明报全程还是阶段;
2.给予反馈,确认报名信息;3.网上订单缴费;4.开课前一周发送课程电子版讲义,软件准备及交通住宿指南。 联系方式 魏老师
Q Q:Mail:vip@pinggu.orgTel:010-
本文来自微信公众账号提交,由微讯啦收录,转载请注明出处。
微信扫码 分享文章2545人阅读
R语言(54)
计量经济学(15)
文章出处:
3、Cross Sectional Regression
3.1 最小二乘法
& & 有三种方式可以实现最小二乘法的简单线性回归,假设数据byu
(1)lm(byu$salary ~ byu$age + byu$exper)
(2)lm (salary ~ age + exper, data= byu)
(3)attach(byu)
& & lm(salary~age+exper)
& & lm()只能得出回归系数,要想得到更为详尽的回归信息,应该将结果作为数据保存或者使用“拟合模型”(fitted model)
result&-lm(salary~age+ exper + age*exper, data=byu)
summary(result)
myresid&-result$resid #获得残差
vcov(result) #针对于拟合后的模型计算方差-协方差矩阵
& & 回归中允许使用诸如log()和sqrt()等相对复杂的项目作为自变量,但如果设计幂,就必须先计算,然后才能回归;或者使用I(),它可以在对公式估值前强制完成计算
salary$agesq &- (salary$age)^2
result &- lm(salary ~ age + agesq + log(exper) + age*log(exper),data=byu)
result &- lm(salary ~ age + I(age^2) + log(exper) + age*log(exper),data=byu)
& & 如果我们要进行无常数项,一般在回归中引入0
result &- lm(smokes ~ 0 + male + female ,data=smokerdata)
3.2 从回归中提取统计量
& & 一些统计量和参数都被存储在lm或者summary中
output &- summary (result)
SSR&- deviance(result)#残差平方和;(另一种方法:RSquared &- output$r.squared)
LL&- logLik(result) #对数似然统计量
DegreesOfFreedom&- result$df #自由度
Yhat&- result$fitted.values #拟合值向量
Resid&- result$residuals
s&- output$sigma #误差标准差的估计值(假设同方差)
CovMatrix &- s^2*output$cov #系数的方差-协方差矩阵(与vcov()同)
3.3 异方差及相关问题
3.3.1 异方差的Breusch-Pagan检验
& & 为了检验异方差是否存在,我们可以用lmtest包中的Breusch-Pagan检验。或者利用car包中的ncv.test()函数。二者工作的原理都是相同的。在回归之后,我们可以对拟合的模型采用bptest()函数
unrestricted&- lm(z~x)
bptest(unrestricted)
这将得到检验的“学生化的”(studentized)结果。如果为了保持与其他软件结论的一致性(包括ncv.test()),我们可以设置studentize=FALSE
3.3.2 异方差(自相关)稳健性协方差矩阵
&&在存在异方差的情况下,ols的估计是无偏的,但是所得到的关于β系数方差的估计则是不正确的。为了计算异方差一致性的协方差矩阵,我们可以利用car包中的hccm()函数,而不是vcov()。
sandwich包中的vcovHC()命令可以实现同样的功能。同时利用vcovHAC()或者NeweyWest()函数可以进行异方差和自相关稳健性Newey—West估计。
####################
还有一章节,special regression,这个可能是计量中用的比较多的回归,比如logit,probit,还有tobit回归模型,以及M估计,稳健方法等等。
另外关于一般的lm方法由于用到的是ols或者称为lse方法,所以不存在log likelihood的说法,所以求出来的Loglik值可能没有意义的说。
另外用splus算过probit和logit回归,然后使用loglik函数得到的值竟然是错误的,手动演算一下跟书上一样,参考武德里奇的《计量》一书中离散选择模型第一五章的第一个例子。
####################
3.4 线性假设检验(Wald和F)
&&car包中提供了一个函数可以自动的进行线性假设检验。根据我们对模型的设定,它既可以用一般的方法或调整后的协方差矩阵进行F或Wald检验。为了进行假设检验,我们必须构造一个假设矩阵和一个右手边的向量。例如,如果我们有一个包括常数项的五个参数的模型,并且我们的零假设如下(见原文)
则假设的矩阵和右手边的向量将为如下的形式(见原文)
& & 我们可以用如下的命令加以实现
unrestricted&-lm(y~x1+x2+x3+x4)
rhs&-c(0,1)
hm&-rbind&-(c(1,0,0,0,0),c(0,0,1,1,0))
linear.hypothesis(unrestricted,hm,rhs)
&&注意:如果unrestricted是由lm得到的,默认状态下将会进行F检验。如果是由glm得到的,取而代之的将是Kai方检验。检验的类型可以通过type进行修改。
&&同样,如果我们想利用异方差或自相关稳健标准误进行检验,我们既可以通过设定white.adjust=TRUE来使用white标准误,也可以利用vcov计算我们自己的协方差矩阵。例如,如果我们想使用上述的Newey-West修正协方差矩阵,我们可以进行如下的设定:
linear.hypothesis(unrestricted, hm, rhs, vcov=NeweyWest(unrestricted))
注意:设定white.adjust=TRUE将会通过提高white估计量的精度来修正异方差;如果要使用经典的white估计量,我们可以设定white.adjust=&hc0&
3.5 加权和广义最小二乘法
&&你可以通过使用带有权重的lm()来进行加权最小二乘
result&-lm(smokes~0+male+female, data=smokerdata, weights=myweights)
广义最小二乘法可以通过MASS包中的lm.gls()命令实现。它将包含一个函数、权重矩阵和一个数据框(可选)。
&&glm()命令也为使用其他高级线性回归方法提供了渠道,详见帮助文件。
3.6 带有因子(Factors)或组别(Groups)的模型
&&在R中对于定性的因子有特定的数据类型。如果回归中的变量属于这种情况,必要的虚拟变量将会被自动生成。例如,如果我们要进行个人电脑的使用(pc)对公司雇员数(emple)和每一种状态的虚拟变量(其中state是两个缩写字母的向量),我们可以简单的进行如下的回归
summary(lm(pc~emple+state)
lm(formula = pc ~ emple + state)
Residuals:
Min 1Q Median 3Q Max
-1.5 0.2 0.5904
Coefficients:
Estimate Std. Error t value Pr(&|t|)
(Intercept) 5.572e-01 6.769e-02 8.232 &2e-16 ***
emple 1.459e-04 1.083e-05 13.475 &2e-16 ***
stateAL -4.774e-03 7.382e-02 -0.065 0.948
stateAR 2.249e-02 8.004e-02 0.281 0.779
stateAZ -7.023e-02 7.580e-02 -0.926 0.354
stateDE 1.521e-01 1.107e-01 1.375 0.169
stateFL -4.573e-02 7.136e-02 -0.641 0.522
stateWY 1.200e-01 1.041e-01 1.153 0.249
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4877 on 9948 degrees of freedom
Multiple R-Squared: 0.02451, Adjusted R-squared: 0.01951
F-statistic: 4.902 on 51 and 9948 DF, p-value: & 2.2e-16
& & 为了将数据(序列string型或者数值型)转变成一个因子,可以简单的使用factor()命令。甚至可以在回归中间使用这个命令。例如,如果我们想做同样的回归,但是要区分以数字编码代表的不同区域,我们可以用如下的命令
myout&-lm(pc~emple+factor(naics6))
这一命令将naic6转换成了因子,生成了相应的虚拟变量,进而进行标准的回归。
####################
4. 特殊回归
4.1 固定和随机效应模型
注意:这里所用的“固定”和“随机”的概念与计量经济学家通常使用的概念相同。
& & 经济学中,固定和随机效应是用来解释面板数据(panel data)模型的截距项中的截面(cross sectional)差异的。令i表示截面指标(或表示数据是有组别的),t为时间指标(或为组别差异指标)。一个标准的固定效应模型可以写作(参照原文)
& & 本质上说,每一个个体都有不同的非随时间变化的截距项。通常我们感兴趣的是β,而不是ui。随机效应模型有同样的方程,但是相对固定效应模型而言,它有附加的限制:个体特殊的效应与解释变量x(it)不相关,即E[uiXit] = 0。从计量经济学的角度讲,这只是一个在固定效应模型的基础上,附有更加严格的限制条件的模型(它允许“效应”与外生变量相关)。
4.1.1 固定效应
&&在截面数据的维数不大的情况下,进行固定效应估计的简单方法是在每一个个体中加入一个虚拟变量,即将截面指标视为一个因子。如果指标能够在样本中将个体识别出来,则有
lm(y~factor(index)+x)
&&这个回归可以进行固定效应估计并能够正确的报告β的标准误。但不幸的是,在样本中存在很多个体的情况下,我们不再关心固定效应的值。因此在这种情况下,lm()的结果以及u(i)较大的系数都是非常难于处理的。
&&一个更一般的方法是通过time demeaning(翻译不好,请大家帮助)的方法将每个变量的固定效应剔除(所谓内部within估计量)。则上述方程变为:(参照原文)
多数的统计软件(例如stata的xtreg命令)都使用这种方法处理固定效应模型。使用R,你可以手工对自变量和因变量进行time demean。如果d是一个包含 year, firm, profit和predictor的数据框,同时我们希望time demean每一个公司的profit和predictor,我们可以使用如下的命令:
& for (i in unique(d$firm)){
+ timemean&-mean(d[d$firm==i,])
+ g$profit[d$firm==i]&-d$profit[d$firm==i]-timemean[&profit&]
+ g$predictor[d$firm==i]&-d$predictor[d$firm==i]-timemean[&predictor&]
& output&-lm(profit~predictor,data=g)
要注意的是,回归中所报告的标准误偏低。lm()报告的方差使用的公式为
而真正的固定效应回归中的标准误使用的公式为(参照原文)
对于T较小的样本,二者之间存在较为显著的差异。
& & 另一种并不常用的方法是用一阶差分,公式为(参照原文)
其手工计算方法可以参照上述的within estimator
4.1.2 随机效应模型
& & nlme包包括了在线性或非线性数据框中进行随机效应回归的方法(而不是固定效应,本文只涉及对“固定效应”项的统计解释)。
假设存在如下的以sic3编码为随机效应的线性模型
& & 我们可以用下列命令进行拟合
lme(ldsal~lemp+ldnpt,random=~1|sic3)
一般而言,在随机参数模型中,随机效应被置于竖线之后。波浪线和竖线之间的1表示随机效应是一个截距项。如果随机效应是一个截距项和一个外生变量,我们应当将该变量与1放在一起。例如:
lme(ldsal~lemp+ldnpt,random=~1+lemp|sic3)
对于非线性随机效应模型而言,只是将lme()替换为nlme()就可以了。
#####################
4.2 定性相应模型(Qualitative Response)
4.2.1 Logit/Probit& &&&
& & 有很多种方法可以在R中实现logit和probit回归。最简单的方法是使用glm()命令及相应的选项。
h&-glm(c~y,family=binomial(link=&logit&))
对于probit回归,将logit替换为probit即可。glm()函数的输出结果与lm()的类似,因此可以使用summary()命令加以分析。为了从中提取出对数似然统计量,可以使用logLik()命令
& logLik(h)
‘log Lik.’ -337.2659 (df=1)
4.2.2 多项式Logit (Multinormial Logit)
& & 在nnet包中有一个multinom()函数可以用来进行多项式Logit估计。为了使用这一函数,首先应该将因变量转化成一个因子向量(包括所有情况),并且使用诸如正态回归这样的语法(syntax)。如果我们的因子以虚拟变量的形式被储存,则我们可以利用十进制数字的特征为所有的组合赋予唯一的因子。假如我们的因子变量是pc,inetacc和iapp,那么
& g &- pc*1 + inetacc*10 + iapp*100
& multinom(factor(g)~pc.subsidy+inet.subsidy+iapp.subsidy+emple+msamissing)
这样,我们利用所有因子的组合得到了一个多项式Logit。
& & 多项式Probit模型的一个特征就是常被ill conditioned(如何译?)。一个解决的方法是使用MNP包中的mnp()命令进行马尔可夫链蒙特卡罗模拟。
4.2.3 Ordered Logit/Probit
& & MASS包中有一个polr()函数可以进行ordered logit或probit回归。如果Sat表示一个顺序(ordered)的因子向量,则
& & house.plr &- polr(Sat ~ Infl + Type + Cont, method=&probit&)
4.3 Tobit和阶段(Censored)回归
& & 我们用survival包来估计存在截断数据变量的模型。使用的函数是survreg(),其中将因变量作为一个Surv对象。假设我们要进行y对x和z的回归,但是大量的y数据是左侧截断的,并用0将其替换。
result &- survreg(Surv(y,y&0,type='left') ~ x + z, dist='gaussian')
第二点需要注意的是无论观测值是否是截断的,都可以使用Surv()函数(1表示是可以被观测的;0表示数据是截断的)。第三点需要说明的是,数据在哪一侧被截断。既然本例中数据在分布的低尾(lower tail)处被截断,我们使用left。dist选项对于survreg是必需的,这样才能得到一个经典的Tobit模型。
4.4 分位数回归
& & 最小二乘回归方法可以估测因变量对自变量的条件期望。拟合值即是条件均值的估计。如果我们不想得到条件均值,而想估计预期条件中位数或其他分位数的话,我们可以使用quantreg包中的rq()命令。语法与lm()基本相同,除了我们要使用一个介于0和1之间的分位数tau。默认的情况下,tau=.5,即为中位数,另一个名字是最小绝对偏差回归(least absolute deviation
regression)
4.5 稳健性回归——M估计量
& & 对于一些数据集,奇异值对最小二乘回归线的影响远远超出了我们的预想。一个解决的办法是使用包括残差平方和(对应于最小化L2)在内的一些方法求极小值并以此作为目标方程。通常的选择是使用绝对离差和(L1)和Huber法——一种将L1和L2混合的方法。R使用MASS包中的rlm()进行稳健性回归。语法与lm()相同除了它允许选择最小化作为目标方程。进行这种选择可以使用参数psi。可能的选项包括psi.huber,
psi.hampel, psi.bisquare。
& & 为了进行psi函数的定制,我们写了一个函数,如果deriv=0,函数返回ψ(x)/x;如果deriv=1,返回ψ′(x)/x。This function than then be passed to rlm() using the psi parameter.#不清楚函数内容及语意。
4.6 非线性最小二乘
& & 有些时候,经济中的模型并不是线性的。R可以进行如下形式的广义最小二乘
注意,残差项必须是附加在函数形式上的。如果不是,则必须进行相应的变换以达到这种形式。R中进行非线性最小二乘的函数是nls(),其语法与lm()相同。考虑如下的非线性例子:
nls()用来估计第二个方程的第一个部分。方程的全部内容都需要被指定,包括参数。R要求指定待估参数的初始值。
result &- nls(log(Y)~-log(1+exp(a*X1+b*X2)),start=list(a=1,b=1),data=mydata)
&&a和b的估计值被存放于nls的对象中,称作result。估计结果可以用summary()命令进行浏览。在高版本的R中,nls()命令是基本包中的一部分,而在低版本中,则必须加载nls包。
4.7单一结构方程的两阶段最小二乘
& & 为了实现单一方程的两阶段最小二乘,最简单的方法是使用sem包中的tsls()命令。如果我们想考察在控制了婚姻状况的情况下,教育对工资的影响,但是考虑到educ可能是内生的,则我们可能会使用motheduc和fatheduc作为工具变量进行回归
library(sem)
outputof2sls&-tsls(lwage~educ+married,~married+motheduc+fatheduc)
& & 第一点需要说明的是我们进行估计的是一个结构性方程;第二,波浪线后面需要附加结构性方程中的工具变量和外生变量,这些条件的满足需要下面的2SLS估计量满足
& & 输出结果可以用summary()函数和其他ols函数进行分析。注意,既然这个命令输出的是两阶段最小二乘的对象,包括标准误在内的描述性统计量都是正确的。如果我们用实际的两阶段方法进行估计,则输出的标准误是存伪的。
4.8 方程组
&&用于处理方程组(包括工具变量、两阶段最小二乘、似不相关回归[seemingly unrelated regression]
和变量)的命令包含在systemfit包中。注意,在R中,一个方程(包括标题)就恰恰是一种数据类型。因此,我们可以通过通常的赋值运算来构造方程模型列表以及相应的标签列表。
& demand &- q ~ p + d
& supply &- q ~ p + f + a
& system &- list(demand,supply)
& labels &- list(&demand&,&supply&)
4.8.1 似无关回归
一旦我们建立了系统和标签,我们就可以使用systemfit()函数结合SUR选项来识别似无关回归。
& resultsur &- systemfit(&SUR&,system,labels)
4.8.2 方程组的两阶段最小二乘
可以使用工具变量来对上述的方程组进行两阶段最小二乘。我们创建一个模型对象(不包含左侧)来表示我们要使用的工具变量和2SLS选项
& inst &- ~ d + f + a
& result2sls &- systemfit(&2SLS&,system,labels,inst)
与之相类似,我们还会遇到三阶段最小二乘、加权两阶段最小二乘和相应的其他模型。
####################
about fixed- and random-effect model, can refer to plm package.
about multinomial logit model, can refer to mlogit package.
about tobit model, refer to sampleSelection package.
####################
颇值得一提的是,回归中最紧要看residuals plot,
example(plot.lm)
####################
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:299747次
积分:3510
积分:3510
排名:第7292名
原创:53篇
评论:146条
(3)(4)(5)(1)(2)(2)(4)(4)(1)(6)(2)(2)(3)(2)(5)(4)(7)

我要回帖

更多关于 r语言 总体标准差 的文章

 

随机推荐