非线性回归模型r语言后的r^2有什么意义

当前位置: >>
线性回归方程中的相关系数r
线性回归方程中的相关系数 rr=∑(Xi-X 的平均数)(Yi-Y 平均数)/根号下[∑(Xi-X 平均数)^2*∑(Yi-Y 平均数)^2] R2 就是相关系数的平方, R 在一元线性方程就直接是因变量自变量的相关系数,多元则是复相关系数 判定系数 R^2 也叫拟合优度、可决系数。表达式是: R^2=ESS/TSS=1-RSS/TSS 该统
计量越接近于 1,模型的拟合优度越高。 问题:在应用过程中发现,如果在模型中增加一个解释变量, R2 往往增大 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 ――但是,现实情况往往是,由增加解释变量个数引起的 R2 的增大与拟合好坏无关,R2 需 调整。 这就有了调整的拟合优度: R1^2=1-(RSS/(n-k-1))/(TSS/(n-1)) 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差 平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: 其中:n-k-1 为残差平方和的自由度,n-1 为总体平方和的自由度。 总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。 R = R 接近于 1 表明 Y 与 X1, X2 ,…,Xk 之间的线性关系程度密切; R 接近于 0 表明 Y 与 X1, X2 ,…,Xk 之间的线性关系程度不密切相关系数就是线性相关度的大小,1 为(100%)绝对正相关,0 为 0%,-1 为(100%)绝 对负相关 相关系数绝对值越靠近 1,线性相关性质越好,根据数据描点画出来的函数-自变量图线越 趋近于一条平直线,拟合的直线与描点所得图线也更相近。 如果其绝对值越靠近 0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相 差越远(当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据 点在同一坐标纸上画出来, 可以发现大部分的点偏离这条直线很远, 所以用这个直线来拟合 是会出现很大误差的或者说是根本错误的)。 分为一元线性回归和多元线性回归 线性回归方程中,回归系数的含义 一元: Y^=bX+a 多元: Y^=b1X1+b2X2+b3X3+a 在其他变量不变的情况下,某变量变动 1 单位,引起 y 平均变动 量 以 b2 为例:b2 表示在 X1、X3(在其他变量不变的情况下)不变得情况下,X2 每变动 1 单位,y 平均变动 b2 单位 b 表示 X 每变动(增加或减少)1 个单位,Y 平均变动(增加或减少)b 各单位 就一个 reg 来说 y=a+bx+e a+bx 的误差称为 explained sum of square e 的误差是不能解释的是 residual sum of square 总误差就是 TSS 所以 TSS=RSS+ESS判定系数也叫拟合优度、可决系数。表达式是该统计量越接近于 1,模型的拟合优度越高。 问题:在应用过程中发现,如果在模型中增加一个解释变量, R2 往往增大 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 ――但是,现实情况往往是,由增加解释变量个数引起的 R2 的增大与拟合好坏无关,R2 需调整。 这就有了调整的拟合优度在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将 残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其 中:n-k-1 为残差平方和的自由度,n-1 为总体平方和的自由度。 总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。 顺便补充一下: 一般做回归的时候要求拟合优度(实际值与拟合值相关系数的平方)越高越好,可以通过增 加解释变量来实现, 可是解释变量多了后很多解释变量的系数 T 检验不显著了, 而且增加很 多变量后模型的自由度就减少了, 这些情况狂的存在往往使得模型预测不精确; 修正拟合优 度就是将残差平方和跟总离差平方和分别除以各自的自由度, 这样就剔除了变量个数对其影 响了。 首先有一个恒等式:TSS = ESS + RSS 即总偏差平方和 = 回归平方和 + 残差平方和 通常情况,我们都是讨论解释变量对总效应的贡献,使用一个叫“拟合优度”(或者叫“判定系 数”)的指标 其定义为: 回归平方和 / 总偏差平方和 =ESS/TSS = (TSS-RSS)/TSS =(923-325)/923 如果说随机误差对总效应的贡献,那可以直接 RSS/TSS 因为 1 - (TSS-RSS)/TSS 就可以化为 RSS / TSS SPSS 中 pearson(皮尔逊相关系数)看 r 值还是 P 值,确定相关性两个值都要看,r 值表示在样本中变量间的相关系数,表示相关性的大小;p 值是检验值, 是检验两变量在样本来自的总体中是否存在和样本一样的相关性。SPSS 回归系数 SIG在 SPSS 软件统计结果中, 不管是回归分析还是其它分析, 都会看到“SIG”, SIG=significance, 意为“显著性”,后面的值就是统计出的 P 值,如果 P 值 0.01&P&0.05,则为差异显著,如果 P&0.01,则差异极显著sig 是指的的显著性水平,就是 p 值,一般来说接近 0.00 越好,过大的话只能 说不显著,sig 是 F 检验的结果,&0.01 代表方程通过检验,进行回归分析是有效的F 表示数据的方差,sig 表示显著性,也就是对 F 检验的结果,如果 sig&0.05 则说明模型受 误差因素干扰太大不能接受。 是复相关系数, R 表示观测值和模型描述值之间的线性相关系 数,越大越好。R 方通俗的说就是解释率,就是说你的自变量能够解释多少因变量的变化。 具体到你这个就是模型不能接受,自变量解释了 22.1%,剩下的只能用误差解释。spss 软件的线性回归分析中,输出了一个 anova 表,表中的回归、残差、平方 和、df、均方、F、sig 分别代表什么回归是方法 残差是实测与预计值的差值 平方和有很多个,不同的平方和的意思不一样 df 是自由度 均方是方差除以自由度 f 是 f 分布的统计量 sig 是 p 值 anova 表中的“回归平方和”表示反应变量的变异中的回归模式中所包含的自变量所能解释的 部分。“残差平方和”代表反应变量的变异中没有被回归模型所包含的变量解释的部分。这两 个值与样本量及模型中自变量的个数有关,样本量越大,相应变异就越大。df 是自由度, 是自由取值的变量个数,F 为 F 检验统计量,用于检验该回归方程是否有意义,当 Sig 对应 的值小于 0.05(当显著性水平为 0.05 时)时,说明所建立的回归方程具有统计学意义,即 自变量和因变量之间存在线性关系。多元线性回归分析中,t 检验与 F 检验有何不同t 检验常能用作检验回归方程中各个参数的显著性,而 f 检验则能用作检验整个回归关系的 显著性。 各解释变量联合起来对被解释变量有显著的线性关系, 并不意味着每一个解释变量 分别对被解释变量有显著的线性关系 F 检验主要是检验因变量同多个自变量的整体线性关系是否显著,在 k 个自变量中,只要有 一个自变量同因变量的线性关系显著,t 检验则是对每个回归系数分别进行单独的检验,以 判断每个自变量对因变量的影响是否显著。 计算结果肺活量例子 对数据标准化, 即将原始数据减去相应变量的均数后再除以该变量的标准差,计 算得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数。标准化回归系数(Beta 值)在多元回归中被用来比较变量间的重要性 B 是指回归系数, beta 是指标准回归系数, beta=B/S(B),beta 是用来比较各个系数之间的绝对 作用或者贡献的大小,B 值是不能判断的绝对贡献的。 t 值是对该回归系数 B 做假设检验的结果,P 值小于 0.05 才可以认为有意义,但是具体问题 要具体分析,有的时候要考虑交互作用等常数项为负 p 值 0.04,拒绝常数项为 0 的假设,统计显著,没问题beta coefficient 就是标准回归系数,它是首先把各个自变量进行 Z 转换(数据值-数据平均值 然后除以标准差)之后再进行回归,此时得出的回归系数称为标准化回归系数。Z 转换可以 把各个自变量的数级、 量纲统一标准化, 也就可以根据标准化回归系数的大小比较出各个自 变量在回归方程中的效应大小。 标准回归系数 standardizedregressioncoefficient 或 standardregressioncoefficient 消除了因变量 y 和自变量 x1,x2,?xn 所取单位的影响之后的回归系数,其绝对值的 大小直接反映了 xi 对 y 的影响程度 计算方法 对数据标准化, 即将原始数据减去相应变量的均数后再除以该变量的标准差, 计算得到 的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数。 公式 若假定回归方程的形式如下: Y=b0+b1X1+b2X2+…+bjXj+…+bJXJ(Y 是估计值) 其中,回归参数 b0,b1,…,bJ 通过最小二乘法求得。 则标准化回归系数 bj'=bj*(Xj 的标准差/Y 的标准差) 理解方法 标准化回归系数(Beta 值)在多元回归中被用来比较变量间的重要性。但是由于重要 性这一词意义的含糊性,这一统计常被误用。 有时人们说重要性,是指同样的条件下,哪一个东西更有效。在提高教学质量上,是硬 件条重要还是师资更重要?如果是师资更重要, 那么同样的物力投在师资上就可以更快地提 高教学质量。但是这里要比较的两者必须有同样的测量单位,如成本(元)。如果变量的单 位不同, 我们不能绝对地说那个变量更重要。 不同单位的两个东西是不能绝对地比出高低轻 重来。要想进行绝对地比较,就需要两个东西有着共同的测度单位,否则无法比较。 而标准化回归系数说的重要性则与上面的意义不同, 这是一种相对的重要性, 与某一特 定的情况下,自变量间的离散程度有关。比如说,虽然我们不能绝对地说出教育和年资在决 定收入上那一个一定是重要的, 但如果现在大家的教育程度比较相似, 那么在收入的决定上, 工作年数就是决定因素;反之,如果工作年数没有太大区别,那么教育就成为了重要原因。 这里的重要性是相对的,是根据不同情况而改变的。再举一个通俗的例子,研究者研究的是 遗传因素和后天因素对于人成长的影响。 那么在一个社会境遇悬殊巨大的环境中, 有人在贫 民窟成长, 有人在贵族学校上学, 那么我们会发现人格的大部分差异会从后天环境因素得到 解释,而遗传的作用就相对较小;相反,如果儿童都是在一个相差不大的环境中长大的,你 会发现,遗传会解释大部分的人格差异。这种意义上的重要性,不仅与这一自变量的回归系 数有关系,而且还与这个自变量的波动程度有关系:如果其波动程度较大,那么就会显得较 为重要;否则,就显得不太重要。标准化回归系数正是测量这种重要性的。从标准化回归系 数的公式中也可看出,Beta 值是与自变量的标准差与成正比的,自变量波动程度的增加, 会使它在这一具体情况下的重要性增加。 但是如果将两种重要性混同,就会得到误导性结论。如环境因素的 Beta 值比遗传因素 的 Beta 值大,就认为在个体的人格发展上应更注意环境因素,而轻视遗传因素,在目前对 于 Beta 值的错误观念非常流行,甚至是一些高手中。 标准化回归系数的比较结果只是适用于某一特定环境的, 而不是绝对正确的, 它可能因 时因地而变化。举例来说,从某一次数据中得出,在影响人格形成的因素中,环境因素的 Beta 值比遗传因素的 Beta 值大,这只能说明数据采集当时当地的情况,而不能加以任何不 恰当的推论,不能绝对地不加任何限定地说,环境因素的影响就是比遗传因素大。事实上, 如果未来环境因素的波动程度变小, 很可能遗传因素就显得更为重要。 数据的情况千差万别, 变量的相对重要性也可能完全不同但都符合当时的实际情况。F 是组方差值, sig 是差异性显著的检验值,该值一般与 0.05 或 0.01 比较,若小于 0.05 或者 0.01 则表示 差异显著 df 是自由度 一般的 sig 没有特别注明的都是指双侧检验,如果特别注明有单侧,那就是单侧的 所谓双侧的意思是有可能在大于,有可能小于的, 而单侧的意思是只有一边或者大于,或者小于的 关于求法还是看相关统计学教材吧里面讲起来比较复杂你的分析结果有 T 值,有 sig 值,说明你是在进行平均值的比较。也就是你在比较两组数据 之间的平均值有没有差异。 从具有 t 值来看,你是在进行 T 检验。T 检验是平均值的比较方法。 T 检验分为三种方法: 1. 单一样本 t 检验(One-sample t test),是用来比较一组数据的平均值和一个数值有无差 异。例如,你选取了 5 个人,测定了他们的身高,要看这五个人的身高平均值是否高于、 低于还是等于 1.70m,就需要用这个检验方法。 2. 配对样本 t 检验(paired-samples t test),是用来看一组样本在处理前后的平均值有无 差异。比如,你选取了 5 个人,分别在饭前和饭后测量了他们的体重,想检测吃饭对他们 的体重有无影响,就需要用这个 t 检验。 注意, 配对样本 t 检验要求严格配对, 也就是说, 每一个人的饭前体重和饭后体重构成一对。 3. 独立样本 t 检验(independent t test),是用来看两组数据的平均值有无差异。比如, 你选取了 5 男 5 女,想看男女之间身高有无差异,这样,男的一组,女的一组,这两个组 之间的身高平均值的大小比较可用这种方法。 总之,选取哪种 t 检验方法是由你的数据特点和你的结果要求来决定的。 t 检验会计算出一个统计量来,这个统计量就是 t 值, spss 根据这个 t 值来计算 sig 值。因此,你可以认为 t 值是一个中间过程产生的数据,不必 理他,你只需要看 sig 值就可以了。sig 值是一个最终值,也是 t 检验的最重要的值。 sig 值的意思就是显著性(significance),它的意思是说,平均值是在百分之几的几率上相 等的。 一般将这个 sig 值与 0.05 相比较,如果它大于 0.05,说明平均值在大于 5%的几率上是相 等的,而在小于 95%的几率上不相等。我们认为平均值相等的几率还是比较大的,说明差 异是不显著的,从而认为两组数据之间平均值是相等的。 如果它小于 0.05,说明平均值在小于 5%的几率上是相等的,而在大于 95%的几率上不相 等。我们认为平均值相等的几率还是比较小的,说明差异是显著的,从而认为两组数据之间 平均值是不相等的。 总之,只需要注意 sig 值就可以了。 T 值表示的是 t 值检验 sig 是检验值一般不用看 T 值,只看 sig 的值是否小于 0.05.如果是, 说明通过检验了,说明两者在总体中存在相关关系。 如果你是做论文用下这样的统计,只需了解这些就可以了。 T 值是 t 检验得出来的检验结果,t 检验是一种差异性的检验,用于二组正态分布的数值形 变量的检验,是一种差异性检验,检验二组是否存在差别。其值越大,差异越显著。 SIG 是统计中用的 P 值,是根据 T 值的大小查表得出来的数值,他一般与 0.05 进行比较, 小于 0.05 认为二组的差别显著,大于 0.05 则差别不显著。R 表示的是拟合优度,它是用来衡量估计的模型对观测值的拟合程度。它的值越接近 1 说 明模型越好。但是,你的 R 值太小了。 T 的数值表示的是对回归参数的显著性检验值,它的绝对值大于等于 ta/2(n-k)(这个值表示 的是根据你的置信水平,自由度得出的数值)时,就拒绝原假设,即认为在其他解释变量不 变的情况下,解释变量 X 对被解释变量 Y 的影响是显著的。 F 的值是回归方程的显著性检验, 表示的是模型中被解释变量与所有解释变量之间的线性关 系在总体上是否显著做出推断。若 F&Fa(k-1,n-k),则拒绝原假设,即认为列入模型的各个解 释变量联合起来对被解释变量有显著影响,反之,则无显著影响。 单尾双尾检测 通常假设检验的目的是两总体参数是否相等,以两样本均数比较为例, 无效假设为两样本所代表的总体均数相等; 备择假设为不相等(有可能甲大于乙,也有可能甲小于乙)既两种情况都有可能发生. 而研究者做这样的假设说明 (1) 他没有充分的理由判断甲所代表的总体均数会大于乙 的或甲的会小于乙的; (2)他只关心甲乙两个样本各自所代表的总体均数是否相等?至于 哪个大不是他关心的问题.这时研究者往往会采用双侧检验. 如果研究者从专业知识的角度判断甲所代表的总体均数不可能大于(或小于)乙的,这 时一般就采用单侧检验. 例如: 要比较经常参加体育锻炼的中学男生心率是否低于一般中学男生的心率, 就属于 单侧检验. 因为根据医学知识知道经常锻炼的中学男生心率不会高于一般中学男生, 因此在 进行假设检验时应使用单侧检验. 单尾检验和双尾检验的区别在于他们拒绝 H0 的标准。 单尾检验允许你在差异相对较小时拒 绝 H0,这个差异被规定了方向。另一方面,双尾检验需要相对较大的差异,这个差异不依 赖于方向。 所有的研究者都同意单尾检验与双尾检验不同。一些研究者认为,双尾检验更为严格, 比单尾检验更令人信服。因为双尾检验要求更多的证据来拒绝 H0,因此提供了更强的证据 说明处理存在效应。另一些研究者倾向于使用单尾检验,因为它更为敏感,即在单尾检验中 相对较小的处理效应也可能是显著的,但是,它可能不能达到双尾检验的显著性要求。 那么我们是应该使用单尾检验还是双尾检验??通常,双尾检验被用于没有强烈方向性 期望的实验研究中,或是存在两个可竞争的预测时。例如,当一种理论预测分数增加,而另 一种理论预测分数减少时, 应当使用双尾检验。 应当使用单尾检验的情况包括在进行实验前 已经有方向性预测,或强烈需要做出方向性预测时。Ho假设检验(Hypothesis Testing)假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法 其基本原理是先对总体的特征作出某种假设, 。 然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。 生物现象的个体差异是客观存在,以致抽样误差不可避免,所以我们不能仅凭个别样本的值 来下结论。当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有 小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同 一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不 同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。假设检验的目的 就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。 在质量管理工作中经常遇到两者进行比较的情况,如采购原材料的验证,我们抽样所得到的数据 在目标值两边波动,有时波动很大,这时你如何进行判定这些原料是否达到了我们规定的要求呢? 再例如,你先后做了两批实验,得到两组数据,你想知道在这两试实验中合格率有无显著变化, 那怎么做呢?这时你可以使用假设检验这种统计方法,来比较你的数据,它可以告诉你两者是否 相等,同时也可以告诉你,在你做出这样的结论时,你所承担的风险。假设检验的思想是,先假 设两者相等,即:μ=μ0,然后用统计的方法来计算验证你的假设是否正确。 1.小概率原理 如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件 A(小概率事件) 在一次试验中几乎不可能发生的;要是在一次试验中 A 竟然发生了,就有理由怀疑该假设的真 实性,拒绝这一假设。 2.假设的形式 H0――原假设,H1――备择假设双尾检验:H0:μ = μ0,单尾检验:,H1:μ & μ0,H1:μ & μ0 假设检验就是根据样本观察结果对原假设(H0)进行检验,接受 H0,就否定 H1;拒绝 H0,就接受 H1。 检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝 H0;反之, 差异不显著,接受 H0。克朗巴哈系数(Cronbach's α )是一个统计量,是指量表所有可能的项目划分 方法的得到的折半信度系数的平均值,是最常用的信度测量方法。它最先被美国 教育学家 Lee Cronbach 在 1951 年命名。 计算公式:其中 K 为样本数,σ 2X 为总样本的方差,σ 2Yi 为目前观测样本的方差。 通常 Cronbachα 系数的值在 0 和 1 之间。如果 X 系数不超过 0.6,一般认为内 部一致信度不足; 达到 0.7-0.8 时表示量表具有相当的信度,达 0.8-0.9 时说明 量表信度非常好。Cronbachα 系数的一个重要特性是它们值会随着量表项目的 增加而增加,因此,Cronbach α 系数可能由于量表中包含多余的测量项目而被 人为地、不适当地提高。还有一种可以和 Cronbachα 系数同时使用的系数。系 数能够帮助评价,在计算 Cronbachα 系数的过程中,平均数的计算是否掩盖了 某些不相关的测量项目。 不同的研究者对信度系数的界限值有不同的看法,有学 者认为,在基础研究中 Cronbachα 系数至少应达到 0.8 才能接受,在探索研究 中 Cronbach α 系数至少应达到 0.7 才能接受,而在实务研究中,Cronbach α 系数只需达到 0.6 即可。 Cronbachα 系数的实施技巧 要做信度分析需先检查每个问项是否都是同方向的(即都是正面问法,也就是题 间的相关系数都是正的),如有一题与其它题相关系数都是负的,应考虑将此题 先“变号”或“删除”后再进行计算 α 系数。如有受测者乱答,可将它的数据 删除后再算 α 值。 对问卷调查当有题目与其它题目是负相关时须注意是否反向问法。如是,则应先 将得分反向,再计算 α 信度或是删除该题。若为测验,则不能做反向处理,只 能做删除题目。 标准化 Cronbachα 系数的定义 若一份量表有 n 题,题间的平均相关系数为 r,则此量表的标准化 α 系数为 α =nr/[(n-1)r+1]哪些语言是线性语言,r语言线性回归,c语言线性表,c语言线性表代码,c语言解线性方程组,r语言线性拟合,r语言线性规划,r语言 混合线性模型,r语言多元线性回归,r语言非线性回归,c语言线性链表,线性插值c语言程序,r语言多重共线性,c语言建立线性表,线性语言,r语言非线性拟合_知加友
龙源期刊网 http:.cn 汉语言艺术的线性连续和非线性断续 作者:王珍 来源:《文教资料》2014 年第 15 期 摘要: 在汉语古典语言中,古典散文.........
用r语言进行简单线性回归分析_数学_自然科学_专业资料 暂无评价|0人阅读|0次下载|举报文档用r语言进行简单线性回归分析_数学_自然科学_专业资料。fire : (.........
线性拟合c语言算法_计算机软件及应用_it计算机_专业资料。线性拟合的c语言算最小二乘法拟合一条直线(c 语言代码) #include #define n 10 n 为.........
c语言线性表源代码_计算机软件及应用_it计算机_专业资料。c语言线性表(顺序表和单链表) c 语言线性表-书序表 #include
#.........
线性表的基本操作c语言实现_理学_高等教育_教育专区。* 输入修改......
c语言版的线性回归分析函数_计算机软件及应用_it计算机_专业资料。c 语言版的...看来目前也没什么用了,想打个包刻在光碟上, 却发现有些代码现在可能还能起.........
形式语言与自动机课件——上下文无关语言的性质_工学_高等教育_教育专区。形式...? 物理意义: 线性语言的泵浦引理是说,在正规集合中,每个足够长的字 符串都.........
c语言编程求一元线性回归_it计算机_专业资料。c语言编程求一元线性回归。回归......
7 comments注释 ;注释可以再任何一列开始 * 注释必须在第一列开始 线性汇编语言简介线性汇编语句的基本结构 线性汇编中的伪指令 线性汇编资源安排 c代码转换为线性.........
第2 2卷 第 5期 信号处理 sgn rocsngialpesi vo.2 no. 0c.00 t26 月 汪i,ii: 言辨 系 中最佳 线性 融合 技术 .........
为: n →d|nd d →0|1|2|3|4|5|6|7|8|9 (1) g6的语言是什么?...s 1 ?s 1 1 编译原理 chapter1~5习题 补充:构造一右线性文法,使它与如下.........
(4 学时) 主要内容:掌握matlab 语言编程、科学绘图、微积分、线性代数问题等...矩阵 前面给出的是4 × 4 矩阵,如果给出a(5,6) = 5 命令将得出什么结果.........
《r语言基础》讲义云南财经大学 统计与数学学院 your name class name 一 r...[2,] 1 2 3 4 求解线性方程组 > xx [,1] [,2] .........
英、 汉语言语 篇展开方式的不同, 表明英语思维是线性思维, 而 汉语思维则是螺旋式思维。 3 ?语言对思维的影响 基于前文对英、 汉两种语言之间语言形式和 .........
c语言_线性结构_it计算机_专业资料。线性结构包括:线性表(单向链表、双向链表)、栈、队列。下面是c语言是,增、删除、改、查的一些操作。线性.........
形式语言与自动机 复习提纲 1、语言的描述 2、dfa 的设计 3、将 nfa 转换成...从有限状态自动机构造有限性文法 dfa←———→右线性语言 右线性语言 正则式.........
语言就是力量_军事政治_人文社科_专业资料。龙源期刊网 http:.cn 语言就是力量 作者:韩晓萌 来源:《新东方英语》2014 年第 03 期 16 岁的.........
英国有哪些专业适合语言类的学生选择_其它_高等教育_教育专区。英国有哪些专业适合语言类的学生选择?去英国留学,语言类专业本科生除了翻译还可以选择哪些专业?由于就业.........
龙源期刊网 http:.cn 语言是存在的家园 作......
将对由并,积,闭包形成的正则集的证明,改为对 右线性语言的证明。 设在字母表 t上,有语言l1和l2,则l1∪ l2,ll2, l1*都是右线性语言。 证明方法:分别.........
■ 热门推荐[转载]R语言-用nls函数进行非线性回归
已有 3355 次阅读
|系统分类:|文章来源:转载
在许多实际问题中,回归模型中响应变量和预测变量之间的关系可能是复杂的非线性函数。有时候能通过变量变换的方法可以将其变为线性模型,有时则不能。在后一种情况下,就需要采取专门的非线性回归方法来建立模型。非线性回归是在对变量的非线性关系有一定认识前提下,对非线性函数的参数进行最优化的过程,最优化后的参数会使得模型的RSS(残差平方和)达到最小。在R语言中最为常用的非线性回归建模函数是nls,下面以car包中的USPop数据集为例来讲解其用法。数据中population表示人口数,year表示年份。如果将二者绘制散点图可以发现它们之间的非线性关系。在建立非线性回归模型时需要事先确定两件事,一个是非线性函数形式,另一个是参数初始值。一、模型拟合对于人口模型可以采用Logistic增长函数形式,它考虑了初期的指数增长以及总资源的限制。其函数形式如下。首先载入car包以便读取数据,然后使用nls函数进行建模,其中theta1、theta2、theta3表示三个待估计参数,start设置了参数初始值,设定trace为真以显示迭代过程。nls函数默认采用Gauss-Newton方法寻找极值,迭代过程中第一列为RSS值,后面三列是各参数估计值。然后用summary返回回归结果。()pop.mod1 &- (population ~ theta1/(1+(-(theta2+theta3*year))),=(theta1 = 400, theta2 = -49, theta3 = 0.025),=USPop,=T)(pop.mod)在上面的回归过程中我们直接指定参数初始值,另一种方法是采用搜索策略,首先确定参数取值范围,然后利用nls2包的暴力方法来得到最优参数。但这种方法相当费时。还有一种更为简便的方法就是采用内置自启动模型(self-starting Models),此时我们只需要指定函数形式,而不需要指定参数初始值。本例的logistic函数所对应的selfstarting函数名为SSlogispop.mod2 &- (population ~ (year,phi1,phi2,phi3),=USPop)二、判断拟合效果非线性回归模型建立后需要判断拟合效果,因为有时候参数最优化过程会捕捉到局部极值点而非全局极值点。最直观的方法是在原始数据点上绘制拟合曲线。()p &- (USPop,aes(year, population))p+geom_point(size=3)+geom_line(aes(year,(pop.mod1)),='red')若比较多个模型的拟合效果可使用AIC函数,取最小值为佳。三、残差诊断和线性回归类似,非线性回归假设误差是正态、独立和同方差性。为了检测这些假设是否成立我们用拟合模型的残差来代替误差进行判断。((pop.mod1),(pop.mod1),type='b')同方差假设采用残差绝对值和拟合值的散点图判断,或是使用bartlett.test函数检测。正态性检测除了画QQ图外还可用shapiro.test函数。独立性检验则可以绘制滞后残差图或是使用acf函数。其它可以使用的泛型函数还包括了anova、coef、confint、deviance、fitted、plot、predict、vcov。如果预测变量中包括了分类数据,这种情况下可利用nlme包中的nlsList函数进行非线性回归。nlstools包中也有许多对非线性回归有用的函数。转载于http://xccds1977.blogspot.jp/2012/01/nls.html
转载本文请联系原作者获取授权,同时请注明本文来自吴锐科学网博客。链接地址:
上一篇:下一篇:
当前推荐数:0
评论 ( 个评论)
扫一扫,分享此博文
作者的其他最新博文
Powered by
Copyright &

我要回帖

更多关于 多元非线性回归用r 的文章

 

随机推荐