岭回归分析原理及其SPSS实现方法

2017-05-21 MedSci MedSci原创

岭回归分析(RidgeRegression)是一种改良的最小二乘估计方法,它是用于解决在线性回归分析中自变量存在共线性的问题。什么?共线性是什么?共线性就是指自变量之间存在一种完全或良好的线性关系,进而导致自变量相关矩阵之行列式近似为0,导致最小二乘估计失效。此时统计学家就引入了k个单位阵(I),使得回归系数可估计。设么?没看懂,那就算了。知道岭回归分析就是用来解决多重共线性的问题,就够了。在医学

岭回归分析(RidgeRegression)是一种改良的最小二乘估计方法,它是用于解决在线性回归分析中自变量存在共线性的问题。什么?共线性是什么?共线性就是指自变量之间存在一种完全或良好的线性关系,进而导致自变量相关矩阵之行列式近似为0,导致最小二乘估计失效。此时统计学家就引入了k个单位阵(I),使得回归系数可估计。设么?没看懂,那就算了。知道岭回归分析就是用来解决多重共线性的问题,就够了。在医学科研的实际工作中,往往不需要创造算法,会用算法就行。当然如果你有心研究其原理,那更是极好的。下面我们还是通过实例来学习岭回归分析的应用条件和SPSS实习方法吧。用SPSS自带的例子(来自SPSS 20.0版的示例数据库,其他版本的就别找了),某研究者想了解B超下胎儿的身长、头围、体重与胎儿受精周数之间的关系,即B超测得上述参数之后,用它们来推测胎儿的受精时长(周数)。我们很容易想到用多重线性回归来解决,以胎儿周数为因变量,以身长、头围和体重为因变量,做回归之后我们发现,结果如下:不会吧?!头围尽然与周龄成负相关,开玩笑啊。这个方程肯定是有问题,细心的读者也已经发现方差膨胀因子(VIF)大到20

作者:MedSci



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (7)
#插入话题
  1. 2017-08-17 189****7206

    学习了谢谢分享

    0

  2. 2017-05-25 惠映实验室

    软件正确操作重要性

    0

  3. 2017-05-22 130****4638

    数理统计需要深入学习下去。

    0

  4. 2017-05-21 laymankey

    感谢分享一下!!

    0

相关资讯

倾向评分匹配的SPSS、R和Stata实现方法

其中,(pscore)是在第二步中生成的那个记录对象概率的变量,noreplacement是一个选项,使得任何读了研究生的观察对象的对照对象都具有唯一性,换言之,只能1对1匹配。 另一个案例(在版本:12)net install psmatch2use "C:\Users

SPSS结果输出表格如何改为专业的三线表

经常听到许多使用SPSS进行数据分析的人,抱怨SPSS结果输出的表格太难看,不是统计教科书上所说的三线表,每次要用还得自己花很多时间进行再次编辑,实在让人恼火得不行,其实是你错怪SPSS了,做为世界排名第二的统计分析软件,这个毛病肯定不会有的,只不过你不知道如何设置罢了,跟着松哥学统计,5秒钟学会修改专业的统计表。 一、SPSS默认安装,进行两独立t,结果是这样的 典型的不是三

分层回归分析理论及意义,以及SPSS操作演示

分层回归(hierarchical multiple regression),也称层次回归,其实是对两个或多个回归模型进行比较。我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型。一个模型解释了越多的变异,则它对数据的拟合就越好。假如在其他条件相等的情况下,一个模型比另一个模型解释了更多的变异,则这个模型是一个更好的模型。两个模型所解释的变异量之间的差异可以用统计显著性来估计和检验

加权回归的SPSS操作演示

加权回归直线回归简单来说,这个过程其实是在先拟合出一条曲线,然后再用这个曲线去预测需要预测的点。但是如果这个曲线拟合得不好(或者说样本数据含有大量噪音),那么这个预测结果就会很差。 局部加权线性回归 对于一个数据集合(x0,y0),(x1,y1),⋯,(xm,ym),我们预测它在x点时对应的y值时,如果采用的是传统的 线性回归模型,那么: Fit θ to mininize ∑i(y(i

有序多分类Logistic回归SPSS实战操作教程

1、问题与数据 在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济水平的关系,以确定胃癌筛查的重点人群。为了避免性别因素对结论的混杂影响,研究者将性别(Sex)也纳入分析(本例仅为举例说明如何进行软件操作,实际研究中需控制的混杂因素可以更多)。研究者将所有筛查人群的结果如表1,变量赋值如表2。 表1. 原始数据 表2. 变量赋值情况 2、对数据结构的分析

广义估计方程(GEE)的SPSS操作教程

在临床研究中,经常会比较两种治疗方式对患者结局的影响,并且多次测量结局。例如,为了研究两种降压药物对血压的控制效果是否存在差异,研究者会对两个人群服药后在不同时间点记录血压值,然后评价降压效果。或者对两组动物分别施加两种干预,连续记录多个时间点的结局,然后比较两种干预的效果。 这种设计可以用如下示意图表示: 另外,有时研究只需要收集一个时间点的数据,但是一个研究对象会提供多个部位的数据