教 案
2007 — 2008 学年 秋 季学期
所在单位 公共卫生与热带医学学院
系、教研室 生物统计学系
课程名称 卫生统计学
授课对象 2004级预防医学本科
授课教师 阎玉霞
职 称 讲师
教材名称卫生统计学
南方医科大学教案首页
授课题目 | 简单回归分析 | 授课形式 | 讲授 |
授课时间 | 2007-12-11 | 授课学时 | 3 |
教学目的 与 要 求 | 了解回归的思想来源 掌握线性回归方程的计算,回归系数的假设检验的思想和步骤 了解回归方程的应用 | ||
基本内容 | 1. 回归思想的来源 2. 散点图、线性回归方程 3. 回归系数的假设检验 4. 回归系数与预测值的区间估计 5. 回归方程的应用及注意事项 | ||
重 点 难 点 | 其中,1、4、5为了解内容,2、3为重点内容,对最小二乘法和可信区间与容许区间的区别的理解是难点(了解)。 | ||
主要教学 媒 体 | 多媒体投影仪 | ||
主 要 外 语 词 汇 | regression coefficient, linear regression analysis, linear, independent , normal, equal variance | ||
有关本内容的新进展 | |||
主要参考资料或相关网站 | http://www.smmu.edu。cn/zykj/~statistics/index/index.htm 1. 徐勇勇主编. 医学统计学(第二版). 北京:高等教育出版社,2004 2. 杨树勤主编. 卫生统计学(第二版). 北京:人民卫生出版社,1991 3. 方积乾主编. 医学统计学与电脑实验(第二版). 上海:上海科学技术出版社,2001 4. 孙振球主编. 医学统计学(供研究生用). 北京:人民卫生出版社,2004 | ||
系、教研室 审查意见 | |||
课后体会 |
南方医科大学教案
教学内容 | 时间分配和 媒体选择 |
第十二章 简单回归分析 第一节 简单线性回归 导入 一、线性回归的概念及其统计描述 1 线性回归的概念 2直线回归方程的求法 3最小二乘法 二、回归模型的前提假设 线性(linear) 独立(independent) 正态(normal) 等方差(equal variance) 三、回归系数的估计 例题 解题步骤 1.由原始数据及散点图观察两变量间是否有直线趋势 2.计算、的均数、,离均差平方和、与离均差积和。 3.计算有关指标的值 4.计算回归系数和截距 5.列出回归方程 四、总体回归系数β的统计推断 应变量的离均差平方和作分析。 方差分析法 举例 T检验法 举例 第二节 线性回归的应用 一、总体回归线的95%置信带 二、个体Y预测值的区间估计 第三节 残差分析 回归方程的应用 回归分析的注意事项 小结 | 幻灯片5分钟 幻灯片10分钟 幻灯片15分钟 幻灯片5分钟 幻灯片3分钟 幻灯片2分钟 幻灯片2分钟 幻灯片3分钟 幻灯片5分钟 幻灯片5分钟 幻灯片2分钟 幻灯片3分钟 幻灯片5分钟 幻灯片10分钟 幻灯片5分钟 幻灯片5分钟 幻灯片5分钟 幻灯片5分钟 幻灯片10分钟 幻灯片5分钟 幻灯片5分钟 幻灯片5分钟 |
教学进程
教学内容 | 时间分配 媒体选择 |
第十二章 www.med126.com/zhicheng/简单回归分析 第一节 简单线性回归 导入 两变量之间的关系 无关系 确定性关系 有关系 非确定性关系 确定性关系:已知一个变量能精确求出另一个变量的值,两变量是完全对应的。例:S=VT,C=2pr。 非确定性关系:两变量存在某种关系,但非完全一一对应关系,而是有某种趋势。例:正常人收缩压随年龄增高而增高,但不能讲某一年龄的人血压一定是多少。 两个或更多变量之间的关系,如: 广告费支出~商品销售额 受教育程度~收入水平 药物剂量~动物死亡率 年龄、体重~血压 回归与相关的思想来源 Francis Galton (1822-1911)和Karl Pearson (1890-1920) “Regression toward mediocrity in heredity stature” Journal of the Anthropological Institute, 1886, 15: 246 – 263 父亲身高(X)~儿子身高(Y)
| 幻灯片5分钟 |
教学过程
教学内容 | 时间分配 媒体选择 |
依存关系:应变量(dependent variable)Y随自变量(independent variable )X变化而变化 ——回归分析 姐妹身高(X)~兄弟身高(Y) 互依关系:变量X 与Y 之间的彼此关系 ——相关分析 一、线性回归的概念及其统计描述(linear regression analysis) 直线回归的概念 目的:研究应变量Y对自变量X的数量依存关系。 特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数关系 为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表12-1)进行回归分析,得到图12-1所示散点图(scatter plot) 图12-1 15名健康人凝血酶浓度(X)与凝血时间(Y)散点图 由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。 直线回归方程的求法 直线回归方程的一般表达式为
为回归直线在轴上的截距(intercept)。>0,表示直线与纵轴的交点在原点的上方;<0,则交点在原点的下方;=0,则回归直线通过原点。 为回归系数(regression coefficient),即直线的斜率(slope)。>0,表示直线从左下方走向右上方,即随增大而增大;<0,表示直线从左上方走向右下方,即随增大而减小;=0,表示直线与轴平行,即与无直线关系。由公式可以看出的统计学意义是每增加(减)一个单位,平均改变个单位。 为了求解、两个系数,根据数学上的最小二乘法(least square method)原理, 保证各实测点至直线的纵向距离的平方和最小,故又称最小二乘回归 二、回归模型的前提假设 线性回归模型的前提条件是: 线性(linear) 独立(independent) 正态(normal) 等方差(equal variance) 回归参数的估计 Ø残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。 Ø求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。 原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小 三、回归系数的估计 | 幻灯片10分钟 幻灯片15分钟 幻灯片5分钟 幻灯片3分钟 幻灯片2分钟 幻灯片2分钟 幻灯片3分钟 |
教学内容 | 时间分配 媒体选择 | ||||||||||||||
。
可导出、的算式如下
本例:n=15 ΣX=14.7 ΣX2=14.81 ΣY=224 ΣXY=216.7 ΣY2=3368
几个公式 均数: =, |
教学内容 | 时间分配 媒体选择 |
离均差平方和: =
离均差乘积和:
除了图中所示两变量呈直线关系外,一般还假定每个对应的总体为正态分布,各个正态分布的总体方差相等且各次观测相互独立。这样,公式(12-2)中的实际上是所对应的总体均数的一个样本估计值,称为回归方程的预测值(predicted value),而、分别为和的样本估计。 解题步骤 1.由原始数据及散点图观察两变量间是否有直线趋势 2.计算、的均数、,离均差平方和、与离均差积和。 3.计算有关指标的值 4.计算回归系数和截距 5.列出回归方程 绘制回归直线 此直线必然通过点( , )且与纵坐标轴相交于截距a 。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的 值代入回归方程得到一个点的坐标,连接此点与点( , )也可绘出回归直线。 | 幻灯片5分钟 幻灯片5分钟 幻灯片2分钟 幻灯片3分钟 幻灯片5 分钟 |
教学内容 | 时间分配 媒体选择 |
图12-2 应变量Y的离均差划分示意图 四、总体回归系数β的统计推断 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ? 无论如何取值,总在一条水平线上,即,总体直线回归方程并不成立,意即与无直线关系,此时。然而在一次随机抽样中,如果所得样本为实心园点所示,则会得到一个并不等于0的样本回归系数。与0相差到多大可以认为具有统计学意义?可用方差分析或与其等价的t检验来回答这一问题。 前面所求得的回归方程是否成立,即、是否有直线关系,是回归分析要考虑的首要问题。我们知道即使、的总体回归系数β为零,由于抽样误差,其样本回归系数也不一定为零。因此需作β是否为零的假设检验,用方差分析或t检验。在讲述假设检验之前,让我们先对应变量的离均差平方和作分析。 | |
教学内容 | 时间分配 媒体选择 |
如图12-2,p点的纵坐标被回归直线与均数截成三个线段: 第一段(),表示p点与回归直线的纵向距离,即实际值与估计值之差,称为剩余或残差。 第二段(),即估计值与均数之差,它与回归系数的大小有关。│b│值越大,()的差值也越大,回归方程越有效,残差越小,估计误差越小。 第三段,是应变量的均数。 上述三段的代数和为:将等式两端平方后再求和,因 *,则有:
上式用符号表示为: :即 ,为的离均差平方和(total sum of squares),说明未考虑与的回归关系时的变异。 :即,为回归平方和(regression sum of squares),它反映在的总变异中由于与的直线关系而使变异减小的部分,也就是在总平方和中可以用解释的部分。越大,说明回归效果越好。 :即,为剩余平方和(residual sum of squares),它反应对的线性影响之外的一切因素对的变异的作用,也就是在总平方和中无法用解释的部分。在散点图中,各实测点离回归直线越近,也就越小,说明直线回归的估计误差越小。 上述三个平方和,各有其相应的自由度,并有如下的关系: =+ =n-1,=1,=n-2 方差分析:其步骤与一般假设检验相同。统计量F的计算公式为: | 幻灯片10分钟 幻灯片5分钟 |
教学内容 | 时间分配 媒体选择 |
分别称为回归均方与剩余均方。统计量F服从自由度为的F分布。求F值后,查F界值表,得P值,按所取检验水准作出推断结论。 回归系数的t检验
例12-4 对表12-1数据回归系数进行t检验。 解:1. 提出检验假设,确定显著性水平
2. 计算统计量
3. 确定P值,下结论 查t界值表,P<0.001,按a=0.05的检验水准拒绝H0 ,接受H1。 注意:。 第二节 线性回归的应用 1.总体均数的可信区间(总体回归线的95%置信带) 给定的数值,由样本回归方程算出的只是相应总体均数的一个点估计。会因样本而异, 存在抽样误差。 | 幻灯片5分钟 幻灯片5分钟 |
教学内容 | 时间分配 媒体选择 | |||
o 以上是给定某一X值时所对应的总体均数的置信区间。当同时考虑X的所有可能取值时,总体均数的点估计就是根据样本算得的回归直线
o (1-α)置信区间的上下限连起来形成一个弧形区带,称为回归直线的(1-α)置信带(confidence band)。同样,因为其标准误是X的函数,所以在均数( )点处置信带宽度最小,越远离该均数点,置信带宽度越大。 o 图12-4中,左图显示位于最小二乘回归线上下两侧的两条弧形虚线为总体回归线的(1-α)置信区带。右图的实线表示可能的总体回归线,它们落在弧形虚线所确定的置信带内。 o (1-α)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内, 置信度为(1-α) 2.个体值的预测区间(区间估计) 所谓预测就是把预报因子(自变量X)代入回归方程对总体中预报量(应变量Y)的个体值进行估计。给定X的数值,对应的个体Y值也存在一个波动范围。其标准差(注意勿与样本观察值Y的标准差相混)按公式(12-10)计算
o 以第一观测点数据(X1=1.1)点为例,该点预测值的标准差为 o =0.52489182 o 第一数据点的预测区间为: 14.0957±(2.16)(0.0.5249)=12.9618~15.2297 当同时考虑X的所有可能取值时,个体Y值的95%预测区间形成一个 | 幻灯片5分钟 | |||
教学内容 | 时间分配 媒体选择 | |||
o 带子,称为Y值的95%预测带,它比总体回归线95%置信带更宽。 图12-5和图12-6同时显示个体Y值的预测带与总体回归线的置信带,可见,在相同信度下,个体值预测带的曲线要比回归线置信带的曲线离回归直线更远。 决定系数(coefficient of determination) 定义为回归平方和与总平方和之比,计算公式为: 取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 第三节 残差分析 o残差(residual)是指观测值Yi与回归模型拟合值之差 o 残差分析(residual analysis)旨在通过残差深入了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等。 o例如,第一数据点的残差e1=14-14.0957=-0.0957,如此类推,计算出各数据点的残差值示于表12-2的第10列中。将第10列的残差减去其均数,除以其标准差,便得标准化残差。 若以反应变量取值Yi为横坐标,以标准化残差为纵坐标,构成的散点图如图12-7所示。类似地,也可以自变量取值Xi为横坐标, 以标准化残差为纵坐标,构成的散点图。这类散点图统称为标准化残差图。 o图12-8给出的是以自变量取值为纵坐标,以残差为横坐标的残差图的常见类型。其中,图(e)显示残差呈随机分布;图(a)、(b ) 和(f)表示残差不满足方差齐性条件;图(c)显示存在非线性关系;图(d)显示有的点处于±2倍标准差以外,可能是异常点。 例12-5 例12-2样本回归系数b=0.0648,估计总体回归系数b的95%可信区间。 解:Sb=0.00688,df=12-2=10 查t界值表,得t0.05/2,10=2.228,故b的95%可信区间是 (0.0648-2.228×0.00688, 0.0648+2.228×0.00688) = (0.0495,0.0801)
3.
4. 个体Y值的容许区间 容许区间:总体中X为某一定值x0时,个体y值的波动范围。即当自变量为x0时,总体中有1-a的个体值y0在此范围之内。
例12-7 对例12-2,计算www.med126.com/Article/x0=250时,个体Y值95%的容许区间。 | 幻灯片10分钟 |
教学内容 | 时间分配 媒体选择 |
解: 故x0=250时,个体Y值的容许区间为: (18.2-2.228×1.475, 18.2+2.228×1.475)=(14.95,21.44) 即当大鼠进食量为250g时,有95%的大鼠体重增加量在14.95~21.44范围内。 回归方程的应用 1. 描述两个变量在量上的依存关系; 2. 估计和预测(forecast): 给定X值,估计Y的波动范围,即Y的(1-a)容许区间。 3. 控制(control):给定Y值范围,求X值范围。 回归分析的注意事项 G 首先绘制散点图 G Y要服从正态分布 G 两变量之间关系要有实际意义 G 必须对回归系数作假设检验 小结 | 幻灯片5分钟 幻灯片5分钟 幻灯片5分钟 |