第二章 定量资料的统计描述
主要内容
1、频数与频数分布
2、定量变量的特征数
3、常用统计图表
4、案例讨论
5、电脑实验
第一节 频数与频数分布(frequency and frequency distribution)
特点:实测值之间有间断,或实测值可数。
频数表(频数分别表)可直接反映变量的分布规律。频数分布图可用直条图表达。
二、连续型定量变量的频数分布
特点:实测值之间没有间断,或实测值不可数。实测值之间的间断可以忽略时,可近似的视为连续型变量。
划分特定组距后的频数表(频数分布表)才能反映变量的分布规律。频数分布图可用直方图表达,其纵坐标为频率密度,即频率/组距,直方图的面积之和等于1。
例2.1 120名18~35岁健康男性居民血清铁蛋白含量(μmol/L)
7.42 | 8.65 | … | 21.62 | 23.07 |
20.38 | 8.40 | … | 24.14 | 23.77 |
18.36 | 23.04 | … | 15.38 | 18.61 |
14.27 | 17.40 | … | 19.82 | 17.48 |
14.89 | 18.37 | … | 15.83 | 18.54 |
24.52 | 19.26 | … | 17.40 | 21.36 |
17.14 | 13.77 | … | 25.61 | 19.53 |
14.77 | 14.37 | … | 19.12 | 15.31 |
21.75 | 19.47 | … | 17.55 | 19.26 |
12.65 | 18.48 | … | 14.18 | 16.52 |
1. 频数表的编制步骤
(1)求极差(range):即最大值与最小值之差,又称为全距。
本例极差: R=29.64-7.42=22.22(μmol/L)
(2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分8-15个组,为方便计,组距参考极差的十分之一, 再略加调整。
本例i= R/10=22.22/10=2.222≈2。
(3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。
(4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
120例健康男性居民血清铁蛋白含量(μmol/L)频数表
组段 (1) | 频数,f | 频率(%) (3) | 累计频数 (4) | 累计频率(%) (5) |
6~ | 1 | 0.83 | 1 | 0.83 |
8~ | 3 | 2.50 | 4 | 3.33 |
10~ | 6 | 5.00 | 10 | 8.33 |
12~ | 8 | 6.67 | 18 | 15.00 |
14~ | 12 | 10.00 | 30 | 25.00 |
16~ | 20 | 16.67 | 50 | 41.67 |
18~ | 27 | 22.50 | 77 | 64.17 |
20~ | 18 | 15.00 | 95 | 79.17 |
22~ | 12 | 10.00 | 107 | 89.17 |
24~ | 8 | 6.67 | 115 | 95.83 |
26~ | 4 | 3.33 | 119 | 99.17 |
28~30 合计 | 1 | 0.83 | 120 | 100.00 |
120 | 100 | — | — |
120例健康男性居民血清铁蛋白含量(μmol/L)分布图
2. 频数表的分布特征
①集中趋势(central tendency):变量值集中位置。本例在组段“18~”。
——平均水平指标
②离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。本例14~24,共有89人,占74.17%;离“中心”位置越远,频数越小;且围绕“中心”左右对称。
——变异水平指标
频数分布的类型:
对称分布与偏态分布(集中位置偏向小的一侧叫正偏态,反之叫负偏态)
频数表的主要用途:
1. 揭示分布类型
2. 发现特大值和特小值
3. 计算集中趋势指标与离散趋势指标
第二节 定量变量的特征数
一、描述集中趋势的统计指标
总称为平均数(average)反映了资料的集中趋势( central tendency )。常用的有:
1. 算术均数(arithmetic mean),简称均数 (mean)
2. 几何均数(geometric mean)
3. 中位数 (median)
4. 众数(mode)
5. 调和均数(harmonic mean)
1. 均数(mean)
⑴计算
①直接法
⑵特性
⑶应用
①反映一组同质观察值平均的数量水平。
②适用于单峰对称分布,尤其适用于描述正态或近似 正态分布资料的集中趋势。
③描述正态分布的特征。
2. 几何均数(geometric mean)
⑴计算
① 直接法
几何均数:变量对数值的算术均数的反对数。
②加权法
⑵注意事项
①适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料。
②观察值若有0或负值,不宜直接计算几何均数。
③观察值不能同时有正负值。
3. 中位数(median)
⑴定义:
中位数是将一批数据从小至大排列后位次居中的数据值,符号为M,反映一批观察值在位次上的平均水平。
⑵适用条件:
适合各种类型的资料。尤其适合于
① 大样本偏态分布的资料;
② ②资料有不确定数值;
③ ③资料分布不明等。
⑶计算
① 直接法
特点:仅仅利用了中间的1~2个数据
②
4. 众数(mode)
出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。
均数、中位数、众数三者关系
正态分布时: 均数=中位数=众数
正偏态分布时:均数>中位数>众数
负偏态分布时:均数<中位数<众数
二、描述离散趋势的特征数
反映数据的离散度( Dispersion )。即个体观察值的变异(variation)程度。常用的指标有:
1.极差Range (全距)
2.百分位数与四分位数间距Percentile andQuartile range
3.方差 Variance
4.标准差Standard Deviation
5.变异系数 Coefficient ofVariation
1.极差Range (全距)
2.百分位数与四分位数间距Percentile and Quartile range
QR=P75- P25=Q3-Q1=QU-QL
3.方差 Variance
方差 (variance)也称均方差(mean squaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。
自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。
4.标准差Standard Deviation
⑴计算
①直接法
5.变异系数 Coefficient of Variation
适用条件:①观察指标单位不同,如身高、体重
②同单位资料,但均数相差悬殊
变异指标小结
1.极差较粗,适合于任何分布
2.标准差与均数的单位相同,最常用,适用于正态分布和近 似正态分布的资料
3.变异系数主要用于单位不同或均数相差悬殊的资料
4.平均指标和变异指标分别反映资料的不同特征,
常配套使用如 :正态分布:均数、标准差;
偏态分布:中位数、四分位数间距
对数正态分布:几何均数、几何标准差
三、描述分布形态的特征数
1. 偏度系数
2. 峰度系数
第三节 常用统计图表
一、统计表
统计表(statistical table)和统计图(statistical chart)是统计描述的重要工具。医学科学研究资料经过整理和计算各种必要的统计指标后,所得结果除了用适当文字说明以外,常用统计表和统计图表达分析结果。统计图表可以对于数据进行概括、对比或做直观的表达。统计表和统计图不仅便于阅读,而且便于分析比较。
1.概念:指在科技报告中,常将统计分析的事物
及其指标用表格列出,以反映事物的内在规律性和
关联性。
2.作用:
1)避免繁杂的文字叙述
2)便于计算
3)便于事物间的比较分析
3. 统计表的结构
从外形上看,统计表由标题、标目(包括横标目、纵标目)、线条、数字及必要的文字说明和备注5部分构成。其基本格式如表1:
1)标题:概括说明表的中心内容,要求用词简练、确切。必要时注明资料的时间、地点,写在表的上端中央。
注意:防止标题过于简略或过于繁杂,有的甚至不写标题。
2)标目:要求文字简明,有单位的标目要 注明单位。横标目位于表的左侧,说明各横行数字的含义。纵标目位于表的右侧,向下说明各纵行数字的含义。
注意:防止标目过多,层次不清。
3)线条:只需要顶线、底线及纵标目下面与合计上面的横线。
注意:线条不宜过多,表的左上角不宜有斜线,表内不能有纵线。
4)数字:表内数字一律用阿拉伯数字表示,同一个指标的数字精确度应当一致,表内不宜有空格,无数字医学三基用“—”表示,数字为0,则填写0。
5)备注:表格一般不列备注或其他文字说明,如有特殊情况需要说明时可用“*”标出,将文字说明写在表格的下面。
从内容上看,每张表都有主语和谓语。主语指被研究的事物,如表2-5中的药物分组,一般置于表的左侧;谓语指说明主语的各项统计指标,如表2-5中的“治愈”和“未愈”、“合计”,一般置于表的右侧,主语和谓语结合起来构成一个完整的句子。如表 2-5可读成用替硝唑治疗组治愈25例,未愈4例,合计29例。
4.统计表的种类
根据说明事物的主要标志(主语)的复杂程度,统计表可以分成简单表和复合表。
l.简单表:只有一种主要标志,即主语按一个标志分组。
2.复合表:有两种或两种以上的标志,即主语按多个标志分组。在安排上可以将部分主语放在表的上方与谓语配合起来。
5.编制统计表的基本要求
1)重点突出,简单明了。即一张表只包括一个中心内容,表达一个主题。
2)主谓分明,层次清楚。即主谓语的位置准确,标目的安排及分组要层次清楚,符合专业逻辑。简单表只有一个分组标志,一般作为横标目,而纵标目就是统计指标名称。复合表有两个以上分组标志,一般把其中主要的和分项较多的一个作为横标目,而其余的则安排在纵标目上。
3)数据准确、可靠。
6.统计表的审查与修改
统计表制作是否良好,可以从以下几方面检查:
1).标题是否正确
2).主谓语的排列是否合适,标目是否组合重复。
3).表线是否过多过密。
某地1974年111例钩端螺旋体病患者发病季节、年龄和职业构成资料如表12-4所示,请按照编制统计表的基本要求,检查此表编制的是否合适,如不合适,请指出并修改成正确表。
表12-4的缺点是:
1)标题不确切,并且未注明时间与地点。
2)发病季节、年龄、职业三项指标放在一起,内容繁杂,不能突出重点。
3)标目设计不合理。人数、%多次重复,不便于比较分析。
4)表内文字和线条过多。
某医院对麦牙根糖浆治疗急性慢性肝炎161例的疗效,资料如表12-8,指出缺点并加以改进。
缺点是:1)标题过于简单,不能概括表的内容。
2)标目组合重复。
3)主谓语排列不当。
二、统计图
1. 概念:利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料和指标.
2.作用:它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象而生动地表达出来,更直观地反映出事物间的数量关系,更易于比较和理解。但对数量的表达较粗略,从图中不能获得确切数字。
医学中常用的统计图有:
直条图、百分条图、圆图、普通线图、半对数线图、直方图、箱式图、散点图、统计地图
3. 制图的基本要求
统计图通常由标题、标目、刻度、图域和图例5部分组成。
1)标题:简明扼要地说明资料的内容、时间和地点.一般写在图的下方中央。
2)图域:即制图空间。除圆图外,一般用直角坐标系第一象限的位置表示图域,或者用长方形的框架表示。不同事物用不同线条(实线、虚线、点线)或颜色表示。
图域的高:宽比例习惯上为5:7。
3)标目:分为纵标目和横标目,表示纵轴和横轴数字的意义,一般有度量衡单位。
4)图例:在对比关系较为复杂的统计图中,为使读者易于分辨各种图形的意义,可以设置图例。图例通常放在横轴与标题之间。
5)刻度:即纵轴与横轴上的坐标。排列方法与直角坐标系的排法一致,刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右,一律用等距表明。
4. 常用统计图的绘制方法及要求
绘制统计图时要根据资料的性质和分析的目的选择适当的图形。
1)直条图
直条图(bar graph):适用于性质相似而不连续的资料。用等宽的直条的长短来表示各独立指标数值大小和它们之间的对比关系。指标既可以是绝对数,也可以是相对数。为便于比较,被比较的指标一般按大小顺序排列。
A)单式直条图 只有一个统计指标,一个分组因素 。如根据表2-6绘制成图2-6。
B)复式条图 具有两个统计指标,两个及以上分组因素。如根据表2-7绘制成的图2-7。
绘制直条图时应注意
1.坐标:一般以横轴为基线,表示各个调查项目。纵轴尺度必须从0开始,表示各个项目相应的数据,而且要等距,否则会改变各对比组间的比例关系。
2.宽度:各直条的宽度应相等,各直条的间隔也应一致。条间隔应为条宽的一半或等宽。
3.排列:直条一般可按高低顺序排列,以便于比较。但如果各指标间需要有一定的顺序时,也可按
规定的顺序排列。
注意:复式条图中组内各直条排列次序要前后一致,并加以图例。
2). 百分条图(percent bargraph)
百分条图:适用于构成比资料。
用矩形长条的面积表示事物全部,而用其中各段表示各构成部分。
绘制百分条图时应注意以下几点:
1.将全体数量绘制成一长条,长度和宽度可以任意选择,将长条全长分为10格,每格代表10%,总长为100%。
2.将直条全长按构成比分为几段,在图上标出各部分构成比的数值,并用图例说明各部分的名称。
3.两种或多种类似的构成比资料相互比较时,可以绘制两个或多个长度、宽度都相等的直条,在同一起点上依次平行排列,各直条之间留有一定空隙,一般为直条宽度的一半。
表2-8 两种脱落牙再植效果
效果 嵌入性脱位牙 构成比(%) 脱落牙 构成比(%) |
成功 12 30.00 20 40.00 良好 12 30.00 7 14.00 较好 12 30.00 13 26.00 失败 4 10.00 10 20.00 |
合计 40 100.00 50 100.00 |
3). 圆图(circle graph or pie graph)
圆图:是一种构成图,适用于构成比资料。
注意以下几点:
1)先绘圆,将构成比乘以3.60,即得各构成部分所占的圆心角的度数。
2)以相当于时钟的9点或12点的位置为起点依次排列各个扇形。
3)扇形内要注明简要文字和百分比。
4)两种或多种类似的构成比资料相互比较时,可在同一水平线或同一竖线上作直径相等的圆图,并注意各构成部分排列次序要一致。
4. 线图(普通线图 line graph)
线图:适用于连续性变量的资料。
用线段的升降来表示统计指标的变化趋势,如某事物在时间上的发展变化,或某现象随另一现象变迁的情况。
绘制线图时应注意以下几点:
1)横轴代表分组标志,纵轴代表统计指标。横轴和纵轴都是算术尺度。
2)相邻两点用直线连接,也就是说图线应按实际数字绘制成折线,而不能任意修改为光滑曲线。
3)同一图内不应绘制太多的曲线,一般不宜超过4-5条。若有几根线,应用不同颜色或不同图线表示,并附图例说明。
4)在绘图时,一定要注意纵横轴比例,由于比例不同,给人的印象也不同。
5. 半对数线图(semi-logarithmiclinear graph)
半对数线图 用来比较两种或多种事物的相对变化速度。
绘制半对数线图时应注意以下几点:
1)在半对数坐标纸上作图:如无半对数坐标纸,也可将数据转换成对数值,然后在普通坐标纸上作图。
2)纵轴和横轴:横轴用算数尺度表示各分组标志,纵轴用对数尺度表示指标数值的大小。
6. 直方图 (histogram)
适用于连续变量的频数分布资料。常用横轴表示变量(即被观察对象),纵轴表示频数或频率。
直方图用矩形面积代表各组频数或频率,各矩形面积总和代表各组频数或频率的总和。
绘制直方图应注意以下几点:
1.纵轴的刻度必须从“0”开始,而横轴的刻度可按实际范围制定。
2.作图时,各直条的宽度应等于组距,高度应等于该组的频数或频率。如果各组段的组距不同,必须换算成等距后才能作图。
7. 箱图(box plot)
箱图:用于比较两组或多组数据的直观比较分析,描述其分布特征。一般选用5个描述统计量(最小值、P25、中位数、P75、最大值)来绘制 。
1.用图表示某地区近30年三种疾病的发病率,在各年度的动态发展速度情况,宜绘制( )
A 普通线图 B 直方图 C 直条图 D 半对数线图
2. 某地区两年的三种死因别死亡率,若用统计图表示出来可选用( )
A 复式线图 B 百分条图 C 复式直条图 D 直方图
3. 反映定量变量观察数据集中位置的指标是( )
A 标准差 B 标准误 C 频率 D均数
4. 在正态分布条件下,表示变量值变异情况的指标最常用的是( )
A 标准差 B 标准误 C 变异系数 D 百分位数
5. 变异系数越大说明( )
A 标准差越大 B 标准差、平均数都大
C 以均数为准变异程度大 D 平均数小
6. 在服从正态分布N(μ,σ2)条件下,样本标准差S的值( )
A 与集中趋势有关 B 与观察例数n无关
C 与平均数有关D 与个体的变异程度有关
7. 已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,>12,其潜伏期的平均水平约为( )
A 9天 B 9.5天 C 10天 D 11天