变量值分布的集中趋势和离散趋势这2个特征,可用相应的统计指标描述,成为数量特征或特征量。知道了变量值分布的各种特征量,对变量值分布就有了总的概括性的了解,而不必罗列所有变量值,这就是计算统计指标的意义。 描述变量值分布的集中趋势用平均指标,常称平均数(average)。平均数反映一群变量值的平均水平或集中位置,是统计中最重要和应用最广泛的统计指标。对规定的同质个体构成的群体计算平均数才有意义,如分性别和分年龄计算儿童的平均身高有意义,而不分性别和不分年龄计算儿童的平均身高无意义。 常用的平均数有均数(mean)、几何均数(geometric mean)和中位数(median),据变量值的不同分布类型选用不同的平均数。一般来说,对称分布资料选用均数;偏态分布资料选用几何均数和中位数。实际研究某个医学定量指标时,通常是先凭理论或经验(包括查文献)来判断该指标符合什么总体分布,至于用频数表和频数分布图来判断一个指标符合什么总体分布,需要大样本。 1.均数均数是算术平均数的简称,是最重要的平均数。均数最适用于对称分布资料,特别是正态分布资料。总体均数用μ表示,样本均数作 表示。 (1)直接法:由样本n个变量值X1,X2…,Xn求均数 的公式为
式中Σ是求和的符号,n是样本含量。本书在不会引起误解的情况下简写成
例7·2某地抽样得10名7岁男孩体重(kg)为17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5。求均数。
该地10名7岁男孩的体重均数(或平均体重)为21.4kg。 (2)加权法:当相同变量值的个数较多时,可用加权法计算均数。如n个变量值已编制成频数表,则可用加权法计算均数。设分为k组,每组的频数为fi,fi个变量值的均数用其组中值Xi=(本组段下限+下组段下限)/2代替,则频数fi为Xi的权(weight),加权法计算均数的公式为
例 7·3求例7·1的130名正常成年男子红细胞数的均数。 据表7-2得表7-3,表中第(5)栏是为后面计算标准差用。
该地区130名正常成年男子红细胞数的均数为4.794×1012/L。 要说明的是,对于偏态分布资料,均数虽不能较好地反映变量值的平均水平或集中位置,但据(7·1)式有n =ΣX,均数可间接反映n个变量值的总体数量水平(∑x)。 2.几何均数几何均数用于下述情况的偏态分布资料:变量值的变化呈倍数关系,特别是当变量值取对数后服从正态分布,即对数正态分布资料。几何均数用G表示。 (1)直接法:由样本n个变量值X1,X2,…,Xn求几何均数G的公式为
或用对数计算
例7·4设有5人的血清抗体效价为1:10,1:100,1:1000,1:10000,1:100000。求平均血清抗体效价。 以血清抗体效价的倒数作变量值,本例若求均数,则得 =22222,5个变量值比 小的有4个,比 大的只有1个,因此 不能表示这5个变量值的平均水平或集中位置。本例应求几何均数。 5人的平均血清抗体效价为1:1000。 (2)加权法:当相同变量值的个数较多时,如对于频数表资料,则用加权法计算几何均数,例7·5 某地23名儿童接种麻疹疫苗后血清血凝抑制抗体滴度的频数分布如表7-4的第(1)、(2)栏,求平均抗体滴度。
该地23名儿童血清血凝抑制的平均抗体滴度为1∶12.35。 3.中位数和百分位数把n个变量值从小到大排列,位于中间位置的变量值称为中位数,用M表示。中位数只是一个特定的百分位数(percentile)。把n个变量值从小到大排列,和第x百分位次对应的变量值称为第x百分位数,用Px表示。全部变量值比Px小有x%的变量值,比Px大有(100-x)%的变量值。显然中位数M即第50百分位数P50。关于中位数以外其他百分位数的用途见后述内容。 中位数一般用于不宜或不能用几何均数的偏态分布资料:如变量值分布规律不清www.med126.com/rencai/楚、有少数的特小或特大值;又如变量值分布一端或两端无确定数值,只是小于或大于某个数值(求不出均数或几何均数)。另外当资料分布不明时,即判断不出资料是否服从正态分布或对数正态分布时,也只好用中位数。 中位数一定在变量值分布的中心位置。对于正态分布总体,均数等于中位数;对于对数正态分布总体,几何均数等于中位数。但对于正态分布资料和对数正态分布资料,若用样本中位数比用样本均数和样本几何均数会降低推断总体均数和总体几何均数的灵敏度。 (1)用原始变量值直接计算中位数:把n个变量值从小到大排列后记为Xi,即有X1≤X2≤…≤Xn,则中位数为
例7·6 某病患者5人的潜伏期(天)从小到大排列为2,3,6,8,20。求中位数。
5人的平均潜伏期为6天。 例7·7 某病患者8人的潜伏期(天)从小到大排列为5,6,8,9,11,11,13,>16。求平均潜伏期。
8人的平均潜伏期为10天。 (2)用频数表计算中位数和百分位数:条件是样本含量(n)大。按所分组段,由小到大计算累计频数和累计频率。先从累计频率找出Px所在组段,然后按下述公式计算中位数M(P50)和其他百分位数Px:
式中fx为Px所在组段的频数,i为该组段的组距,L为其下限,∑fL为小于L的各组段累计频数。 例7·8 238名正常人的发汞值如表7-5的第(1)、(2)栏,求中位数和百分位数P25、P75。 由表7-5的第(4)、(1)栏可见,M(P50)在1.1~组段。现L=1.1,i=0.4,fx=60,∑fL=86,代入(7·8)式得
同样可得
238名正常人发汞值的中位数为1.32μg/g,P25和P75为0.94μg/g和1.77μg/g。 |