医学统计学与软件实现
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二节 定量变量数据的统计描述

一、定量数据集中趋势的统计描述

平均数是一类描述定量数据的平均水平或集中趋势的统计指标。常用的平均数有算术均数、几何均数、中位数和百分位数以及众数等。

(一)算术均数

算术均数为所有测量值之和除以测量值的个数,简称均值或均数。总体的均数用希腊字母μ(读作“miu”)表示,样本的均数用(读作“x ba”)表示,适用于呈正态或近似正态分布的数据。其计算公式为

其中n为样本含量,X1X2,…,Xn为观察值。式(4-5)的分子可以简略地表示为。其中,大写的希腊字母Σ(读作“sigma”)为数学中的求和符号。

(二)几何均数

几何均数是将n个观测值相乘再开n次方所得的根,记为G。适用于数据之间呈倍数关系或近似倍数关系,数据本身呈偏态分布,但取对数后,对数值呈对称分布。如抗体的滴度、平均效价、某些疾病的潜伏期等。其计算公式为

式(4-7)表示先求每个观察值的对数,计算其算术均数后,再求反对数。对数的底可适当选择。但是要注意对数与反对数的底相同。

例4-2

有5份滴度数据1∶10,1∶100,1∶1 000,1∶10 000,1∶100 000,求其平均滴度。

将滴度的倒数直接代入公式(4-7)得:

故,5份滴度数据的几何均数为1∶1 000。

(三)中位数和百分位数

中位数是将一组观察值按从小到大的顺序排列,位于序列中间的数值,记为M。若数据呈明显的偏态分布,或者数据的分布不明时,用中位数反映一组定量数据的平均水平或集中趋势。对于样本资料,样本量n为奇数时,中位数可表示为

n为偶数时,中位数可表示为

其中表示将n例数据按升序排列后的第i个数据。

将变量X的观测值由小到大排列,将位于P%的数值称为百分位数(percentile),记为XP。百分位数XP表示在观察序列中,有P%的观察值小于它,(1 − P)%的观察值大于它。由此可见,中位数实际上是一种特殊的百分位数,即50%分位数。

对频数表资料,可通过百分位数法计算中位数。百分位数的计算公式为

其中XP为百分位数,L为欲求的百分位数所在组段的下限,i为该组段的组距,fX为该组段的频数,n为总频数,fL为该组段之前的累计频数。

(四)众数

一组观测值中出现次数最多的那个观测值,称为众数(mode)。

例4-1中,众数为4.58和4.68,都出现了4次。

二、定量数据离散趋势的统计描述

同一总体中不同个体之间的差异称为变异(variation),亦称为数据的离散趋势。

例4-3

今抽样两个班各5名同学的身高(cm),抽检结果分别为A班:169,168,170,171,172;B 班:170,180,165,175,160。

虽然两个班的5名同学平均身高都是170cm,但是他们的状况不同。A班5名同学身高数据散布小,B班5名同学身高数据散布大。因此,为了比较全面地把握数据的分布特点,不仅需要了解数据的集中位置,而且需要了解数据的离散状况。描述数据离散程度的指标有很多,这里介绍常用的几种:极差、四分位数间距、方差、标准差及变异系数。

(一)极差

极差(range,R)亦称全距,是序列中最大值与最小值之差。R = 最大值 − 最小值。

计算例4-3中两组数据的极差:RA = 4cm,RB = 40cm。

极差越大,说明数据越分散。用极差反映数据的离散程度,方法简便明了,应用较为广泛。其缺点是:①只利用了数据中最大值与最小值的信息,未利用资料中其他数值所包含的信息,对资料信息利用率较低。②样本例数越多,抽到较大值与较小值的可能性也越大,因而样本极差也越大。故几个样本含量相差较大时,不宜比较其极差。③即使样本例数保持不变,极差的抽样误差也较大,即不够稳定。

(二)四分位数间距

四分位数间距Q = X75 − X25。因为理论上在总体中有四分之一的个体比X25小,另有四分之一的个体比X75大,所以X25与X75之间恰好包括总体中数值居中的50%个体。或者说,四分位数间距Q是总体中数值居中的50%个体散布的范围。同类资料比较,Q越大意味着数据间变异越大。四分位数间距可以用于各种类型的连续型变量,尤其适用于描述偏态分布资料的离散程度。但四分位数间距没有考虑每个数据值的大小,精确度不够。

(三)离均差平方和与方差

为克服极差和四分位数间距不能反映每个数据之间的离散情况的缺点,用离均差之和 来反映变异的大小是很自然的考虑。但差值(X − μ)有正有负。正负相抵使得总体上。而用反映离散趋势虽然不存在正负相抵的问题,但是在数学处理上比较困难。统计学家提出用离均差平方后求和的值来反映数据间的变异大小。

所有个体观测值与均数差值的平方之和称为离均差平方和(sum of squared deviations of observations from mean,SS)计算公式

离均差平方和越大,数据的离散度也越大,但参加计算的个体数量越多,离均差平方和往往也会越大。所以,对离均差平方和按例数取平均值称为方差,又称为均方差。其计算公式为:

上式中σ2表示总体方差,μ为总体均数,N为总体中个体的总数。

在实际工作中,总体均值μ常常是未知的。N往往也很大,或者总体内的个体有无限多个。因此,式(4-11)也不适合应用。在抽样研究中,采用样本方差来估计总体方差。其计算公式为:

其中s2表示样本方差,为样本均数,n为样本含量。为何分母采用n − 1呢,原因之一,分子用为样本均数代替总体均数μ后离均差平方和一定减小,统计学证明分母采用n − 1后所得的样本方差s2是总体方差σ2的无偏估计。原因之二,样本方差s2的自由度(degrees of freedom)为n − 1。所谓自由度,顾名思义是能自由变动的程度,在直线上运动的物体只有一个自由度,平面上运动的物体有两个自由度,空间运动的物体有三个自由度。统计学中自由度是指一个统计量中可以自由变化的未知量个数。样本方差s2分子由n个未知的离均差组成,但是,由于n个离均差和为零,故只有n − 1个离均差自由可变,故样本方差 s2自由度为 n − 1。

方差相当于平均每例离均差平方变异的大小。方差既充分利用了资料中每一个数据的信息,又消除了样本例数的影响,因此在不同样本之间可相互比较其离散程度。同类资料比较时,方差越大意味着数据间离散程度越大,或者说变异越大。

(四)标准差

方差的单位是原度量单位的平方,不利于进一步统计处理,为此常用其算术平方根,即标准差描述数据分布的离散程度。标准差的量纲与原变量一致。与方差类似,标准差也只取正值。同类资料比较时,标准差越大意味着个体间变异越大。标准差适合用来表达对称分布的离散趋势。标准差(standard deviation,s)的计算公式为:

(五)变异系数

变异系数也称为离散系数,即标准差与算术均数之比,记为CV。它描述了观察值的变异相对于其平均水平的大小,其计算公式为:

其中s为样本标准差,为样本均数。变异系数CV的意义是标准差(s)为均数的多少倍,因此没有单位,常被表示为百分数形式。

变异系数大意味着相对于均数而言的相对变异较大。变异系数主要用于量纲不同的变量间,或均数差别较大的变量间变异程度的比较。

三、定量数据的统计描述软件实现

(一)正态定量变量数据的统计描述

1.CHISS软件对正态定量变量数据的统计描述

利用红细胞记数实例,文件名为:b4-1.dbf。

(1)进入数据模块:

打开数据库。点击“数据”→“文件”→打开“数据库表”,找到文件名“b4-1.dbf”→“确认”。

(2)进入统计模块:

进行统计计算。点击“统计”→“ 统计描述”→“正态定量描述”,反应变量:红细胞计数。

(3)进入结果模块:

查看结果,点击“结果”,见表4-4。

表4-4 正态资料描述性统计量

注:数据来自文件b4-1.dbf。

2.SAS软件对正态定量变量数据的统计描述

统计描述结果如图4-12:

图4-12 SAS软件中正态资料描述性统计量结果

3.Stata软件中正态定量变量数据的统计描述

*导入样例b4-1的dta文件

import delimited E:\example\b4-1.csv,encoding(GBK)clear

*正态定量变量数据的统计描述,如图4-13

su 红细胞计数

图4-13 Stata软件中正态资料描述性统计量结果

4.SPSS软件对正态定量变量数据的统计描述

首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b4-1.sav”,点击“打开”。

第二,点击“分析”→“描述统计”→“描述”,弹出“描述”对话框,如图4-14所示,将“红细胞计数”填入变量中,勾选“将标准化值另存为变量”,点击“选项”,弹出“描述:选项”对话框,如图4-15所示,勾选“平均值”“总和”、离散对话框中的选项全部勾选。点击“继续”→“确定”。

图4-14 描述对话框

图4-15 描述选项对话框

显示结果如图4-16所示。

图4-16 SPSS软件中正态资料描述性统计量结果

(二)非正态定量变量数据的统计描述

例4-4

某市大气中SO2的日平均浓度,试进行统计描述。

1.CHISS软件对非正态定量变量数据的统计描述

此数据库已建立在文件夹中,文件名为:b4-2.dbf。

(1)进入数据模块:

打开数据库。点击“数据”→“文件”→打开“数据库表”,找到文件名“b4-2.dbf”→“确认”。

(2)进入统计模块:

进行统计计算。点击“统计”→“统计描述”→“非正态定量描述”。反应变量:fX;频数变量:f

(3)进入结果模块:

查看结果,点击“结果”。

(4)结果显示:

见表4-5。

表4-5 偏态资料描述性统计量

注:数据来自文件:b4-2.dbf。

2.SAS软件对非正态定量变量数据的统计描述

统计描述结果如图4-17:

图4-17 SAS软件中偏态资料描述性统计量结果

3.Stata软件对非正态定量变量数据的统计描述

*导入样例b4-2的dta文件

import delimited E:\example\b4-2.csv,encoding(GBK)clear

*非正态定量变量数据的统计描述,如图4-18

su 浓度[fweight = 天数],detail

4.SPSS软件对非正态定量变量数据的统计描述

此数据库已建立在文件夹中,文件名为:b4-2.sav。

首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b4-2.sav”,点击“打开”。

第二,点击“数据”→“个案加权”,弹出“个案加权”对话框,如图4-19所示,选择“个案加权系数”,将“天数”填入到频率变量中,点击“确定”。

图4-18 Stata软件中偏态资料描述性统计量结果

第三,点击“分析”→“描述统计”→“频率”,弹出“频率”对话框如图4-20所示,选择“显示频率表”,将“浓度”填入到变量中,点击统计,弹出“频率:统计”对话框,如图4-21所示,勾选“四分位数”“百分位数”,将百分位数“5”“25”“75”“95”分别填入,集中趋势中勾选“中位数”,离散中勾选“最大值”“最小值”,点击“继续”,选择“确定”。

显示结果如图4-22所示。

图4-19 个案加权对话框

图4-20 频率对话框

图4-21 频率统计对话框

图4-22 SPSS软件中偏态资料描述性统计量结果