离散趋势(Tendency of Dispersion)
目录 |
离散趋势是指一组数据背离分布中心值的特征,反映各变量值远离其中心值的程度。
计量资料的频数分布有集中趋势和离散趋势两个主要特征。仅仅用集中趋势来描述数据的分布特征是不够的,只有把两者结合起来,才能全面地认识事物。我们经常会碰到平均数相同的两组数据其离散程度可以是不同的。一组数据的分布可能比较集中,差异较小,则平均数的代表性较好。另一组数据可能比较分散,差异较大,则平均数的代表性就较差。描述一组计量资料离散趋势的常用指标有极差、四分位数间距、方差、标准差、标准误和变异系数等,其中方差和标准差最常用。
极差又称全距,是指一组数据的观察值中的最大值和最小值之差。用公式表示为:
极差=最大观察值-最小观察值
极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。两组数据的最大值和最小值可能相同,于是它们的极差相等,但是离散的程度可能相当不一致。由此可见,极差往往不能反映一组数据的实际离散程度,极差所反映的仅仅是一组数据的最大的离散值。
平均差是指一组数据中的各数据对平均数的离差绝对值的平均数。一组数据中的各数据对平均数的离差有正有负,其和为零,因此平均差必须用离差的绝对值来计算。平均差愈大,表示数据之间的变异程度越大,反之则变异程度越小。计算公式为:
平均差用绝对值来度量,虽然避免了正负离差的相互抵消,但不便于运算。一般情况下,可用方差来度量一组数据的离散性。方差通常用字母σ2来表示。其计算公式为:
为了使统计量的单位同观察值的单位相一致,通常将方差开平方,即得到标准差σ,标准差也称为均方差。其计算公式为:
由定义可知,方差和标准差所反映的是一组数据对其均值为代表的中心的某种偏离程度。从定义可知,标准差(或方差)较小的分布一定是比较集中在均值附近的,反之则是比较分散的。标准差的缺点是计算起来比较麻烦。标准差也是根据全部数据来计算的,但是它也会受到极端值的影响。标准差的计算要比平均差方便,因此,标准差是描述数据离散趋势最常用的统计量。
在统计中我们通常用\sigma^2和\sigma分别表示总体的方差和标准差。当总体中的个体数很大,希望通过抽样,用样本标准差来估计总体的标准差时,就需要计算样本的方差和标准差。仅需要对总体方差和标准差的计算公式作一些调整即可。样本的方差和标准差分别记作S^2和S,其计算公式如下:
标准差的概念在统计上具有重要的作用。对于任意一个总体,在确定了标准差以后,就可以精确地确定总体中的单位落在平均数两侧某个范围内的频率大小。对于正态分布的情形,在下一小节中,我们将介绍数据落在某个特定范围内概率的大小及其意义。
标准差是表示所有数据离散性大小的一个绝对值,其度量单位与原数据的度量单位相同。因此,标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较有时就显得不合适了。例如一个总体的标准差是10,均值是lO0。如果另有一个总体的标准差是20,均值是2000。如果直接用标准差来进行比较,后一总体的标准差是前一总体标准差的2倍,似乎前一总体的分布集中,而后一总体的分布分散。但前一总体用标准差来衡量的各数据的差异量是其均值的1/10;后一总体用标准差来衡量的各数据差异是其均值的1/100,是微不足道的。可见用标准差与均值的比值大小来衡量不同总体数据的分散程度更合理。统计上把这一比例称为变异系数。变异系数是一个表示标准差相对于平均数的大小的相对量,即标准差相对于均值的百分比,其计算公式如下:
离散系数=×100%
其中,σ为数据的标准差,μ为数据的平均值。