频数分布(Frequency Distribution)
目录 |
频数也称“次数”,对总数据按某种标准进行分组,统计出各个组内含个体的个数。我们把各个类别及其相应的频数全部列出来就是“频数分布”或称“次数分布”。
在日常生活和经济管理中,常见的频数分布曲线主要有正态分布(对称分布)、偏态分布(skewed distribution)、J形分布、U形分布等几种类型,如下图所示:
正态分布是一种对称的钟形分布,有很多现象服从这种分布,如农作物的单位面积产量、零件的公差、纤维强度等都服从正态分布,如图(a)。J形分布有正J形和反J形两种,如经济学中供给曲线,随着价格的提高供给量以更快的速度增加,呈现为正J形;而需求曲线则表现为随着价格的提高需求量以较快的速度减少,呈现为反J形。U形分布的特征是两端的频数分布多,中间的频数分布少,比如,人和动物的死亡率分布就近似服从U形分布,因为人口中婴幼儿和老年人的死亡率较高,而中青年的死亡率则较低;产品的故障率也有类似的分布。
频数分布的两个特征:集中趋势(central tendency)和离散趋势(tendency of dispersion)。
1、集中趋势
大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。
2、离散趋势
频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。
①将原始资料按其数值大小重新排列
只有把得到的原始资料按其数值大小重新排列顺序,才能看出变量分布的集中趋势和特点,为确定全距、组距和组数作准备。
②确定全距
全距是变量值中最大值和最小值的差数。确定全距,主要是确定变量值的变动范围和变动幅度。如果是变动幅度不大的离散变量,即可编制单项式变量数列,如果是变量幅度较大的离散变量或者是连续变量,就要编制组距式变量数列。
③确定组距和组数
前面已经介绍过组距数列有等距和不等距之分,应视研究对象的特点和研究目的而定。
组距的大小和组数的多少,是互为条件和互相制约的。当全距一定时,组距大,组数就少;组距小,组数就多。在实际应用中,组距应是整数,最好是5或10的整倍数。在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组距的同质性,尤其是对带有根本性的质量界限,绝不能混淆,否则就失去分组的意义。
在等距分组条件下,存在以下关系:
组数=全距/组距
④确定组限
组限要根据变量的性质来确定。如果变量值相对集中,无特大或特小的极端数值时,则采用闭口式,使最小组和最大组也都有下限和上限;反之,如果变量值相对比较分散,则采用开口式,使最小组只有上限(用“××以下”表示),最大组只有下限(用“××以上”表示)。如果是离散型变量,可根据具体情况采用不重叠组限或重叠组限的表示方法,而连续型变量则只能用重叠组限来表示。
在采用闭口式时,应做到最小组的下限低于最小变量值,最大组的上限高于最大变量值,但不要过于悬殊。
⑤编制变量数列
经过统计分组,明确了全距、组距、组数和组限及组限表示方法以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中。