统计分组(Statistical Grouping)
目录 |
根据统计研究任务的要求和研究现象总体的内在特点,把现象总体按某一标志划分为若干性质不同但又有联系的几个部分称“统计分组”。总体的变异性是统计分组的客观依据。统计分组是总体内进行的一种定性分类,它把总体划分为一个个性质不同的范围更小的总体。
分组体系与分组标志的选择:
1、统计分组体系
统计分组后所形成的一系列互相联系、互相补充的组的整体称分组体系。分组体系有平行分组体系和复合分组体系两种。平行分组体系是选择两个或两个以上的标志对总体进行一次次简单分组后所形成的体系;复合分组体系就是复合分组后形成的体系。
2、分组标志的选择
分组标志的选择是统计分组的关键。分组标志,即将同质总体区分为不同组的标准或依据。分组标志一旦选定,就必然突出了总体在该标志下的性质差别,其他的差别看不见了。分组标志选择不当,不但无法显示现象的根本特征,甚至会混淆事物的性质,歪曲社会经济的真实情况。
正确选择分组标志,必须根据统计研究的任务目的,抓住反映现象本质区别和内在联系的标志作为分组标志。
1、按其任务和作用不同,分为类型分组、结构分组和分析分组。
类型分组的目的是划分经济类型,结构分类的目的是研究同质总体的构成,分析分组的目的是研究现象总体内部诸标志间的依从和制约关系。
2、按分组标志的多少,分为简单分组和复合分组。
简单分组是将总体按一个标志进行分组,复合分组是将总体按两个或两个以上的标志重叠起来进行分组。
品质分组是将总体按品质标志进行分组,如企业按经济成份、地理位置分组,职工按性别、文化程度分组等;变量分组是将总体按数量标志进行分组,如企业按职工人数、劳动生产率分组,职工按工龄、工资分组等。
统计分组的基本作用有:
1、划分社会经济类型。统计分组是确定社会经济现象各种类型的基础,例如将工业企业按所有制的不同、按轻重工业划分,居民按城镇、农村划分,从而说明不同的经济类型的特点。一般来说,社会经济类型的分组多采用品质标志来划分。
1997年我国不同所有制单位职工及工资资料
工人数(万人) | 比重(%) | 工资总额(亿元) | 比重(%) | |
---|---|---|---|---|
国有经济单位 | 10765.9 | 73.40 | 7211.0 | 76.67 |
集体经济单位 | 2817.0 | 19.2 | 1253.4 | 13.33 |
联营经济单位 | 42.6 | 0.29 | 30.0 | 0.33 |
股份制经济单位 | 460.1 | 3.14 | 350.9 | 3.73 |
外商投资经济单位 | 290.4 | 1.98 | 293.4 | 3.12 |
港澳台投资经济单位 | 274.8 | 1.87 | 253.4 | 2.69 |
其他经济单位 | 17.5 | 0.12 | 12.2 | 0.13 |
合计 | 14668.3 | 100.0 | 9405.2 | 100.0 |
2、研究总体内部的结构。通过统计分组可以反映总体内部各部分之间的差别和相互关系,表明总体的内部结构。同时在各组的基础上计算各组所占总体的比重,从总体的构成上认识总体各部分的作用,并对总体作出正确的评价。
我国1987年和1997年从业人员按三次产业的分组
1987年 | 1997年 | |||
---|---|---|---|---|
从业人员数(万人) | 比重(%) | 从业人员数(万人) | 比重(%) | |
第一产业 | 31663 | 60.0 | 34730 | 49.9 |
第二产业 | 11726 | 22.2 | 16495 | 23.7 |
第三产业 | 9395 | 17.8 | 18375 | 26.4 |
合计 | 52784 | 100.0 | 69600 | 100.0 |
从表中可以看出 1987年~1997年从业人员的分布情况,通过分组表明了从业人员在三次产业中的分布,也显示了人员在三次产业中的结构比重,说明这10年间我国的产业结构发生了很大的变化。
3、分析现象之间的依存关系。社会经济现象之间存在着相互制约、相互联系的关系,通过统计分组可以根据现象间的影响因素和结果因素的对应更好地揭示现象之间的这种依存关系。
统计分组根据分组标志的性质,分为按品质标志分组和按数量标志分组。
品质标志上是说明事物的性质或属性特征的,它反映的是总体单位在性质上的差异,它不能用数值来表现。数量标志是直接反映事物的数量特征的,它反映的是事物在数量上的差异。如人口的年龄、企业的产值等。统计分组方法就是指这两种标志的具体分组方法。
1、品质标志分组方法
品质标志分组一般较简单,分组标志一旦确定,组数、组名、组与组之间的界限也就确定。有些复杂的品质标志分组可根据统一规定的划分标准和分类目录进行。
2、数量标质分组方法
按数量标志分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。数量标志分组方法从以下几个方面来说明:
对离散变量,如果变量值的变动幅度小,就可以一个变量值对应一组,称单项式分组。如居民家庭按儿童数或人口数分组,均可采用单项式分组。
离散变量如果变量值的变动幅度很大,变量值的个数很多,则把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。
也就是说,离散变量根据情况既可用单项式分组,也可用组距式分组。在组距式分组中,相邻组既可以有确定的上下限,也可将相邻组的组限重叠。
连续变量由于不能一一列举其变量值,只能采用组距式的分组方式,且相邻的组限必须重叠。如以总产值、商品销售额、劳动生产率、工资等为标志进行分组,就只能是相邻组限重叠的组距式分组。
在相邻组组限重叠的组距式分组中,若某单位的标志值正好等于相邻两组的上下限的数值时,一般把此值归并到作为下限的那一组(适用于连续变量和离散变量)。
组距式分组使资料的真实性受到一定程度的损害。组距式分组的假定条件是:变量在各组内的分布都是均匀的(即各组标志值呈线性变化)。
通过组距式分组以后,把各组内部各单位的次要差异抽象去了,而把各组之间的主要差异突出出来,这样,各组分配的规律性可以更容易显示出来。根据这个道理,如组距太小,分组过细,容易将属于同类的单位划分到不同的组,因而显示不出现象类型的特点;但如果组距太大,组数太少,会把不同性质的单位归并到同一组中,失去区分事物的界限,达不到正确反映客观事实的目的。因此,组距的大小、组数的确定应根据研究对象的经济内容和标志值的分散程度等因素,不可强求一致。
等距分组是各组保持相等的组距,也就是说各组标志值的变动都限于相同的范围。不等距分组即各组组距不相等的分组。
统计分组时采用等距分组还是不等距分组,取决于研究对象的性质特点。在标志值变动比较均匀的情况下宜采用等距分组。等距分组便于各组单位数和标志值直接比较,也便于计算各项综合指标。在标志值变动很不均匀的情况下宜采用不等距分组。不等距分组有时更能说明现象的本质特征。
3)组限和组中值
组距两端的数值称组限。其中,每组的起点数值称为下限,每组的终点数值称为上限。上限和下限的差称组距,表示各组标志值变动的范围。
组中值是上下限之间的中点数值,以代表各组标志值的一般水平。组中值并不是各组标志值的平均数,各组标志数的平均数在统计分组后很难计算出来,就常以组中值近似代替。组中值仅存在于组距式分组数列中,单项式分组中不存在组中值。
组中值的计算是有假定条件的,即假定各组标志值的变化是均匀的(与组距式分组的假定条件相同)。一般情况下,组中值=(上限+下限)÷2
对于第一组是 “多少以下”,最后一组是“多少以上”的开口组,组中值的计算可参照邻组的组距来决定。即:缺下限开口组组中值=上限—1/2邻组组距,缺上限开口组组中值=下限+1/2邻组组距。