从身高分布到马太效应
正态分布无处不在
上一年超模君在高考的前一天,押中了高考作文题。
现在距离紧张又刺激的高考,只剩下2天了。
看样子又到超模君蒙题的时刻,以下内容有可能是考试重点,请做好笔记:
某位不愿透露姓名的考生问到超模君,他现在考上清华还有希望吗?
超模君看了看他的近期成绩,Emmm...
这位考生近期模拟考的分数分别为580,600,680,620,四次考试的平均值为620分,标准差为37.4,而一个学生的成绩可以近似看做正态分布。
清华大学的分数线是680分,把它在上图标出来:
上图阴影的面积为0.03,也就是说考上清华大学的概率为3%。
所以超模君的建议是:
其实除了高考成绩外,我们的生活中还有许多这样的例子,比如:
身高
人的IQ分布
正态分布的前世今生
正态分布概念是由德国的数学家和天文学家棣莫弗(Moivre)于1733年首次提出,但当时他并没有正态分布更多的应用成果,所以并没有什么名气。
后来,德国数学家高斯(Gauss)率先将其应用于天文学家研究,这时候正态分布才引起了人们的广泛重视,因此正态分布又叫高斯分布。
左:棣莫弗 右:高斯
到了19世纪,高尔顿和凯特勒把正态分布用在了其他学科上,他们用实际的行动开拓了应用统计学,为数理统计学的产生奠定了基础。
在他们两人的影响下,正态分布获得了普遍认可和广泛应用(甚至是滥用)。
左:高尔顿 右:凯特勒
那么这么厉害的正态分布到底讲的是什么呢?别急,我们先来看看高尔顿是怎么研究的。
1877 年,高尔顿设计了一个叫高尔顿钉板的实验,模拟正态分布的性质:
实验视频只需14秒!
高尔顿钉板试验内容:
有一块贴在墙上的木板,木板上有一些水平钉子,它们彼此的距离均相等。让一些小球从木板上方的入口处自由落体,经过一次次碰撞后,这些小球最终掉落到下方的竖槽中。
知道了实验内容后,我们来看看高尔顿钉板实验的细节:
弹珠往下滚的时候,撞到钉子就会随机选择往左边走,还是往右边走:
这些小球最终的分布位置如下图:
像这种左右对称,两头低,中间高的曲线我们称它为正态分布,又因其曲线呈钟形,人们又经常叫它钟形曲线。
为什么正态分布会如此常见呢?
咳咳,接下来就是今天内容的重点了(敲黑板)!
这个问题可以用中心定理(central limit theorem)来回答:在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。
中心极限定理提出者——棣莫弗
这个定理可以这么理解:
生活中各种各样的因素就像高尔顿钉板实验中的钉子一样,对我们各个方面产生了大大小小的影响,使得最后的结果分布趋近于正态分布;
但中心定理并不是万能的,他拥有两个很重要的前提:
首先,第一个前提就是取样需要随机。
这个前提相信大家可以很好地理解,如果我们抽取的人的时候,只抽抽长的高的或者只抽取长得矮的人,那么结果自然不符合正态分布。
第二,影响结果的因素是相互独立或者是相互影响比较小的。
也就是说,如果影响结果的因素之间并没有太大的关系,那么这些因素可以看成是相互独立的,这样结果才能符合正态分布。
以身高为例,影响一个人长高的因素有很多,例如:
父母长得高还是矮
营养是否跟得上
是否热爱运动
......
等等
父母长得高还是矮对营养的补充没有很大的关系,跟是否热爱运动也没有关系,所以可以看成是相互独立的因素,所以身高的人群分布曲线自然就符合正态分布。
这时刻可能有人会问,如果这些因素不独立,甚至是有紧密的联系会怎么样呢?
我们来看看下面这个例子:人均财富分布(马太效应)。
从下图可以发现:富人的有钱程度(可以一直向x轴右端延伸)远远超出穷人的贫穷程度,即财富分布曲线有右侧的长尾。
人均财富分布图
这是因为导致财富差距的因素比如教育资源,家庭背景,工作单位相互影响,并不独立。
如果一个人家庭背景不错,那么他大有机会获得好的教育资源,从而选择更好的工作。
这么来看的话,家庭,教育,工作3个因素产生了1+1+1>3的结果;而相互独立的因素应该是1+1+1=3(加法)。
这就导致图像并没有出现正态分布。
但是后来统计学家们发现,既然这些因素相互影响,那么完全可以把这些相互影响的因素看做乘法,接下来我们通过对数把乘法转换为加法。
这里需要补一点高中的数学识:
大家在高中的时候都学过对数,对数有一个独特的性质——可以把乘法变成加法。(如下图所示)
把乘法变成加法后,不就可以看成结果是是由一个个独立的因素影响的吗?
因此我们对之前的数据取自然对数,结果就接近于正态分布了:
这就是正态分布的一个衍生——对数正态分布。
总的来说,正态分布解释了自然界中大部分常见的分布问题,但事情的结果往往还是由自己决定的。
3%离100%的成功还差了32倍的汗水和付出。
如果想在高考(或者考研,国考)这个战场上取得更好的成绩,走进更好的学术殿堂,那么还是需要不断地提升自己,减小随机性(标准差)。