什么是正态分布,为什么它很重要? 正态分布是说,在平均值附近观察到特定数据值的概率最大,并且随着与平均值的差值 的 增加而迅速减小。多快取决于一个叫标准差的量。 数学是模式的科学。概率的随机作用远非我们直觉理解的那样。目前关于“随机”的定义是:
没有任何可识别的模式。
几个世纪以来,数学家们一直在研究几何、代数和分析中的数学模式,他们意识到,即使是随机性也有它自己的模式。但是,“随机事件的模式”与“随机事件没有模式”的观点并不冲突,因为随机事件的规律是统计意义的。例如,如果你反复多次掷一个骰子,那么大约有六分之一的次数掷到1,这是一个清晰的统计模式。但这并不能告诉你下一次投掷时,哪个数字会出现。 直到19世纪,数学家和科学家才意识到统计模式(规律)在偶然事件中的重要性。甚至人类的行为,如自杀和离婚,也受到数量法则的影响。这似乎与自由意志相抵触。但今天,这些统计规律构成了医学试验、社会政策、保险费用、风险评估和职业规划的基础。 这一切都是由赌博学者吉罗拉莫·卡达诺引起的。卡达诺是个“不学无术”的人,他通过下国际象棋和赌博来赚钱。他将自己强大的才智应用于这两方面。国际象棋并不取决于运气。然而,在赌博中,运气似乎是主要的“实力”。卡达诺意识到,即使在赌博中,他也可以发挥出自己的数学才能。他就此主题写了一本书,名为《概率游戏(博弈)之书》,这是第一次系统地讨论数学概率的书。 概率游戏引起了布莱斯·帕斯卡的注意。他和费马 曾 就一个与赌博有关的数学问题互相写信。在此过程中,他们创造了一个新的数学分支:概率论。概率论中的一个核心概念就是我们现在所说的“期望”,这是玩家长期的平均收益。
帕斯卡与费马
1713年,当雅各布·伯努利发表了他的《猜想的艺术》时,概率论成为数学中一个成熟的领域。他从事件概率的“工作定义”开始:
从长远来看,在任何时候,事件发生的几率。
这里用“工作定义”,因为如果试图让它成为基础的话,会出现问题。例如,假设有一枚均匀的硬币,多次抛掷,大多数情况下,得到的是一个看起来随机的正面和反面的序列。如果持续投掷足够长的时间,大约有一半的时间会得到正面。然而,很少会恰好有一半的时间是正面朝上,例如,在奇数次投掷中,这是不可能的。我从微积分中得到灵感来修改定义, 但有时极限并不存在。例如,假设正面和反面的顺序是
抛掷得到“人头”朝上的概率等于抛掷次数趋于无穷时,抛掷得到“人头”朝上的概的极限,我们要证明这个极限存在。
一次反面,两次正面,3次反面,6次正面,12次反面,以此类推。3次反面之后,每个阶段的数字都翻倍。投掷三次后,正面的比例是2/3,6次后是1/3,12次后是2/3,24次后是1/3,所以这个比例来回摆动,在2/3和1/3之间,因此没有明确的极限。 而且这样的投掷结果序列是非常不可能的,但为了定义“不可能”,我们需要定义概率。所以逻辑是循环的。此外,即使极限存在,它也可能不是1/2的“正确”值。一个极端的情况是硬币落地时总是正面朝上(极限是1)。同样,这是 极 不可能的。 伯努利决定从相反的方向来研究这个问题。首先定义正面和反面出现的概率为0到1之间的p。如果硬币是均匀的,那么p=1/2,否则不是1/2(有偏差)。伯努利证明了一个基本定理,大数定律。 大数定律指出,如果抛掷次数足够多,正面朝上的概率确实有极限,极限是p。从哲学上讲,这个定理表明,通过以一种自然的方式分配概率(即数字)是合理的。所以伯努利的观点是,作为概率的数字提供了一个一致的数学模型来描述一遍又一遍抛硬币的过程。 他的证明基于帕斯卡三角: 其中所有行都以1开始和结束,每个数字都是它上面两个数字的和。我们现在称这些数字为二项式系数,因为它们出现在二项式表达式(p + q)^n的代数中。也就是说:
伯努利的关键观点是,如果我们抛n次硬币,得到正面的概率是p,那么抛掷特定次数得到正面的概率是(p + q)^n的对应项,其中q = 1 − p。什么意思呢? 例如,假设我抛硬币三次。那么 八个 可能的结果是: 根据正面出现的次数对序列进行分组。所以在这八个可能的序列中,有:
三次正面
两次正面
一次正面
零次正面
这种与二项式系数的联系并非巧合。如果你展开代数公式(H + T)^3,会得到: 指数表示为: 然后,用概率p或q替换H和T。 即使在这种情况下,每一个极端的HHH和TTT只在8个试验中出现一次。使用二项式系数进行更复杂的计算,可以证明伯努利大数定律。 当数学家们不知道如何计算一些重要的东西时,他们会找到一种方法来间接地靠近它。举个例子,你想知道投掷100次硬币得到42次正面的概率,你必须做200次乘法然后简化一个非常复杂的分数。我的电脑瞬间就告诉我答案,是 但伯努利没有电脑。 这种直接计算是不可行的。大约在1730年,亚伯拉罕·德·莫弗尔推导出了一个关于重复投掷“不均匀硬币”的概率的近似公式。这引出了误差函数或正态分布,由于其形状,通常被称为“钟形曲线”。他证明了,用公式定义均值μ、方差σ^2的正态分布Φ(x): 对于投掷n次不均匀硬币(n是大数),得到m个正面的概率非常接近Φ(x),当 这里的“均值”指的是平均值,而“方差”指的是数据分布的范围——钟形曲线的宽度。方差的平方根,σ本身,称为标准差。下图显示了Φ(x)的值如何依赖于x。 曲线看起来有点像钟形。钟形曲线是概率分布的一个例子;这意味着,在两个给定值之间获得数据的概率等于曲线下和与这些值对应的垂直线之间的面积。曲线下的总面积是1。 当钟形曲线开始出现在社会科学的经验数据中时,它开始得到重视,而不仅仅是理论数学。1835年,比利时人阿道夫·奎特雷是社会学定量方法的先驱,他收集和分析了大量的数据,包括犯罪、离婚率、自杀、出生、死亡、身高、体重等,这些变量没有人认为会符合任何数学模式,因为它们的原因太复杂,涉及到人类的选择(自由意志)。认为这可以简化成一个简单的公式似乎很可笑 如果你想准确预测谁会自杀,以及何时自杀,显然是不可能的。但当奎特雷专注于统计问题时,例如不同人群、不同地点、不同年份的自杀比例,他开始看到模式。这些是有争议的:如果你预测明年某个地方将有六起自杀事件,当每个人都有自由意志时,这又有什么意义呢?他们都可能改变主意。但是自杀的人所构成的人口数量并没有事先明确说明;这不仅是那些自杀的人所做选择的结果,也是那些想过自杀但没有自杀的人所做选择的结果。人们在许多其他事情的背景下行使自由意志,这些事情影响着他们的自由决定:这里的约束包括经济问题、关系问题、精神状态、宗教背景……无论如何,钟形曲线不能做出准确的预测;它只是说明哪个数字最有可能。可能会发生五到七起自杀事件,这给任何人都留下了施展自由意志和改变主意的空间。 数据最终赢得了胜利。无论出于什么原因,人们的集体行为比个人行为更容易预测。也许最简单的例子就是身高。当奎特雷绘制给定人群的身高比例时,他得到了一条漂亮的钟形曲线。他对许多其他社会变量得出了同样的曲线形状。 钟形曲线迅速成为概率论的标志,特别是统计学。主要有两个原因:一是钟形曲线的计算相对简单,二是它在实践中的应用。这种思维方式的主要来源之一是18世纪的天文学。由于仪器的微小变化,人为的误差,或者仅仅是大气中气流的运动,观测数据都会出现误差。那个时期的天文学家想要观察行星、彗星和小行星,并计算它们的轨道,这就需要得到最符合数据的轨道。 这个问题的实际解决办法首先出现了。它归结为:在数据中选择一条直线,使总误差尽可能小。这里的误差必须是正的,简单方法是将其平方。所以总误差是观测值与直线模型偏差的平方和,期望的直线使其最小化。 1805年,法国数学家阿德里安-玛丽·勒让德发现了这条线的一个简单公式,使得计算起来很容易。这个公式被称为最小二乘法。下图说明了关于压力和血压的人工数据的方法。 图中使用勒让德公式得出的直线。不到十年,最小二乘方法就成为法国、普鲁士和意大利天文学家的标准方法。又过了20年,它成了英国的标准。 高斯将最小二乘方法作为他在天体力学领域研究的基石。1801年,他成功预测了小行星谷神星的存在。这一预测奠定了他在数学和天文学上的声誉,并使他成为哥根廷大学的天文学教授。高斯并没有使用最小二乘来做这个特殊的预测,他的计算归结为求解一个八次代数方程。但在1809年的《天体绕太阳作二次曲线运动的运动理论》中,他把重点放在了最小二乘法上。他还说,早在勒让德10年前,他就提出并使用了这个方法,这引起了一些争议。 为什么观测误差应该是正态分布的?1810年,拉普拉斯给出了一个惊人的答案。拉普拉斯利用傅里叶变换证明了许多观测值的平均值可以用钟形曲线来描述,即使个别观测值并非如此。他的结果,中心极限定理,是概率论和统计学的一个重要转折点,因为它为数学家最喜欢的分布——钟形曲线——分析观测误差提供了理论依据。 中心极限定理指出钟形曲线是唯一适合于多次重复观测的均值的概率分布。因此,它被称为“正态分布”。1865年,弗朗西斯·高尔顿研究了孩子的身高与其父母的身高之间的关系。这是一个更大的目标:理解遗传。证明中心极限定理很困难,因为中心极限定理是一把双刃剑。奎特雷发现了一个关于身高的漂亮的钟形曲线,但这似乎并没有显示出影响身高的不同因素,因为中心极限定理预测了正态分布,不管这些因素的分布是什么。即使父母的特征是这些因素之一,他们也可能被其他因素所覆盖——例如营养、健康、社会地位等等。
高尔顿
然而,到了1889年,高尔顿找到了摆脱这种困境的方法。拉普拉斯中心极限定理的证明依赖于平均许多不同因素的影响,但这些因素必须满足一些严格的条件。1875年,高尔顿将这些条件描述为“高度人为的”:
它们的作用都是独立的;
都是相等的(具有相同的概率分布);
所有人都承认自己被视为“高于平均水平”或“低于平均水平”的简单替代品;
假设影响变量是无穷多的。
这些条件都不适用于人类遗传。条件(4)对应于拉普拉斯的假设,即被加因子的数目趋于无穷大,所以“无穷大”有点夸张;然而,数学所建立的是为了得到一个很好的正态分布的近似,必须结合大量的因素。每一个因素对平均值的贡献很小。比方说,有100个因素,每个因素贡献了其价值的百分之一。每一个单独的实验都没有显著的效果。 中心极限定理为正态分布提供了一个充分条件,而不是一个必要条件。即使它的假设失败,由于其他原因,有关的分布可能仍然是正态分布。高尔顿的任务就是找出这些原因。要想与遗传联系起来,它们必须适用于少数大而不同的影响的组合,而不是大量的无关紧要的影响。他慢慢地摸索着找到了解决办法,并通过两个实验找到了答案。 这两个实验都可以追溯到1877年。其中一种是设置一个装置,在这种装置中,滚珠从斜坡上掉下来,撞到一排柱上,向左或向右的几率相等。理论上,球应该根据二项分布在底部堆积起来,所以它们应该形成一个大致钟形的堆。 他想象当球的一部分下落时,它们仍然会形成一个钟形曲线,但这个钟形更窄。这意味着最终的大钟形曲线可以被看作是许多小曲线的总和。当多个因素(每个因素都遵循其独立的钟形曲线)组合在一起时,钟形曲线就会自我复制。 当高尔顿培育出豌豆时,关键时刻到来了。1875年,他把种子分给了七个朋友。每个人都收到了70粒种子,但重量都不同。1877年,他测量了这七组种子的“后代”。每一组都是正态分布,但每一组的平均重量不同,与原始组中每个种子的重量相当。当他将所有组的豌豆合并后,结果再次呈正态分布,但方差更大——钟形曲线更宽。这再次表明,组合几个钟形曲线会产生另一个钟形曲线。高尔顿找到了这一现象的数学原因。假设两个随机变量都是正态分布,均值和方差不一定相同。它们的和也是正态分布的;它的均值是两个均值之和,它的方差是两个方差之和。
高尔顿豌豆实验史料
这个定理适用于少量的因子组合,每个因子可以乘以一个常数,所以它适用于任何线性组合。正态分布是有效的,即使每个因素的影响都很大。现在高尔顿可以看到这个结果是如何应用到遗传上的。假设由孩子身高给出的随机变量是父母身高相应随机变量的组合,这些随机变量是正态分布的。假设遗传因素是相加的,那么孩子的身高也会呈正态分布。 随着钟形曲线的中心作用被牢牢地固定在当时被认为是坚实的基础上,统计学家可以以高尔顿的观点为基础,其他领域的工作者也可以应用这些结果。社会科学是早期的受益者,生物学紧随其后,而由于勒让德、拉普拉斯和高斯,物理科学已经走在了前面。很快,任何想要从数据中提取模式的人都可以使用完整的统计工具箱。我将只关注一种技术,因为它经常被用于确定药物的有效性,以及许多其他应用。它被称为假设检验,其目标是评估数据中明显模式的重要性。它是由四个人建立的:英国人罗纳德·艾尔默·费雪、卡尔·皮尔森和他的儿子埃根,以及一个生于俄罗斯、在美国度过了大部分时间的波兰人杰西·内曼。 在公众意识中,“钟形曲线”一词与两位美国人——心理学家理查德·J·赫恩斯坦和政治学家查尔斯·默里在1994年出版的争议性著作《钟形曲线》有着不可避免的联系。这本书的主题是宣称用智商衡量的智力与收入、就业、怀孕率、犯罪率等社会变量之间的联系。作者认为,智商水平比父母的社会和经济地位或教育水平更能预测这些变量。 争论是不可避免的,无论这本书的学术功过如何,因为它触及了一根敏感的神经:种族和智力之间的关系。媒体报道倾向于强调智商差异主要源于遗传,但这本书对这种联系持谨慎态度,并对基因、环境和智力之间的相互作用持开放态度。另一个有争议的问题是,一项分析表明,美国的社会分层在整个20世纪显著增加,而主要原因是智力的差异。另一项是一系列处理这一所谓问题的政策建议。一是减少移民,书中称移民降低了平均智商。也许最具争议性的建议是,据称鼓励贫困妇女生育的社会福利政策应该停止。 具有讽刺意味的是,这个想法要追溯到高尔顿本人。他在1869年出版的《遗传天才》提出了这样一个观点:“人类的自然能力是在与整个有机世界的形式和物理特征完全相同的限制下,由遗传得来的。”因此,在连续几代中,通过明智的婚姻来产生一个具有高度天赋的男性种族是相当可行的。他断言智商较低的人生育能力更高。相反,他表达了社会可能会发生变化的希望,让更聪明的人理解多生孩子的必要性。 把数学模型当作现实来看待是错误的。在物理科学中,模型通常非常符合现实,这可能是一种方便的思考方式。但在社会科学中,模型往往比漫画好不了多少。仅仅因为智商具有数学谱系,就认为它是对人类能力的某种精确衡量,这种观点也犯了同样的错误。把广泛的、极具争议的社会政策建立在简单化、有缺陷的数学模型之上是不明智的。 概率论被广泛应用于新药和治疗方法的医学试验中,用来检验数据的统计意义。测试通常基于底层分布是正态分布的假设。一个典型的例子是癌症群集的检测。对某些疾病而言,群集是指该疾病在总人口中发生的频率高于预期的群体。集群可能是地理上的,也可能是指具有特定生活方式或特定时期的人。例如,退休的职业摔跤手,或者1960年到1970年出生的男孩。 从赌博问题中衍生出来的统计方法有多种用途。它们为分析社会、医疗和科学数据提供了工具。任何使用统计方法的人都需要了解这些方法背后的假设及其含义。盲目地将数字输入计算机,并把结果当作真理,而不理解所使用方法的局限性,这将导致灾难。然而,合法使用统计数字已使我们的世界得到了翻天覆地的改善。这一切都始于奎特雷的钟形曲线。