1938 年 3 月,美国工程师和物理学家弗兰克·本福特(Frank Benford)发表了《反常数定律》(“The Law of Anomalous Numbers”)一文,他在这篇文章中分析了来自两万多个不同观察源的数字数据。
在他的列表中,我们可以看到世界各地河流的长度、美国不同城市的人口、已知原子质量的测定值、新闻报纸上随机获取的数字,甚至还有数学常数。对于所有这些数据,本福特每次得到的观察结果都和我们的一样:首位数字分布不均衡。这条定律的影响之大,能让我们在毫无意识的情况下不断地复现它。
走进弗兰克·本福特刚刚为我们打开的世界游逛一圈,等你从中出来的时候不可能还是原来的样子。本福特定律改变了你。一旦你理解了它,你就再也不会以同样的方式思考了。
如果你有一台旧计算机,它因为多年的频繁使用而变得破旧,那么你可能会注意到键盘上键帽的破旧程度并不完全相同。E 键和空格键通常老化得更厉害,不像 $ 键或 ù 键,经过多年的使用之后看起来依然很新。
这一点儿也不奇怪。有些键是最常用的键,对应法语中最常出现的字母。在一份没有特殊风格的普通文本中,E 占去了所用字母中的15.87%,约为仅占 0.24% 的字母 Y 的 66 倍。我们可以在售卖备用部件的网店买到单个的替换键帽。你会毫不意外地看到,销售量最高的替换键帽是 E 键,A 键和 N 键紧随其后。
这种使用不均的现象存在于不同的领域之中。弹吉他的人会看到,琴弦因自己弹奏曲目中和弦使用频率的高低而出现不同程度的磨损。通往较高楼层的电梯按钮通常会磨损得更厉害,因为一楼或二楼的住户会更常选择走楼梯。绝大多数四色圆珠笔在被丢弃的时候,绿色和红色的笔芯仍然是满的——蓝色和黑色最先用完。
出于同一效应,过去几个世纪的科学家发现,他们所用对数表的最前面几页,无一例外要比最后几页磨损得更快。换言之,以 1、2 或 3开头的数被查找的频率要高于以 7、8 或 9 开头的数,而科学家们对小的数并没有任何有意识的偏好,这就好像是大自然亲自在给予科学家去研究的数中造就了这种不平衡。
这一观察结果本该引起科学家的注意,但很可惜,他们中的大多数人并不认为这种现象值得研究。倘若不去寻找显而易见之事,人们就会很容易看不到它。在三个世纪里,本福特定律实际上就摆在世界各地科学家们的眼前,但没有一个人看到它。
直到 19 世纪末,一只羞怯的手才开始揭开这张神秘的面纱。1881 年 12 月,加拿大裔美国天文学家和数学家西蒙·纽科姆(Simon Newcomb)发表了一篇题为《关于不同数字在自然数中使用频率的记录》(“Note on the Frequency of Use of the Differents Digits inNatural Numbers”)的文章。这篇发表在《美国数学杂志》(AmericanJournal Of Mathematics)上的文章只有短短两页。纽科姆注意到他所用对数表页面磨损程度的不均,于是出于好奇提出了前几个数的分布问题,并用几行字做出了解答。
可惜的是,他的发现几乎无人问津。
必须承认,这种现象背后的数学原理非常简单,而且不太值得专家的关注。然而,重要的不是计算,而是这些计算告诉我们的有关这个世界的信息。1881 年,似乎没人意识到,西蒙·纽科姆的发现如同把聚光灯照在宇宙背后转动的一个巨大齿轮上。直到五十多年后,弗兰克·本福特才意识到这一发现的博大之处,并为它撰写了一篇二十来页的文章。
尽管篇幅很短,但纽科姆的文章很有启发性,值得我们为它停留片刻。文章的结论很简单:世间的数是均匀分布的,而且是从乘法角度来看的均匀分布!
因此,在一张源自任意一种自然现象的数据列表中,介于 1 和 2 之间的数会和介于 2 和 4 之间以及介于 4 和 8 之间的数一样多(图 1.22)。这种现象仅仅是因为数与数的距离在乘法上是相等的,即从一个数到其 2 倍的数的区间。自然而然地,以 1 或 2 开头的数就会比以 7、8或 9 开头的数要多。
显然,如果数中的首位数字看起来分布不均,那是因为我们没有去看应该看的信息:均匀分布的是这些数的对数。看看你在超市里记录的价格清单、太阳系行星的直径,或是世界上河流的长度,然后找到它们的对数。你会发现以 1、2、3、4、5、6、7、8 或 9 开头的数同样多。纳皮尔的对数成功地转换了数的乘法分布,并将这种规律引入加法之中。
基于这一观察结果,西蒙·纽科姆计算出首位数字应当具有的理论分布。幸甚,幸甚!这种理论分布与弗兰克·本福特在五十年后发现的真实分布奇迹般地吻合了(图 1.23)。在理论与具体实验的结果相符时,科学家会感到异常高兴。现在我们可以确信自己清楚地了解了发生的事情。
只剩下最后一个问题了。是的,这个世界青睐乘法,但为什么?为什么现实似乎在所有的情况下都偏爱这种分布呢?同样地,答案并不存在于大自然中,而是存在于人类对大自然的观察偏差之中。鉴于本福特定律所具有的普遍性,它没有任何理由要取决于我们看待它的方式。
例如,法国的地理学家以公里为单位丈量河流,而英国的地理学家则以英里为单位丈量河流。因此,根据你的所在地是位于英吉利海峡的这一边还是那一边,尼罗河的长度要么是 6650 公里(以 6 开头),要么是 4130 英里(以 4 开头)。而世界上所有的河流,其长度的首位数字都会根据所采用的计量单位是法式的还是英式的而发生改变。有人可能会认为,这种计量单位的改变会颠覆首位数字的整体分布,让英国学者使用对数表的方式不同于法国学者的使用方式。但情况并非如此。公里和英里都是人类的发明,而大自然并不在乎我们使用哪种计量单位去测量它。从法国或英国的角度去看,每一条被分别丈量的河流,其长度不会有相同的首位数字,但如果我们制定出世界上河流长度的完整列表,则首位数字的总体分布应当会保持不变。
换言之,本福特定律应该是不变的。就像美索不达米亚式乘法的结果,就算没有零和小数点也依然会保持不变;就像字母 E 在一个足够长的文本中所占的比例始终会是大约 15%,无论文本的内容为何。无论我们使用什么方法去测量自然和收集数据,首位数字的分布都会保持不变。
如果你打算在世界不同国家的超市里进行统计的话,你会发现,本福特定律不会在乎你是以欧元、人民币、美元还是第纳尔来计算。无论使用哪种货币,这条定律都不会发生变化。
计量单位的改变,无论是把公里转换成英里,还是把欧元转换成第纳尔,或是其他的单位转换,都是一种乘法。一条河流的长度是另一条河流的两倍,无论采用哪种计量单位,这个长度的两倍都不会改变。一种价格比其他产品贵三倍的奶酪,无论使用哪种货币,它的价格始终都贵三倍。计量单位改变了,乘法的差距不变。因此,在任意数据列表中,我们都会发现介于 1 和 2、2 和 4 或 4 和 8 之间的数比例是相同的。所以,我们需要关注的是这种乘法的差距。
这就是为什么世界是乘法的。这就是为什么对数标度如此适切。这就是为什么我们的数字系统会不断误导我们的直觉。而这也是为什么本福特定律会是真实、美丽而又放之四海皆准的。
在随后的几年中,本福特定律在各处都得到了具体的应用。
美国经济学家哈尔·瓦里安(Hal Varian)在 1972 年提出用本福特定律来检测舞弊。原理很简单:当舞弊者把一份数据列表篡改成利于自己的时候,他们会露出马脚。也就是说,他们伪造的数据会有不同的首位数字分布。尤其是,伪造的数据会更频繁地以 5 或 6 开头,这与本福特定律不符。这或许是因为舞弊者倾向于认为,相较于以 1 或 9开头的数,一个中等大小的数看起来不会那么可疑,或是更正常。尽管如此,这种偏差仍会导致首位数字中的 5 和 6 远远多于应有的数量。这种偏差的幅度可以用来估算潜在舞弊者的数量。例如,这种方法被用来追踪税务申报中的统计异常,或发现选举时操纵选票的行为。
但我们必须承认:如果排除几种不同的应用,本福特定律在我们的日常生活中并没有重大的影响。知道超市货品的价格遵循这一定律很有趣,但其实没有太大用处;知道各国的人口、世界上的河流或天空中的天体都遵循这一定律,也没有太大用处。“没用处”究竟是好是坏,由你来定夺。
但是,我们因好奇而踏足的这条道路上充满了惊喜。当然了,出于纯粹的智力挑战,出于体验数学的形式之美,出于让我们的思维变得多姿多彩,不带任何期待地去理解一件事,未必不会让人获得极大的满足。然而,即便是最无用的事情,有时也会暗藏意料之外的宝藏。可不要低估了这些定理。
或许有一天,在你完全没有想到的那一刻,“有用之处”会不期而至。它们会像成熟而甜美的果实那样,自然而然地落入你的手中。
上文转自图灵新知,节选自《数学的雨伞下》,[遇见]已获转发许可。
推荐阅读
作者:[法] 米卡埃尔•洛奈(Mickaël Launay)译者:欧瑜
法国数学学会“达朗贝尔奖”得主科普名作。
数学,是理解世界本质与万物关联的工具,它能制造两个指南针:一个叫“实用”,一个叫“优雅”。不懂得数学的意义,就无法真正学习和理解数学。
科学家为什么那么聪明?因为他们有非凡的思考方法。
以数学为工具,以思考为快乐;培养自己的思考力、观察力,成为真正的思考者。