齐普夫定律(Zipf's Law)又称为字词分布定律
目录 |
齐普夫定律是美国语言学家G.K.齐普夫(George Kingsley Zipf)于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数个这些词编上的等级序号,即频次最高的词等级为1,频次次之的等级为2,......,频次最小的词等级为D,。若用f表示频次,r 表示序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。
齐普夫定律是描述一系列实际现象的特点非常到位的经验定律之一。它认为,如果我们按照大小或者流行程度给某个大集合中的各项进行排序,集合中第二项的比重大约是第一项的一半,而第三项的比重大约是第一项的三分之一,以此类推。换句话来说,一般来讲,排在第k位的项目其比重为第一项的1/k。
齐普夫定律还从定量角度描述了目前流行的一个主题: 长尾巴定律(The Long Tail)。以一个集合中按流行程度排名的物品(如亚马逊网站上销售的图书)为例。表示流行程度的图表会向下倾斜,位于左上角的是几十本最流行的图书。该图会向右下角逐渐下降,那条长尾巴会列出每年销量只有一两本的几十万种图书。换成英文即齐普夫定律最初应用的领域,这条长尾巴就是你很少会遇到的几十万个单词,譬如floriferous或者refulgent。
把流行程度作为大致衡量价值的标准,齐普夫定律随后就会得出每一个物品的价值。也就是说,假设有100万个物品,那么最流行的100个物品将贡献总价值的三分之一,其次的10000个物品将贡献另外的三分之一; 剩余的98.99万个将贡献剩下的三分之一。有n个物品的集合其价值与log(n)成正比。
1.词表编制
2.利用齐普夫定律,解决词汇控制,词表规模确定,选词标准等问题。
3.文献标引控制
齐普夫定律主要应用于统计标引法。确定有效词的词频值。从而可通过计算机确定有效词。
4.情报检索的文献组织。
电子邮件列表成员的相对价值。
按照齐普夫定律,这种网络的成员可以像齐普夫定律排列单词那样来排序——按照你收件箱当中电子邮件的数量。每个人所发的电子邮件都会给你收件箱的总“价值”贡献1/k,这里的k是指每个人的排名。
邮件量排名第一位的那个人因而获得被设为1/1即1的值(这个人就相当于前面那个例子中的单词the)。排在第二位的那个人将贡献一半的值,即1/2。而按照齐普夫定律,排在第k位的那个人将为你为这个邮件网络赋予的总价值添加大约1/k。
这个总价值就是网络所有其他成员的递减的1/k值之和。所以如果你的网络有n个成员,这个值就与1 + 1/2 + 1/3 +… + 1/(n-1)成正比,这接近log(n)。说得更准确些,这差不多等于log(n)与恒定值相加之和。当然,n-1个其他成员可以从网络得到类似的值,所以所有n的值以n log(n)增加。