综合百科行业百科金融百科经济百科资源百科管理百科
管理百科
管理营销
资源百科
人力财务
经济百科
经济贸易
金融百科
金融证券
行业百科
物流咨询
综合百科
人物品牌

齐普夫定律

  	      	      	    	    	      	    

齐普夫定律(Zipf's Law)又称为字词分布定律

目录

齐普夫定律概述

  齐普夫定律是美国语言学家G.K.齐普夫George Kingsley Zipf)于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数个这些词编上的等级序号,即频次最高的词等级为1,频次次之的等级为2,......,频次最小的词等级为D,。若用f表示频次,r 表示序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。

  齐普夫定律是描述一系列实际现象的特点非常到位的经验定律之一。它认为,如果我们按照大小或者流行程度给某个大集合中的各项进行排序,集合中第二项的比重大约是第一项的一半,而第三项的比重大约是第一项的三分之一,以此类推。换句话来说,一般来讲,排在第k位的项目其比重为第一项的1/k。

  齐普夫定律还从定量角度描述了目前流行的一个主题: 长尾巴定律The Long Tail)。以一个集合中按流行程度排名的物品(如亚马逊网站上销售的图书)为例。表示流行程度的图表会向下倾斜,位于左上角的是几十本最流行的图书。该图会向右下角逐渐下降,那条长尾巴会列出每年销量只有一两本的几十万种图书。换成英文即齐普夫定律最初应用的领域,这条长尾巴就是你很少会遇到的几十万个单词,譬如floriferous或者refulgent。

  把流行程度作为大致衡量价值的标准,齐普夫定律随后就会得出每一个物品的价值。也就是说,假设有100万个物品,那么最流行的100个物品将贡献总价值的三分之一,其次的10000个物品将贡献另外的三分之一; 剩余的98.99万个将贡献剩下的三分之一。有n个物品的集合其价值与log(n)成正比。

齐普夫定律的应用范围

  1.词表编制

  2.利用齐普夫定律,解决词汇控制,词表规模确定,选词标准等问题。

  3.文献标引控制

  齐普夫定律主要应用于统计标引法。确定有效词的词频值。从而可通过计算机确定有效词。

  4.情报检索的文献组织。

齐普夫定律的运用实例

  电子邮件列表成员的相对价值。

  按照齐普夫定律,这种网络的成员可以像齐普夫定律排列单词那样来排序——按照你收件箱当中电子邮件的数量。每个人所发的电子邮件都会给你收件箱的总“价值”贡献1/k,这里的k是指每个人的排名。

  邮件量排名第一位的那个人因而获得被设为1/1即1的值(这个人就相当于前面那个例子中的单词the)。排在第二位的那个人将贡献一半的值,即1/2。而按照齐普夫定律,排在第k位的那个人将为你为这个邮件网络赋予的总价值添加大约1/k。

  这个总价值就是网络所有其他成员的递减的1/k值之和。所以如果你的网络有n个成员,这个值就与1 + 1/2 + 1/3 +… + 1/(n-1)成正比,这接近log(n)。说得更准确些,这差不多等于log(n)与恒定值相加之和。当然,n-1个其他成员可以从网络得到类似的值,所以所有n的值以n log(n)增加。

相关条目