综合百科行业百科金融百科经济百科资源百科管理百科
管理百科
管理营销
资源百科
人力财务
经济百科
经济贸易
金融百科
金融证券
行业百科
物流咨询
综合百科
人物品牌

二项分布

  	      	      	    	    	      	    

二项分布(Binomial distribution)

  二项分布是一种具有广泛用途的离散型随机变量概率分布,它是由贝努里始创的,所以又叫贝努里分布。

  二项分布是指统计变量中只有性质不同的两项群体的概率分布。所谓两项群体是按两种不同性质划分的统计变量,是二项试验的结果。即各个变量都可归为两个不同性质中的一个,两个观测值是对立的。因而两项分布又可说是两个对立事件的概率分布。

目录

二项分布的解析

  二项分布用符号b(x.n.p),表示在n次试验中有x次成功,成功的概率为p。

  二项分布的概率函数可写作:

  b(x.n.p)=C_n^xp^xq^{n-x}

  式中x=0、1、2、3.....n为正整数

  C_n^x=\frac{n!}{x!(n-x)!}

  两项分布中含有两个参数n与p,当它们的值已知时,便可计算出分布列中各概率的值。

  例1 掷硬币试验。有10个硬币掷一次,或1个硬币掷十次。问五次正面向上的概率是多少?

  解:根据题意n=10,p=q=1/2,x=5

  b(5、l0、1/2) = C_{10}^5 P^5 q^{10-5}

  = 10! / (5!(10-5)!) \times (1/2)5 \times (1/2)5

  = 252 \times (1/32) \times (1/32)

  = 0.24609

  所以五次正面向上的概率为0.24609

  此题若问五次及五次以上正面向上的概率是多少?

  解:此题要求出五次及五次以上正面向上的概率之和。正面有五次、六次、七次、八次、九次、十次。依公式5—10应为:

  C_{10}^5 P^5 q^{10-5}+ C_{10}^6 P^6 q^{10-6} + C_{10}^7 P^7 q^{10-7} + C_{10}^8 P^8 q^{10-8}+C_{10}^9 P^9 q^{10-9}+ C_{10}^10 P^10 q^{10-10}

  = 252/1024+210/1024+120/1024+45/1024+10/1024+1/1024

  = 638/1024

  = 0.623

  五次及五次以上正面向上的概率为0.623

  此题各项展开式的系数,若用杨辉三角计算也十分方便。读者:前面的杨辉三角写到(p + q)10。试比较五次及五次以—LK面向;的各项系数是否为252、210、120、45、10、1。

二项分布的性质

  (一)二项分布是离散型分布,概率直方图是跃阶式的。因为x为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形象些。

  1.当p=q时图形是对称的

  例2 (p + q)6,p=q=1/2,各项的概率可写作:

  p6 + 6p5q + 15p4q2 + 20p3q3 + 15p2q4 + 6plq5 + q6

  = 1/64+6/64+15/64+20/64+15/64+6/64+1/64

  = 1

  2.当p≠q时,直方图呈偏态,p<q与p>q的偏斜方向相反。如果n很大,即使p≠q,偏态逐渐降低,最终成正态分布,二项分布的极限分布为正态分布。故当n很大时,二项分布的概率可用正态分布的概率作为近似值。何谓n很大呢?一般规定:当p<q且np≥5,或p>q且nq≥5,这时的n就被认为很大,可以用正态分布的概率作为近似值了。

  (二)二项分布的平均数标准差

  如果二项分布满足p<q,np≥5,(或p>q,np≥5)时,二项分布接近正态分布。这时,也仅仅在这时,二项分布的x变量(即成功的次数)具有如下性质:

  μ = np (5—10a)

  \sigma=\sqrt{npq} (5—10b)

  即x变量具有μ = np ,\sigma=\sqrt{npq} 的正态分布。

  式中n为独立试验的次数,

  p为成功事件的概率,q=1- p。 由于n很大时二项分布逼近正态分布,其平均数,标准差是根据理论推导而来的,故用μσ而不用X和S表示。它们的含意是指在二项试验中,成功的次数的平均数μ = np ,成功次数的分散程\sigma=\sqrt{npq} 。例如一个掷10枚硬币的试验,出现正面向上的平均次数为5次(μ= np=1/2\times10),正面向上的散布程度为10×(1/2)×(1/2)= 1.58(次),这是根据理论的计算,而在实际试验中,有的人可得10个正面向上,有人得9个、8个……,人数越多,正面向上的平均数越接近5,分散程度越接近1.58。

二项分布的应用条件

  1.各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料。

  2.已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π,实际工作中要求π是从大量观察中获得比较稳定的数值。

  3.n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等。

二项分布的应用

  项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。所谓机遇问题,即指在实验或调查中,实验结果可能是由 ?猜测而造成的。比如,选择题目的回答,划对划错,可能完全由猜测造成。凡此类问题,欲区分由猜测而造成的结果与真实的结果之间的界限,就要应用二项分布来解决。

  例3有正误题10题,问答题者答对几题才能认为他是真会,或者说答对几题,才能认为不是出于猜测因素?

  此题p=q=1/2,即猜对猜错的概率各为0.5。np≥5,故此二项分布接近正态分布:

  \mu=np=10\times0.5=5

  根据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。如果用原分数表示,则为

  \mu+1.645\sigma=5+1.645\times1.58=7.6≈8

  它的意义是,完全凭猜测,10题中猜对8题以下的可能性为95%,猜对8、9、10题的概率只5%。因此可以推论说,答对8题以上者不是凭猜测,而是会答。但应该明确:作此结论,也仍然有犯错误的可能,即那些完全靠猜测的人也有5%的可能性答对8、9、10道题。

  此题的概率值,还可用二项分布函数直接计算,亦得与正态分布近似的结果:

  b(8 10 0.5)=C102p8q210\times9/2\times0.58\times0.52 = 45/1024

  b(9 10 0.5)=C101p9q110\times0.59\times0.51 = 10/1024

  b(10 10 0.5) =C100p10= 1/1024

  根据概率加法,答对8题及其以上的总概率为:45/1024+10/1024+1/1024=56/1024 = 0.0547 同理,可计算8题以下的概率为 95%。(近似).

  例4有10道多重选择题,每题有5个答案,其中只有一个是正确的。问答对几题才能说不是猜的结果?

  此题n=10,p=1/5 = 0.2,q = 0.8,np<5,故此题不接近正态分布,不能用正态分布计算概率,而应直接用二项分布函数计算猜时各题数的概率:

  b(10、10、0.2)=C_{10}^{0}0.2^{10} 0.8^01 \times 0.2^10 \times 0.8^0=0.000000102

  b(9、10、0.2)=C_{l0}^10.2^90.8^110\times0.2^9\times0.8^1=0.000004096

  b(8、10、0.2)= C_{l0}^20.2^80.8^245\times0.2^8\times0.8^2=0.000073728

  b(7、10、0.2)=C_{l0}^30.2^70.8^3120\times0.2^7\times0.8^3=0.000786432

  b(6、10、0.2)=C_{l0}^40.2^60.8^4210\times0.2^6\times0.8^4=0.00550524

  b(5、10、0.2)=C_{l0}^50.2^50.8^5252\times0.2^5\times0.8^5=0.026424115

  b(4、10、0.2)=C_{l0}^60.2^40.8^6210\times0.2^4\times0.8^6=0.088080384

  根据以上所计算的猜对各题数的概率,可用概率加法求得猜对5题及5题以上的概率为0.03279,不足5%,故可推论说答对5题以上者可算真会,作此结论仍有3.3%犯错误的可能。

  若上例中题数增加到30题,则np>5,就可用正态分布的概率计算:

  解:\mu=np=30\times0.2=6

  \sigma=\sqrt{npq}=\sqrt{30\times0.2\times0.8} =2.191

  X=μ+1.645×σ=6 +1.645×2.191=9.6

  因此可得结论,答对10题或10题以上,才能被认为是真会。作此结论犯错误的概率为5%。

  如果想使推论犯错误的概率降为1%,则根据正态分布可求得此时的z=2.33,使用相同的计算方法,只将2.33代替1.645,可求得临界的分数(或答对的题数)。