综合百科行业百科金融百科经济百科资源百科管理百科
管理百科
管理营销
资源百科
人力财务
经济百科
经济贸易
金融百科
金融证券
行业百科
物流咨询
综合百科
人物品牌

估计量

  	      	      	    	    	      	    

估计量(estimator)

目录

什么是估计量

  估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。在一项应用中,依据估计量算出的一个具体的数值,称为估计值。

估计量的优良性准则[1]

  1.无偏性

  估计量\widehat{\theta}(X_1, X_2,..., X_n)是一个随机变量,对一次具体的观察或试验的结果,估计值可能较真实的参数值有一定偏离,但一个好的估计量不应总是偏小或偏大,在多次试验中所得估计量的平均值应与参数的真值相吻合,这正是无偏性的要求。

  【定义1】 设(X1,X2,...,Xn)为来自总体X的样本,\theta \in \Theta为总体的未知参数,\widehat{\theta}(X_1, X_2,..., X_n)θ的一个估计量.若对于任意\theta \in \Theta

  E(\widehat{\theta}(X_1, X_2,..., X_n))=\theta (1)

  则称\widehat{\theta}(X_1, X_2,..., X_n)θ无偏估计量.记

  b_n=E(\widehat{\theta}(X_1, X_2,..., X_n))-\theta

  称bn\widehat{\theta}(X_1, X_2,..., X_n)作为θ的估计的偏差,当b_n \ne 0 时,称\widehat{\theta}(X_1, X_2,..., X_n)θ的有偏估计量,若\lim_{n \to \infty}b_n=0则称\widehat{\theta}(X_1, X_2,..., X_n)θ的渐近无偏估计.

  无偏性的意义是,用一个估计量\widehat{\theta}(X_1, X_2,..., X_n)去估计未知参数θ,有时候可能偏高,有时候可能偏低,但是平均来说它等于未知参数θ

  【定理1】 设对总体X,有E(X) = μD(X) = σ2从总体X中抽取样本X1,X2,...,Xn\overline{X}S2分别表示样本均值和样本修正方差,则

  (1)\overline{X}μ 的无偏估计量;

  (2)S2σ2的无偏估计量.

  证 由题设,E(Xi) = μ,D(Xi) = σ2(i = 1,2,...,n),且诸Xi独立。于是有

  (1)E(\overline{X})=E(\frac{1}{n} \sum^n_{i=1} X_i)= \frac{1}{n} \sum^n_{i=1} E(X_i) = \frac{1}{n} \sum^n_{i=1} \mu = \frac{1}{n} \times n\mu = \mu,即\overline{X}是总体均值μ的无偏估计量。

  (2)因总体X的期望E(X) = μ方差D(X) = σ2存在,则

  E(\overline{X}) = E (\frac{1}{N} \sum^n_{i=1} X_i) = \frac{1}{n} \sum^n_{i=1} (X_i) = \mu

  D(\overline{X})=D(\frac{1}{n} \sum^n_{i=1} X_i) = \frac{1}{n^2} \sum^n_{i=1} D(X_i) = \frac{\sigma^2}{n}

  E(S^2)=\frac{1}{n-1} E[\sum^n_{i=1} (X_i - \overline{X})^2]

  =\frac{1}{n-1} E [\sum^n_{i=1} X^2_i - n \overline{X}^2]

  =\frac{1}{n-1} [\sum^n_{i=1} E(X^2_i) - nE (\overline{X}^2)]

  =\frac{1}{n-1} \sum^n_{i=1} \left\{D(X_i) + [E(X_i)]^2 \right\} - \frac{n}{n-1} \left\{D(\overline{X}) + [E(\overline{X})]^2 \right\}

  =\frac{1}{n-1} \sum^n_{i=1} (\sigma^2 + \mu^2) - \frac{n}{n-1} (\frac{\sigma^2}{n} + \mu^2) = \sigma^2

  故S2是总体方差σ2的无偏估计量.

  但对S^2_n = \frac{1}{n} \sum^n_{i=1} (X_i - \overline{X})^2,有

  E(S^2_n) = E(\frac{1}{n} \sum (X_i - \overline{X})^2) = \frac{1}{n}(n-1) \sigma^2 = \frac{n-1}{n} \sigma^2 < \sigma^2

  若n很大时,则\frac{n-1}{n}很接近1,表明S^2_n = \frac{1}{n} \sum^n_{i=1} (X_i - \overline{X})^2 不是 σ2 的无偏估计,而是σ2的渐近无偏估计。

  【例1】 设总体X的k阶矩\mu k = E(X^k)(k \ge 1)存在,(X1,X2,...,Xn)为来

  自总体X的样本,试证明不论总体X服从什么分布,k阶样本矩A_K = \frac{1}{n} \sum^n_{i=1} X^k_i是k阶总体矩μk的无偏估计.

   X1,X2,...,Xn与X同分布,故有

  E(X^k_i)= E(X^k) = \mu k    (i=1,2,...,n)

  即有

  E(A_k) = \frac{1}{n} \sum^n_{i=1} E(X^k_i) = \mu k

  【例2】 设总体X服从参数为λ的指数分布,其概率密度为f(x) = \begin{cases} \lambda e^{\lambda x}, & x > 0 \\ 0, & x \le 0 \end{cases}

    其中参数λ > 0 但未知,又设X1,X2,...,Xn为来自总体X的样本,试证\overline{X}nZ = n[min(X1,X2,...,Xn)]都是1 / λ的无偏估计.

   因E(\overline{x})=E(X)=1 / \lambda,所以\overline{x}1 / λ的无偏估计量.而Z = [min(X1,X2,...,Xn)]具有概率密度

  f(x) = \begin{cases} n\lambda e^{-n\lambda x}, & x > 0 \\ 0, & x \le 0 \end{cases}

  故知E(Z) = 1 / nλ,从而E(nZ) = 1 / λ,即nZ也是1 / λ的无偏估计量

  此例结果表明,一个未知参数可以有不同的无偏估计量.值得注意,若 \widehat{\theta}θ的无偏估计,g(θ)θ的函数,g(\widehat{\theta})不一定是g(θ)的无偏估计.

  【例3】 试证样本标准差S不是总体标准差 σ 的无偏估计.

   因为σ2 = E(S2) = D(S) + [E(S)]2,注意到D(S) \ge o,所以\sigma^2 \ge [E(S)]^2,于是E(S) \le \sigma ,这表明尽管S2σ2的无偏估计,但S不是总体标准差σ的无偏估计.用样本标准差S去估计总体的标准差 σ ,平均来说是偏低了.

   2.有效性

  用样本统计量作为总体参数的估计量,其无偏性是重要的,但同一参数的无偏估计不是唯一的,还应该从中选取最好的.例如,从总体X中抽取样本X1,X2,X3,则\overline{X} = \frac{1}{3}(X_1 + X_2 + X_3)是总体均值 μ 的无偏估计.考虑E(Xi) = μ,则每个Xi也都是 μ 的无偏估计.还有\frac{1}{5} X_1 + \frac{2}{5} X_2 + \frac{2}{5} X_3 , 其数学期望也是μ,它也是μ的无偏估计。

  一般只要\sum^n_{i=1} c_i = 1, \sum^n_{i=1} c_i X_i 就是μ的无偏估计.这么多无偏估计中哪一个更好一些呢?这就有了有效性的概念.

  对于参数 θ 的无偏估计量,其取值应在真值附近波动,我们自然希望它与真值之间的偏差越小越好,也就是说无偏估计量的方差越小越好.

  【定义2】 设\widehat{\theta_1} = \widehat{\theta_1}(X_1,X_2,...,X_n)\widehat{\theta_2}= \widehat{\theta_2}(X_1,X_2,...,X_n)均为未知参数θ的无偏估计量,若

  D(\widehat{\theta_1}) \le D(\widehat{\theta_2}) (2)

  则称\widehat{\theta_1}\widehat{\theta_2}有效

  【定理2】 总体均值μ的所有线性无偏估计中,以\overline{X} = \frac{1}{n} \sum^n_{i=1} x_i最为有效。

   μ的所有线性无偏估计\sum^n_{i=1} c_i X_i,中 \sum^n_{i=1} = 1其方差

  D(\sum^n_{i=1} c_i X_i) = \sum^n_{i=1} D(c_i X_i) = \sum^n_{i=1} c^2_i D(X_i) = \sum^n_{i=1} c^2_i \sigma^2 = \sigma^2 \sum^n_{i=1} c^2_i

  要求这个方差的最小值,相当于求函数f(c_1 , c_2 , ..., c_n) = \sum^n_{i=1} c^2_i,在条件\sum^n_{i=1} c_i = 1下的最小值.这是一个条件极值问题,用拉格朗日乘数法,令

  f(c_1 , c_2 , ..., c_n) = \sum^n_{i=1} c^2_i - 2 \lambda (\sum^n_{i=1} c_i - 1)

  由 \begin{cases} \frac{ \partial f}{\partial c_1} = 2c_1 -2\lambda = 0 \\ ...... \\ \frac{ \partial f}{\partial c_n} = 2c_n -2\lambda = 0 \end{cases}

  得 \begin{cases} c_1 = \lambda \\ ......\\ c_n = \lambda \end{cases}

  即c1 = c2 = ... = cn

  代入\sum^n_{i=1} c_i =1,则c_i = \frac{1}{n} (i=1,2,...,n)

  这是唯一驻点,应是极小值点,亦是最小值点,即当c_1 = C_2  =...= c_n = \frac{1}{n}时,D(\sum^n_{i=1} c_i X_i)达到最小,即

  D(\sum^n_{i=1} \frac{1}{n} X_i) = D (\frac{1}{n} \sum^n_{i=1} X_i) = D(\overline{X}) = \frac{\sigma^2}{n}

  为方差最小值.这表明在总体均值μ的所有线性无偏估计中,以\overline{x}最为有效.

  【例4】(续例2)在例2的条件下,试证当n \ge 2时,θ的无偏估计量 \overline{X}比无偏估计量nZ有效.

   因为D(X) = \frac{1}{\lambda^2},所以D(\overline{X})=\frac{1}{n \lambda^2}.再由Z的密度函数可得D(Z)=\frac{1}{n^2 \lambda^2},故有D(nZ)=\frac{1}{\lambda^2}。当n \ge 2D(nZ)>D(\overline{X}),故\overline{X}nZ有效.

  在θ的所有无偏估计量中,若\widehat{\theta_0}(X_1, X_2, ..., X_n)是具有最小方差的无偏估计量,则称\widehat{\theta_0}(X_1, X_2, ..., X_n)θ的一致最小方差无偏估计量最优无偏估计量.

  可以证明,无偏估计量\widehat{\theta}的方差D(\widehat{\theta})的下界D0(θ)

  D(\widehat{\theta}) \ge D_0 (\theta) = \frac{1}{nE[\frac{\partial}{\partial \theta} lnf (X, \theta)]^2} > 0

  当D(\widehat{\theta})=D_0(\theta)时,\widehat{\theta}就是θ的最优无偏估计量.这里,f(x,θ)表示连续型随机变量的概率密度或离散型随机变量的概率函数.

  【例5】 设总体X服从参数为λ泊松分布X1,X2,...,Xn是来自该总体的一个样本,求参数λ的极大似然估计量 \widehat{\lambda},并证明 \widehat{\lambda}是参数λ的最优估计量.

   设样本的一个观察值为X1,X2,...,Xn,则似然函数

  L(\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i}}{x_i !}e^{-\lambda} = e^{-n\lambda} \prod_{i=1}^n \frac{\lambda^{x_i}}{x_i !}

  \ln L(\lambda) = -n \lambda + (\sum_{i=1}^n x_i) \ln \lambda - \sum_{i=1}^n \ln (x_i !)

  令

  \frac{d \ln L(\lambda)}{d \lambda} = -n + \frac{1}{\lambda} \sum_{i=1}^n x_i = 0

  得 \widehat{\lambda}=  \frac{1}{n} \sum_{i=1}^n x_i = \overline{X}

  由于E(\widehat{\lambda}) = E(\overline{X}) = \lambda,故\widehat{\lambda}是参数λ的无偏估计量.

  又因

  D(\widehat{\lambda}) = D(\overline{X}) = \frac{1}{n^2} \sum_{i=1}^n D(X_i) = \frac{\lambda}{n}

  f(x; \lambda) = P \left\{X = x \right\} = \frac{\lambda^x}{x !} e^{-\lambda}

  lnf(x;λ) = − λ + xlnλ − ln(x!)

  E \left\{[\frac{\partial}{\partial \lambda} \ln f(X; \lambda)]^2 \right\} = E[ \frac{1}{\lambda^2}(X - \lambda)^2] = \frac{1}{\lambda^2} E[X-E(X)]^2 = \frac{1}{\lambda^2} D(X) =\frac{1}{\lambda}

  所以

  D_0(\widehat{\lambda}) = \frac{1}{nE \left\{ [\frac{\partial}{\partial \lambda} \ln f(X; \lambda)]^2 \right\}} = \frac{\lambda}{n}

  因此,D(\widehat{\lambda})=D_0(\lambda)=\frac{\lambda}{n},即\widehat{\lambda} = \overline{X}是参数λ的最优估计量

  3.一致性

  上面从无偏性和有效性两个方面讨论了选择估计量的标准,但它们都是在固定样本容量竹的前提下提出的.容易想象,如果样本容量越大,样本所含的总体分布的信息应该越多,我们希望随着样本容量的增大,估计量的值能够稳定于待估参数的真值,估计量的这种性质称为一致性.

  【定义3】设\widehat{\theta}(X_1,X_2,...,X_n)为参数θ的估计量,若对于任意\theta \in \Theta及任意ε > O,有

  \lim_{n \to \infty} P \left\{| \widehat{\theta}(X_1,X_2,...,X_n) - \theta| < \epsilon \right\} = 1 (3)

  即\widehat{\theta}(X_1,X_2,...,X_n)依概率收敛于θ,则称\widehat{\theta}(X_1,X_2,...,X_n)θ的一致估计量(或相合估计量).

  【例6】证明样本k阶原点矩A_K = \frac{1}{n} \sum_{i=1}^n X^k_i 是总体k阶原点矩\mu k = E (X^k) (k \ge 1)的一致估计.

  证由于X1,X2,...,Xn相互独立与X同分布,所以对任意(k \ge 1), X_1^k,X_2^k,...,X_n^k也相互独立与Xk同分布.因此,由大数定律,对于任意ε > 0,有

  \lim_{n \to \infty} P \left\{|\frac{1}{n} \sum_{i=1}^n X^k_i - E(X^k_i)| < \epsilon \right\} = 1

  此表明Akμk的一致估计量.

  进而,若待估参数θ = g12,...,μk),其中g(·)为连续函数,则θ的估计量\widehat{\theta} = \widehat{g}(\mu_1 , \mu_2 , ... , \mu_k) = g(A_1, A_2, ..., A_k)(这里Ak为样本k阶原点矩)是θ的一致估计量。由此可证,样本方差 S2 是总体方差σ2 的一致估计量。

参考文献

  1. 陈荣江,王建平主编.概率论与数理统计.科学出版社,2012.03