估计量

管理百科
管理营销
资源百科
人力财务
经济百科
经济贸易
金融百科
金融证券
行业百科
物流咨询
综合百科
人物品牌

估计量(estimator)

什么是估计量

　　估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。在一项应用中,依据估计量算出的一个具体的数值,称为估计值。

估计量的优良性准则^[1]

　　1．无偏性

　　估计量 $\widehat{\theta}(X_1, X_2,..., X_n)$ 是一个随机变量，对一次具体的观察或试验的结果，估计值可能较真实的参数值有一定偏离，但一个好的估计量不应总是偏小或偏大，在多次试验中所得估计量的平均值应与参数的真值相吻合，这正是无偏性的要求。

　　【定义1】设 $(X 1, X 2,..., X n)$ 为来自总体X的样本， $\theta \in \Theta$ 为总体的未知参数， $\widehat{\theta}(X_1, X_2,..., X_n)$ 为 $θ$ 的一个估计量．若对于任意 $\theta \in \Theta$ 有

　　 $E(\widehat{\theta}(X_1, X_2,..., X_n))=\theta$ (1)

　　则称 $\widehat{\theta}(X_1, X_2,..., X_n)$ 为 $θ$ 的无偏估计量．记

　　 $b_n=E(\widehat{\theta}(X_1, X_2,..., X_n))-\theta$

　　称 $b n$ 以 $\widehat{\theta}(X_1, X_2,..., X_n)$ 作为 $θ$ 的估计的偏差，当 $b_n \ne 0$ 时，称 $\widehat{\theta}(X_1, X_2,..., X_n)$ 为 $θ$ 的有偏估计量，若 $\lim_{n \to \infty}b_n=0$ 则称 $\widehat{\theta}(X_1, X_2,..., X_n)$ 是 $θ$ 的渐近无偏估计．

　　无偏性的意义是，用一个估计量 $\widehat{\theta}(X_1, X_2,..., X_n)$ 去估计未知参数 $θ$ ，有时候可能偏高，有时候可能偏低，但是平均来说它等于未知参数 $θ$ 。

　　【定理1】设对总体X，有 $E (X) = μ$ ， $D (X) = σ 2$ 从总体X中抽取样本 $X 1, X 2,..., X n$ 用 $\overline{X}$ ， $S 2$ 分别表示样本均值和样本修正方差，则

　　(1) $\overline{X}$ 是 $μ$ 的无偏估计量；

　　(2) $S 2$ 是 $σ 2$ 的无偏估计量．

　　证由题设， $E (X i) = μ, D (X i) = σ 2 (i = 1,2,..., n)$ ，且诸 $X i$ 独立。于是有

　　(1) $E(\overline{X})=E(\frac{1}{n} \sum^n_{i=1} X_i)= \frac{1}{n} \sum^n_{i=1} E(X_i) = \frac{1}{n} \sum^n_{i=1} \mu = \frac{1}{n} \times n\mu = \mu$ ,即 $\overline{X}$ 是总体均值 $μ$ 的无偏估计量。

　　(2)因总体X的期望 $E (X) = μ$ 和方差 $D (X) = σ 2$ 存在，则

　　 $E(\overline{X}) = E (\frac{1}{N} \sum^n_{i=1} X_i) = \frac{1}{n} \sum^n_{i=1} (X_i) = \mu$

　　 $D(\overline{X})=D(\frac{1}{n} \sum^n_{i=1} X_i) = \frac{1}{n^2} \sum^n_{i=1} D(X_i) = \frac{\sigma^2}{n}$

　　 $E(S^2)=\frac{1}{n-1} E[\sum^n_{i=1} (X_i - \overline{X})^2]$

　　 $=\frac{1}{n-1} E [\sum^n_{i=1} X^2_i - n \overline{X}^2]$

　　 $=\frac{1}{n-1} [\sum^n_{i=1} E(X^2_i) - nE (\overline{X}^2)]$

　　 $=\frac{1}{n-1} \sum^n_{i=1} \left\{D(X_i) + [E(X_i)]^2 \right\} - \frac{n}{n-1} \left\{D(\overline{X}) + [E(\overline{X})]^2 \right\}$

　　 $=\frac{1}{n-1} \sum^n_{i=1} (\sigma^2 + \mu^2) - \frac{n}{n-1} (\frac{\sigma^2}{n} + \mu^2) = \sigma^2$

　　故 $S 2$ 是总体方差 $σ 2$ 的无偏估计量．

　　但对 $S^2_n = \frac{1}{n} \sum^n_{i=1} (X_i - \overline{X})^2$ ，有

　　 $E(S^2_n) = E(\frac{1}{n} \sum (X_i - \overline{X})^2) = \frac{1}{n}(n-1) \sigma^2 = \frac{n-1}{n} \sigma^2 < \sigma^2$

　　若n很大时，则 $\frac{n-1}{n}$ 很接近1，表明 $S^2_n = \frac{1}{n} \sum^n_{i=1} (X_i - \overline{X})^2$ 不是 $σ 2$ 的无偏估计，而是 $σ 2$ 的渐近无偏估计。

　　【例1】设总体X的k阶矩 $\mu k = E(X^k)(k \ge 1)$ 存在， $(X 1, X 2,..., X n)$ 为来

　　自总体X的样本，试证明不论总体X服从什么分布，k阶样本矩 $A_K = \frac{1}{n} \sum^n_{i=1} X^k_i$ 是k阶总体矩 $μ k$ 的无偏估计．

　　证　 $X 1, X 2,..., X n$ 与X同分布，故有

　　 $E(X^k_i)= E(X^k) = \mu k (i=1,2,...,n)$

　　即有

　　 $E(A_k) = \frac{1}{n} \sum^n_{i=1} E(X^k_i) = \mu k$

　　【例2】设总体X服从参数为 $λ$ 的指数分布，其概率密度为 $f(x) = \begin{cases} \lambda e^{\lambda x}, & x > 0 \\ 0, & x \le 0 \end{cases}$

　　　　其中参数 $λ > 0$ 但未知，又设 $X 1, X 2,..., X n$ 为来自总体X的样本，试证 $\overline{X}$ 和 $n Z = n [m i n (X 1, X 2,..., X n)]$ 都是 $1 / λ$ 的无偏估计．

　　证　因E $(\overline{x})=E(X)=1 / \lambda$ ，所以 $\overline{x}$ 是 $1 / λ$ 的无偏估计量．而 $Z = [m i n (X 1, X 2,..., X n)]$ 具有概率密度

　　 $f(x) = \begin{cases} n\lambda e^{-n\lambda x}, & x > 0 \\ 0, & x \le 0 \end{cases}$

　　故知 $E (Z) = 1 / n λ$ ，从而 $E (n Z) = 1 / λ$ ，即nZ也是 $1 / λ$ 的无偏估计量

　　此例结果表明，一个未知参数可以有不同的无偏估计量．值得注意，若 $\widehat{\theta}$ 是 $θ$ 的无偏估计， $g (θ)$ 是 $θ$ 的函数， $g(\widehat{\theta})$ 不一定是 $g (θ)$ 的无偏估计．

　　【例3】试证样本标准差S不是总体标准差 $σ$ 的无偏估计．

　　证　因为 $σ 2 = E (S 2) = D (S) + [E (S)] 2$ ，注意到 $D(S) \ge o$ ，所以 $\sigma^2 \ge [E(S)]^2$ ，于是 $E(S) \le \sigma$ ，这表明尽管 $S 2$ 是 $σ 2$ 的无偏估计，但S不是总体标准差 $σ$ 的无偏估计．用样本标准差S去估计总体的标准差 $σ$ ，平均来说是偏低了．

　　 2．有效性

　　用样本统计量作为总体参数的估计量，其无偏性是重要的，但同一参数的无偏估计不是唯一的，还应该从中选取最好的．例如，从总体X中抽取样本 $X 1, X 2, X 3$ ,则 $\overline{X} = \frac{1}{3}(X_1 + X_2 + X_3)$ 是总体均值 $μ$ 的无偏估计．考虑 $E (X i) = μ$ ，则每个 $X i$ 也都是 $μ$ 的无偏估计．还有 $\frac{1}{5} X_1 + \frac{2}{5} X_2 + \frac{2}{5} X_3$ , 其数学期望也是 $μ$ ，它也是 $μ$ 的无偏估计。

　　一般只要 $\sum^n_{i=1} c_i = 1$ , $\sum^n_{i=1} c_i X_i$ 就是 $μ$ 的无偏估计．这么多无偏估计中哪一个更好一些呢?这就有了有效性的概念．

　　对于参数 $θ$ 的无偏估计量，其取值应在真值附近波动，我们自然希望它与真值之间的偏差越小越好，也就是说无偏估计量的方差越小越好．

　　【定义2】设 $\widehat{\theta_1} = \widehat{\theta_1}(X_1,X_2,...,X_n)$ 与 $\widehat{\theta_2}= \widehat{\theta_2}(X_1,X_2,...,X_n)$ 均为未知参数 $θ$ 的无偏估计量，若

　　 $D(\widehat{\theta_1}) \le D(\widehat{\theta_2})$ (2)

　　则称 $\widehat{\theta_1}$ 比 $\widehat{\theta_2}$ 有效

　　【定理2】总体均值 $μ$ 的所有线性无偏估计中，以 $\overline{X} = \frac{1}{n} \sum^n_{i=1} x_i$ 最为有效。

　　证　 $μ$ 的所有线性无偏估计 $\sum^n_{i=1} c_i X_i$ ，中 $\sum^n_{i=1} = 1$ 其方差

　　 $D(\sum^n_{i=1} c_i X_i) = \sum^n_{i=1} D(c_i X_i) = \sum^n_{i=1} c^2_i D(X_i) = \sum^n_{i=1} c^2_i \sigma^2 = \sigma^2 \sum^n_{i=1} c^2_i$

　　要求这个方差的最小值，相当于求函数 $f(c_1 , c_2 , ..., c_n) = \sum^n_{i=1} c^2_i$ ，在条件 $\sum^n_{i=1} c_i = 1$ 下的最小值．这是一个条件极值问题，用拉格朗日乘数法，令

　　 $f(c_1 , c_2 , ..., c_n) = \sum^n_{i=1} c^2_i - 2 \lambda (\sum^n_{i=1} c_i - 1)$

　　由 $\begin{cases} \frac{ \partial f}{\partial c_1} = 2c_1 -2\lambda = 0 \\ ...... \\ \frac{ \partial f}{\partial c_n} = 2c_n -2\lambda = 0 \end{cases}$

　　得 $\begin{cases} c_1 = \lambda \\ ......\\ c_n = \lambda \end{cases}$

　　即 $c 1 = c 2 = ... = c n$

　　代入 $\sum^n_{i=1} c_i =1$ ，则 $c_i = \frac{1}{n} (i=1,2,...,n)$ 。

　　这是唯一驻点，应是极小值点，亦是最小值点，即当 $c_1 = C_2 =...= c_n = \frac{1}{n}$ 时， $D(\sum^n_{i=1} c_i X_i)$ 达到最小，即

　　 $D(\sum^n_{i=1} \frac{1}{n} X_i) = D (\frac{1}{n} \sum^n_{i=1} X_i) = D(\overline{X}) = \frac{\sigma^2}{n}$

　　为方差最小值．这表明在总体均值 $μ$ 的所有线性无偏估计中，以 $\overline{x}$ 最为有效．

　　【例4】(续例2)在例2的条件下，试证当 $n \ge 2$ 时， $θ$ 的无偏估计量 $\overline{X}$ 比无偏估计量nZ有效．

　　证　因为 $D(X) = \frac{1}{\lambda^2}$ ，所以 $D(\overline{X})=\frac{1}{n \lambda^2}$ ．再由Z的密度函数可得 $D(Z)=\frac{1}{n^2 \lambda^2}$ ，故有 $D(nZ)=\frac{1}{\lambda^2}$ 。当 $n \ge 2$ 时 $D(nZ)>D(\overline{X})$ ，故 $\overline{X}$ 比 $n Z$ 有效．

　　在 $θ$ 的所有无偏估计量中，若 $\widehat{\theta_0}(X_1, X_2, ..., X_n)$ 是具有最小方差的无偏估计量，则称 $\widehat{\theta_0}(X_1, X_2, ..., X_n)$ 为 $θ$ 的一致最小方差无偏估计量最优无偏估计量．

　　可以证明，无偏估计量 $\widehat{\theta}$ 的方差 $D(\widehat{\theta})$ 的下界 $D 0 (θ)$ 为

　　 $D(\widehat{\theta}) \ge D_0 (\theta) = \frac{1}{nE[\frac{\partial}{\partial \theta} lnf (X, \theta)]^2} > 0$

　　当 $D(\widehat{\theta})=D_0(\theta)$ 时， $\widehat{\theta}$ 就是 $θ$ 的最优无偏估计量．这里， $f (x,θ)$ 表示连续型随机变量的概率密度或离散型随机变量的概率函数．

　　【例5】设总体X服从参数为 $λ$ 的泊松分布， $X 1, X 2,..., X n$ 是来自该总体的一个样本，求参数 $λ$ 的极大似然估计量 $\widehat{\lambda}$ ，并证明 $\widehat{\lambda}$ 是参数 $λ$ 的最优估计量．

　　解　设样本的一个观察值为 $X 1, X 2,..., X n$ ，则似然函数

　　 $L(\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i}}{x_i !}e^{-\lambda} = e^{-n\lambda} \prod_{i=1}^n \frac{\lambda^{x_i}}{x_i !}$

　　 $\ln L(\lambda) = -n \lambda + (\sum_{i=1}^n x_i) \ln \lambda - \sum_{i=1}^n \ln (x_i !)$

　　令

　　 $\frac{d \ln L(\lambda)}{d \lambda} = -n + \frac{1}{\lambda} \sum_{i=1}^n x_i = 0$

　　得 $\widehat{\lambda}= \frac{1}{n} \sum_{i=1}^n x_i = \overline{X}$

　　由于 $E(\widehat{\lambda}) = E(\overline{X}) = \lambda$ ，故 $\widehat{\lambda}$ 是参数 $λ$ 的无偏估计量．

　　又因

　　 $D(\widehat{\lambda}) = D(\overline{X}) = \frac{1}{n^2} \sum_{i=1}^n D(X_i) = \frac{\lambda}{n}$

　　 $f(x; \lambda) = P \left\{X = x \right\} = \frac{\lambda^x}{x !} e^{-\lambda}$

　　 $ln f (x;λ) = - λ + x lnλ - ln(x!)$

　　 $E \left\{[\frac{\partial}{\partial \lambda} \ln f(X; \lambda)]^2 \right\} = E[ \frac{1}{\lambda^2}(X - \lambda)^2] = \frac{1}{\lambda^2} E[X-E(X)]^2 = \frac{1}{\lambda^2} D(X) =\frac{1}{\lambda}$

　　所以

　　 $D_0(\widehat{\lambda}) = \frac{1}{nE \left\{ [\frac{\partial}{\partial \lambda} \ln f(X; \lambda)]^2 \right\}} = \frac{\lambda}{n}$

　　因此， $D(\widehat{\lambda})=D_0(\lambda)=\frac{\lambda}{n}$ ，即 $\widehat{\lambda} = \overline{X}$ 是参数 $λ$ 的最优估计量

　　3．一致性

　　上面从无偏性和有效性两个方面讨论了选择估计量的标准，但它们都是在固定样本容量竹的前提下提出的．容易想象，如果样本容量越大，样本所含的总体分布的信息应该越多，我们希望随着样本容量的增大，估计量的值能够稳定于待估参数的真值，估计量的这种性质称为一致性．

　　【定义3】设 $\widehat{\theta}(X_1,X_2,...,X_n)$ 为参数 $θ$ 的估计量，若对于任意 $\theta \in \Theta$ 及任意 $ε > O$ ，有

　　 $\lim_{n \to \infty} P \left\{| \widehat{\theta}(X_1,X_2,...,X_n) - \theta| < \epsilon \right\} = 1$ (3)

　　即 $\widehat{\theta}(X_1,X_2,...,X_n)$ 依概率收敛于 $θ$ ，则称 $\widehat{\theta}(X_1,X_2,...,X_n)$ 为 $θ$ 的一致估计量(或相合估计量)．

　　【例6】证明样本k阶原点矩 $A_K = \frac{1}{n} \sum_{i=1}^n X^k_i$ 是总体k阶原点矩 $\mu k = E (X^k) (k \ge 1)$ 的一致估计．

　　证由于 $X 1, X 2,..., X n$ 相互独立与X同分布，所以对任意 $(k \ge 1)$ , $X_1^k,X_2^k,...,X_n^k$ 也相互独立与 $X k$ 同分布．因此，由大数定律，对于任意 $ε > 0$ ，有

　　 $\lim_{n \to \infty} P \left\{|\frac{1}{n} \sum_{i=1}^n X^k_i - E(X^k_i)| < \epsilon \right\} = 1$

　　此表明 $A k$ 是 $μ k$ 的一致估计量．

　　进而，若待估参数 $θ = g (μ 1,μ 2,...,μ k)$ ，其中g(·)为连续函数，则 $θ$ 的估计量 $\widehat{\theta} = \widehat{g}(\mu_1 , \mu_2 , ... , \mu_k) = g(A_1, A_2, ..., A_k)$ (这里 $A k$ 为样本k阶原点矩)是 $θ$ 的一致估计量。由此可证，样本方差 $S 2$ 是总体方差 $σ 2$ 的一致估计量。

参考文献

↑ 陈荣江,王建平主编.概率论与数理统计.科学出版社,2012.03

估计量

目录

什么是估计量

估计量的优良性准则[1]

参考文献

估计量的优良性准则^[1]