用户工具

站点工具


数理统计:第三章_点估计

第三章 点估计

3.1 点估计的基本概念

3.1.1 点估计的定义

设总体 $X$ 的分布函数为 $F(x; \\theta)$,其中 $\\theta$ 是未知参数,$\\theta \\in \\Theta$($\\Theta$ 称为参数空间)。从总体 $X$ 中抽取样本 $X_1, X_2, \\ldots, X_n$,构造一个统计量 $\\hat{\\theta} = \\hat{\\theta}(X_1, X_2, \\ldots, X_n)$ 作为参数 $\\theta$ 的估计,称 $\\hat{\\theta}$ 为 $\\theta$ 的点估计量(Point Estimator),其观测值称为点估计值

3.1.2 估计量的求法概述

常用的点估计方法包括:

  • 矩估计法(Method of Moments):用样本矩估计总体矩
  • 最大似然估计法(Maximum Likelihood Estimation):使似然函数达到最大
  • 最小二乘法(Least Squares):主要用于回归分析
  • 贝叶斯估计法(Bayesian Estimation):基于先验分布和后验分布

3.2 矩估计法

3.2.1 矩估计法的基本思想

矩估计法的基本思想是:用样本矩估计相应的总体矩,用样本矩的函数估计总体矩的函数。

根据大数定律,当样本容量 $n$ 充分大时,样本矩依概率收敛于相应的总体矩:

$$A_k = \\frac{1}{n}\\sum_{i=1}^{n}X_i^k \\xrightarrow{P} E(X^k) = \\mu_k$$

3.2.2 矩估计法的步骤

设总体 $X$ 的分布中有 $k$ 个未知参数 $\\theta_1, \\theta_2, \\ldots, \\theta_k$,矩估计法的步骤如下:

1. 计算总体的前 $k$ 阶矩:$\\mu_j = E(X^j)$,$j = 1, 2, \\ldots, k$
2. 将总体矩表示为参数的函数:$\\mu_j = g_j(\\theta_1, \\theta_2, \\ldots, \\theta_k)$
3. 用样本矩 $A_j$ 代替总体矩 $\\mu_j$,得到方程组:
   $$A_j = g_j(\\theta_1, \\theta_2, \\ldots, \\theta_k), \\quad j = 1, 2, \\ldots, k$$
4. 解方程组,得到参数的矩估计:$\\hat{\\theta}_j = h_j(A_1, A_2, \\ldots, A_k)$

3.2.3 矩估计法的例子

例 3.1:设总体 $X$ 服从泊松分布 $P(\\lambda)$,$X_1, X_2, \\ldots, X_n$ 是样本,求 $\\lambda$ 的矩估计。

:由于 $E(X) = \\lambda$,用样本均值估计总体均值:

$$\\hat{\\lambda} = \\bar{X} = \\frac{1}{n}\\sum_{i=1}^{n}X_i$$

例 3.2:设总体 $X \\sim N(\\mu, \\sigma^2)$,求 $\\mu$ 和 $\\sigma^2$ 的矩估计。

:由于 $E(X) = \\mu$,$E(X^2) = D(X) + [E(X)]^2 = \\sigma^2 + \\mu^2$,得到方程组:

$$\\begin{cases} \\bar{X} = \\mu \\[6pt] \\dfrac{1}{n}\\sum_{i=1}^{n}X_i^2 = \\sigma^2 + \\mu^2 \\end{cases}$$

解得: $$\\hat{\\mu} = \\bar{X}$$ $$\\hat{\\sigma}^2 = \\frac{1}{n}\\sum_{i=1}^{n}X_i^2 - \\bar{X}^2 = \\frac{1}{n}\\sum_{i=1}^{n}(X_i - \\bar{X})^2$$

注意:这里的 $\\hat{\\sigma}^2$ 与样本方差 $S^2$ 不同,$S^2 = \\dfrac{1}{n-1}\\sum_{i=1}^{n}(X_i - \\bar{X})^2$。

例 3.3:设总体 $X$ 服从均匀分布 $U(a, b)$,求 $a$ 和 $b$ 的矩估计。

:由于 $E(X) = \\dfrac{a+b}{2}$,$D(X) = \\dfrac{(b-a)^2}{12}$,得到:

$$\\begin{cases} \\bar{X} = \\dfrac{a+b}{2} \\[6pt] B_2 = \\dfrac{(b-a)^2}{12} \\end{cases}$$

其中 $B_2 = \\dfrac{1}{n}\\sum_{i=1}^{n}(X_i - \\bar{X})^2$。

解得: $$\\hat{a} = \\bar{X} - \\sqrt{3B_2}$$ $$\\hat{b} = \\bar{X} + \\sqrt{3B_2}$$

3.3 最大似然估计法

3.3.1 似然函数

定义 3.1(似然函数):设总体 $X$ 的概率密度函数(或概率质量函数)为 $f(x; \\theta)$,$X_1, X_2, \\ldots, X_n$ 是来自总体 $X$ 的样本,则样本的联合密度函数(或联合质量函数)为:

$$L(\\theta) = L(\\theta; x_1, x_2, \\ldots, x_n) = \\prod_{i=1}^{n}f(x_i; \\theta)$$

称 $L(\\theta)$ 为似然函数(Likelihood Function)。

对于固定的样本值 $x_1, x_2, \\ldots, x_n$,似然函数 $L(\\theta)$ 是参数 $\\theta$ 的函数。

3.3.2 最大似然估计的定义

定义 3.2(最大似然估计):若存在 $\\hat{\\theta} = \\hat{\\theta}(x_1, x_2, \\ldots, x_n)$,使得:

$$L(\\hat{\\theta}) = \\max_{\\theta \\in \\Theta}L(\\theta)$$

则称 $\\hat{\\theta}$ 为参数 $\\theta$ 的最大似然估计值(Maximum Likelihood Estimate, MLE),相应的统计量 $\\hat{\\theta}(X_1, X_2, \\ldots, X_n)$ 称为最大似然估计量

直观解释:最大似然估计的基本思想是“概率最大的事件最可能出现”。观测到样本 $x_1, x_2, \\ldots, x_n$ 后,选择使这组样本出现概率最大的参数值作为估计值。

3.3.3 求最大似然估计的方法

由于 $\ln x$ 是单调递增函数,$L(\\theta)$ 与 $\ln L(\\theta)$ 在同一处取得最大值。通常使用对数似然函数

$$l(\\theta) = \ln L(\\theta) = \\sum_{i=1}^{n}\ln f(x_i; \\theta)$$

求最大似然估计的步骤:

1. 写出似然函数 $L(\\theta)$ 或对数似然函数 $l(\\theta)$
2. 对 $\\theta$ 求导,令导数等于零,得到**似然方程**:$\\dfrac{dl}{d\\theta} = 0$
3. 解似然方程,得到最大似然估计 $\\hat{\\theta}$
4. 验证 $\\hat{\\theta}$ 是否使 $L(\\theta)$ 达到最大值

3.3.4 最大似然估计的例子

例 3.4:设总体 $X \\sim B(1, p)$,求 $p$ 的最大似然估计。

:概率质量函数为 $f(x; p) = p^x(1-p)^{1-x}$,$x = 0, 1$。

似然函数: $$L(p) = \\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i} = p^{\\sum x_i}(1-p)^{n - \\sum x_i}$$

对数似然函数: $$l(p) = \\left(\\sum_{i=1}^{n}x_i\\right)\ln p + \\left(n - \\sum_{i=1}^{n}x_i\\right)\ln(1-p)$$

对 $p$ 求导并令其为零: $$\\frac{dl}{dp} = \\frac{\\sum x_i}{p} - \\frac{n - \\sum x_i}{1-p} = 0$$

解得: $$\\hat{p} = \\frac{1}{n}\\sum_{i=1}^{n}x_i = \\bar{x}$$

验证二阶导数: $$\\frac{d^2l}{dp^2} = -\\frac{\\sum x_i}{p^2} - \\frac{n - \\sum x_i}{(1-p)^2} < 0$$

因此 $\\hat{p} = \\bar{X}$ 是最大似然估计。

例 3.5:设总体 $X \\sim N(\\mu, \\sigma^2)$,求 $\\mu$ 和 $\\sigma^2$ 的最大似然估计。

:概率密度函数为 $f(x; \\mu, \\sigma^2) = \\dfrac{1}{\\sqrt{2\\pi}\\sigma}\\exp\\left\\{-\\dfrac{(x-\\mu)^2}{2\\sigma^2}\\right\\}$。

对数似然函数: $$l(\\mu, \\sigma^2) = -\\frac{n}{2}\ln(2\\pi) - \\frac{n}{2}\ln(\\sigma^2) - \\frac{1}{2\\sigma^2}\\sum_{i=1}^{n}(x_i - \\mu)^2$$

对 $\\mu$ 求偏导: $$\\frac{\\partial l}{\\partial \\mu} = \\frac{1}{\\sigma^2}\\sum_{i=1}^{n}(x_i - \\mu) = 0$$

得:$\\hat{\\mu} = \\bar{x}$

对 $\\sigma^2$ 求偏导: $$\\frac{\\partial l}{\\partial \\sigma^2} = -\\frac{n}{2\\sigma^2} + \\frac{1}{2(\\sigma^2)^2}\\sum_{i=1}^{n}(x_i - \\mu)^2 = 0$$

将 $\\mu = \\bar{x}$ 代入,解得: $$\\hat{\\sigma}^2 = \\frac{1}{n}\\sum_{i=1}^{n}(x_i - \\bar{x})^2$$

3.3.5 最大似然估计的不变性

定理 3.1(不变性):设 $\\hat{\\theta}$ 是 $\\theta$ 的最大似然估计,$g(\\theta)$ 是 $\\theta$ 的连续函数,则 $g(\\hat{\\theta})$ 是 $g(\\theta)$ 的最大似然估计。

例 3.6:设总体 $X \\sim N(\\mu, \\sigma^2)$,求 $\\sigma$ 的最大似然估计。

:由例3.5,$\\hat{\\sigma}^2 = \\dfrac{1}{n}\\sum_{i=1}^{n}(X_i - \\bar{X})^2$。

由不变性,$\\hat{\\sigma} = \\sqrt{\\hat{\\sigma}^2} = \\sqrt{\\dfrac{1}{n}\\sum_{i=1}^{n}(X_i - \\bar{X})^2}$。

3.4 估计量的评价标准

3.4.1 无偏性

定义 3.3(无偏估计):设 $\\hat{\\theta} = \\hat{\\theta}(X_1, X_2, \\ldots, X_n)$ 是参数 $\\theta$ 的估计量,若对任意 $\\theta \\in \\Theta$,有:

$$E(\\hat{\\theta}) = \\theta$$

则称 $\\hat{\\theta}$ 是 $\\theta$ 的无偏估计量(Unbiased Estimator)。

若 $\\lim_{n\\to\\infty}E(\\hat{\\theta}) = \\theta$,则称 $\\hat{\\theta}$ 是 $\\theta$ 的渐近无偏估计量

例 3.7:证明样本均值 $\\bar{X}$ 是总体均值 $\\mu$ 的无偏估计,样本方差 $S^2$ 是总体方差 $\\sigma^2$ 的无偏估计。

证明

  • $E(\\bar{X}) = E\\left(\\dfrac{1}{n}\\sum_{i=1}^{n}X_i\\right) = \\dfrac{1}{n}\\sum_{i=1}^{n}E(X_i) = \\mu$
  • 由第二章定理,$E(S^2) = \\sigma^2$

注意:矩估计得到的 $\\hat{\\sigma}^2 = \\dfrac{1}{n}\\sum_{i=1}^{n}(X_i - \\bar{X})^2$ 是有偏估计,因为 $E(\\hat{\\sigma}^2) = \\dfrac{n-1}{n}\\sigma^2 \\neq \\sigma^2$。

3.4.2 有效性

定义 3.4(有效性):设 $\\hat{\\theta}_1$ 和 $\\hat{\\theta}_2$ 都是 $\\theta$ 的无偏估计,若对任意 $\\theta \\in \\Theta$,有:

$$D(\\hat{\\theta}_1) \\leq D(\\hat{\\theta}_2)$$

且至少对一个 $\\theta$ 严格不等,则称 $\\hat{\\theta}_1$ 比 $\\hat{\\theta}_2$ 有效

定义 3.5(最小方差无偏估计):设 $\\hat{\\theta}^*$ 是 $\\theta$ 的无偏估计,若对 $\\theta$ 的任一无偏估计 $\\hat{\\theta}$,有:

$$D(\\hat{\\theta}^*) \\leq D(\\hat{\\theta})$$

则称 $\\hat{\\theta}^*$ 是 $\\theta$ 的最小方差无偏估计(Minimum Variance Unbiased Estimator, MVUE)。

3.4.3 Cramér-Rao不等式

定理 3.2(Cramér-Rao不等式):设总体 $X$ 的概率密度函数为 $f(x; \\theta)$,$X_1, X_2, \\ldots, X_n$ 是样本。在一定的正则条件下,若 $\\hat{\\theta}$ 是 $\\theta$ 的任一无偏估计,则:

$$D(\\hat{\\theta}) \\geq \\frac{1}{nI(\\theta)}$$

其中 $I(\\theta) = E\\left[\\left(\\dfrac{\\partial \ln f(X; \\theta)}{\\partial \\theta}\\right)^2\\right]$ 称为Fisher信息量

等号成立当且仅当: $$\\frac{\\partial \ln L}{\\partial \\theta} = C(\\theta)(\\hat{\\theta} - \\theta)$$

若某无偏估计的方差达到Cramér-Rao下界,则它必定是MVUE。

3.4.4 相合性

定义 3.6(相合性):设 $\\hat{\\theta}_n = \\hat{\\theta}(X_1, X_2, \\ldots, X_n)$ 是参数 $\\theta$ 的估计量,若对任意 $\\varepsilon > 0$,有:

$$\\lim_{n\\to\\infty}P(|\\hat{\\theta}_n - \\theta| \\geq \\varepsilon) = 0$$

则称 $\\hat{\\theta}_n$ 是 $\\theta$ 的相合估计量(Consistent Estimator),也称一致估计量

等价地,$\\hat{\\theta}_n \\xrightarrow{P} \\theta$(依概率收敛)。

定理 3.3:若 $\\hat{\\theta}_n$ 满足:

  • $\\lim_{n\\to\\infty}E(\\hat{\\theta}_n) = \\theta$(渐近无偏)
  • $\\lim_{n\\to\\infty}D(\\hat{\\theta}_n) = 0$

则 $\\hat{\\theta}_n$ 是 $\\theta$ 的相合估计。

证明:由切比雪夫不等式: $$P(|\\hat{\\theta}_n - \\theta| \\geq \\varepsilon) \\leq \\frac{E[(\\hat{\\theta}_n - \\theta)^2]}{\\varepsilon^2} = \\frac{D(\\hat{\\theta}_n) + [E(\\hat{\\theta}_n) - \\theta]^2}{\\varepsilon^2} \\to 0$$

3.5 例题详解

例 3.8:设总体 $X$ 服从指数分布 $Exp(\\lambda)$,即 $f(x; \\lambda) = \\lambda e^{-\lambda x}$($x > 0$),求 $\\lambda$ 的矩估计和最大似然估计,并比较它们的性质。

矩估计:由于 $E(X) = \\dfrac{1}{\\lambda}$,令 $\\bar{X} = \\dfrac{1}{\\lambda}$,得: $$\\hat{\\lambda}_{ME} = \\frac{1}{\\bar{X}}$$

最大似然估计:似然函数为: $$L(\\lambda) = \\prod_{i=1}^{n}\\lambda e^{-\lambda x_i} = \\lambda^n e^{-\lambda\\sum x_i}$$

对数似然函数: $$l(\\lambda) = n\ln \\lambda - \\lambda\\sum_{i=1}^{n}x_i$$

求导: $$\\frac{dl}{d\\lambda} = \\frac{n}{\\lambda} - \\sum_{i=1}^{n}x_i = 0$$

解得: $$\\hat{\\lambda}_{MLE} = \\frac{n}{\\sum x_i} = \\frac{1}{\\bar{x}}$$

性质分析

  • 无偏性:$E(\\hat{\\lambda}) = E(1/\\bar{X}) \\neq 1/E(\\bar{X}) = \\lambda$,所以 $\\hat{\\lambda}$ 是有偏估计
  • 相合性:由大数定律,$\\bar{X} \\xrightarrow{P} 1/\\lambda$,由连续映射定理,$\\hat{\\lambda} = 1/\\bar{X} \\xrightarrow{P} \\lambda$,所以 $\\hat{\\lambda}$ 是相合估计

3.6 习题

基础练习

1. 设总体 $X$ 服从几何分布 $P(X = k) = p(1-p)^{k-1}$($k = 1, 2, \\ldots$),求 $p$ 的矩估计和最大似然估计。

2. 设总体 $X$ 服从伽马分布 $Ga(\\alpha, \\lambda)$,其中 $\\alpha$ 已知,求 $\\lambda$ 的最大似然估计。

3. 设总体 $X$ 的概率密度函数为 $f(x; \\theta) = \\theta x^{\\theta-1}$($0 < x < 1$,$\\theta > 0$),求 $\\theta$ 的矩估计和最大似然估计。

4. 证明:对于正态总体 $N(\\mu, \\sigma^2)$,$\\bar{X}$ 是 $\\mu$ 的MVUE。

进阶练习

5. 设 $X_1, X_2, \\ldots, X_n$ 是来自均匀分布 $U(0, \\theta)$ 的样本,求 $\\theta$ 的最大似然估计,并判断其是否为无偏估计。

6. 设 $X_1, X_2, \\ldots, X_n$ 是来自柯西分布 $f(x; \\theta) = \\dfrac{1}{\\pi[1+(x-\\theta)^2]}$ 的样本,证明样本均值 $\\bar{X}$ 不是 $\\theta$ 的相合估计。

7. 设 $X_1, X_2, \\ldots, X_n$ 是来自正态总体 $N(\\mu, \\sigma^2)$ 的样本,比较两个估计量 $S_1^2 = \\dfrac{1}{n}\\sum(X_i-\\bar{X})^2$ 和 $S_2^2 = \\dfrac{1}{n+1}\\sum(X_i-\\bar{X})^2$ 的均方误差。

综合应用

8. 某电子元件的寿命 $X$(小时)服从指数分布 $Exp(\\lambda)$。随机抽取10个元件进行寿命试验,得到数据(小时):

 120, 150, 180, 95, 210, 165, 140, 195, 175, 200
 (a) 求 $\\lambda$ 的矩估计和最大似然估计;
 (b) 估计该元件的平均寿命;
 (c) 估计 $P(X > 180)$。

9. 设总体 $X$ 服从对数正态分布,即 $Y = \ln X \\sim N(\\mu, \\sigma^2)$。

 (a) 求 $E(X)$ 和 $D(X)$;
 (b) 若 $X_1, X_2, \\ldots, X_n$ 是样本,求 $\\mu$、$\\sigma^2$ 和 $E(X)$ 的最大似然估计。

10. 设 $X_1, X_2, \\ldots, X_n$ 是来自双参数指数分布的样本,密度函数为:

  $$f(x; \\mu, \\sigma) = \\frac{1}{\\sigma}\\exp\\left\\{-\\frac{x-\\mu}{\\sigma}\\right\\}, \\quad x \\geq \\mu$$
  (a) 求 $\\mu$ 和 $\\sigma$ 的最大似然估计;
  (b) 判断这些估计量是否无偏;
  (c) 若 $\\mu$ 已知,求 $\\sigma$ 的MVUE。

本章小结

本章介绍了点估计的基本方法:

  • 矩估计法:用样本矩代替总体矩,简单易行,但可能效率不高
  • 最大似然估计法:使似然函数最大化,具有良好的渐近性质
  • 评价标准
    1. 无偏性:$E(\\hat{\\theta}) = \\theta$
    2. 有效性:方差越小越好,MVUE方差最小
    3. 相合性:$\\hat{\\theta}_n \\xrightarrow{P} \\theta$
  • Cramér-Rao不等式:给出了无偏估计方差的下界

点估计是统计推断的基础,选择合适的估计方法和评价估计量的性质是统计推断的重要内容。

数理统计/第三章_点估计.txt · 最后更改: 127.0.0.1