目录

第五章 贝叶斯估计

5.1 贝叶斯统计的基本思想

5.1.1 频率学派与贝叶斯学派

统计学中有两大主要学派:

频率学派(经典统计)

贝叶斯学派

5.1.2 贝叶斯公式

贝叶斯定理:设 $A_1, A_2, \\ldots, A_n$ 是样本空间的一个划分,$B$ 是任一事件,则:

$$P(A_i|B) = \\frac{P(B|A_i)P(A_i)}{\\sum_{j=1}^{n}P(B|A_j)P(A_j)}$$

在连续情形下,设 $\\theta$ 是参数,$x$ 是观测数据,则:

$$\\pi(\\theta|x) = \\frac{f(x|\\theta)\\pi(\\theta)}{\\int f(x|\\theta)\\pi(\\theta)d\\theta}$$

其中:

5.2 先验分布的选取

5.2.1 先验分布的类型

(1) 无信息先验(Non-informative Prior)

当对参数没有任何先验知识时,采用无信息先验。

Jeffreys先验具有参数变换不变性。

(2) 共轭先验(Conjugate Prior)

若先验分布和后验分布属于同一分布族,则称该先验为共轭先验。共轭先验使得计算简便。

(3) 主观先验(Subjective Prior)

基于专家经验或历史信息确定的主观先验分布。

5.2.2 先验分布的确定方法

5.3 共轭先验分布

5.3.1 二项分布的共轭先验

设 $X|\\theta \\sim B(n, \\theta)$,观测到 $X = k$。

共轭先验:Beta分布 $Beta(\\alpha, \\beta)$

$$\\pi(\\theta) = \\frac{\\Gamma(\\alpha + \\beta)}{\\Gamma(\\alpha)\\Gamma(\\beta)}\\theta^{\\alpha-1}(1-\\theta)^{\\beta-1}, \\quad 0 < \\theta < 1$$

后验分布: $$\\pi(\\theta|k) \\propto \\theta^k(1-\\theta)^{n-k} \\cdot \\theta^{\\alpha-1}(1-\\theta)^{\\beta-1} = \\theta^{\\alpha+k-1}(1-\\theta)^{\\beta+n-k-1}$$

因此: $$\\theta|k \\sim Beta(\\alpha + k, \\beta + n - k)$$

解释:先验相当于 $\\alpha + \\beta - 2$ 次试验中成功了 $\\alpha - 1$ 次。

5.3.2 正态分布的共轭先验

(1) 方差已知,均值未知

设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\theta, \\sigma^2)$,$\\sigma^2$ 已知。

共轭先验:$\\theta \\sim N(\\mu_0, \\tau_0^2)$

后验分布: $$\\theta|x \\sim N(\\mu_n, \\tau_n^2)$$

其中: $$\\mu_n = \\frac{\\dfrac{\\mu_0}{\\tau_0^2} + \\dfrac{n\\bar{x}}{\\sigma^2}}{\\dfrac{1}{\\tau_0^2} + \\dfrac{n}{\\sigma^2}}$$

$$\\frac{1}{\\tau_n^2} = \\frac{1}{\\tau_0^2} + \\frac{n}{\\sigma^2}$$

解释:后验均值是先验均值和样本均值的加权平均,权重与精度(方差的倒数)成正比。

(2) 均值已知,方差未知

共轭先验:逆Gamma分布 $IG(\\alpha, \\beta)$ 或 Gamma分布对精度 $\\tau = 1/\\sigma^2$。

(3) 均值和方差都未知

共轭先验:正态-逆Gamma分布(Normal-Inverse-Gamma)或正态-Gamma分布对 $(\\mu, \\tau)$。

5.3.3 泊松分布的共轭先验

设 $X_1, X_2, \\ldots, X_n$ 来自 $P(\\lambda)$。

共轭先验:Gamma分布 $Ga(\\alpha, \\beta)$

$$\\pi(\\lambda) = \\frac{\\beta^\\alpha}{\\Gamma(\\alpha)}\\lambda^{\\alpha-1}e^{-\beta\\lambda}$$

后验分布: $$\\lambda|x \\sim Ga\\left(\\alpha + \\sum_{i=1}^{n}x_i, \\beta + n\\right)$$

5.3.4 指数分布的共轭先验

设 $X_1, X_2, \\ldots, X_n$ 来自 $Exp(\\lambda)$。

共轭先验:Gamma分布 $Ga(\\alpha, \\beta)$

后验分布: $$\\lambda|x \\sim Ga\\left(\\alpha + n, \\beta + \\sum_{i=1}^{n}x_i\\right)$$

5.4 贝叶斯估计量

5.4.1 点估计

从后验分布可以得到参数的点估计:

(1) 后验均值估计: $$\\hat{\\theta}_{PM} = E(\\theta|x) = \\int \\theta \\pi(\\theta|x)d\\theta$$

(2) 后验中位数估计: $$\\hat{\\theta}_{PMed} = Median(\\theta|x)$$

(3) 后验众数估计(最大后验估计,MAP): $$\\hat{\\theta}_{MAP} = \\arg\\max_{\\theta} \\pi(\\theta|x)$$

5.4.2 最大后验估计(MAP)

MAP估计等价于最大化: $$\\pi(\\theta|x) \\propto f(x|\\theta)\\pi(\\theta)$$

或最大化对数形式: $$\ln f(x|\\theta) + \ln \\pi(\\theta)$$

当使用均匀先验时,MAP估计等价于最大似然估计。

5.4.3 区间估计(可信区间)

定义 5.1(可信区间):若 $P(\\theta_L \\leq \\theta \\leq \\theta_U|x) = 1 - \\alpha$,则称 $[\\theta_L, \\theta_U]$ 为 $\\theta$ 的可信度为 $1-\\alpha$ 的可信区间(Credible Interval)。

与频率学派的置信区间不同,对于贝叶斯可信区间,可以说“$\\theta$ 落入该区间的概率为 $1-\\alpha$”,因为 $\\theta$ 是随机变量。

5.5 贝叶斯决策理论

5.5.1 损失函数

定义 5.2(损失函数):设 $\\theta$ 为真实参数,$a$ 为采取的行动(估计值),损失函数 $L(\\theta, a)$ 表示当真实参数为 $\\theta$ 而采取行动 $a$ 时所遭受的损失。

常用损失函数:

5.5.2 风险函数与贝叶斯风险

定义 5.3(风险函数): $$R(\\theta, \\delta) = E_\\theta[L(\\theta, \\delta(X))]$$

定义 5.4(贝叶斯风险): $$r(\\pi, \\delta) = E^\\pi[R(\\theta, \\delta)] = \\int R(\\theta, \\delta)\\pi(\\theta)d\\theta$$

5.5.3 贝叶斯估计的性质

定理 5.1:在平方损失函数下,贝叶斯估计为后验均值: $$\\hat{\\theta} = E(\\theta|x)$$

定理 5.2:在绝对值损失函数下,贝叶斯估计为后验中位数。

定理 5.3:在0-1损失函数下,贝叶斯估计为后验众数(MAP估计)。

5.6 层次贝叶斯模型

5.6.1 层次模型的概念

在复杂问题中,先验分布可能包含未知参数(超参数),这些超参数又可以有先验分布,形成层次结构。

:正态模型 $$X_i|\\theta \\sim N(\\theta, \\sigma^2)$$ $$\\theta|\\mu_0, \\tau_0^2 \\sim N(\\mu_0, \\tau_0^2)$$ $$\\mu_0 \\sim N(0, 100)$$

5.6.2 经验贝叶斯方法

经验贝叶斯方法利用数据来估计超参数,然后使用估计的超参数进行贝叶斯分析。

5.7 例题详解

例 5.1:设某产品的不合格率为 $\\theta$,先验分布为 $Beta(2, 8)$。现随机抽取20件产品,发现2件不合格。求 $\\theta$ 的贝叶斯估计。

先验:$\\pi(\\theta) = Beta(2, 8)$

似然:$X|\\theta \\sim B(20, \\theta)$,观测到 $X = 2$

后验: $$\\pi(\\theta|x=2) = Beta(2+2, 8+20-2) = Beta(4, 26)$$

后验均值估计: $$\\hat{\\theta} = \\frac{4}{4+26} = \\frac{4}{30} = 0.133$$

后验众数估计: $$\\hat{\\theta}_{MAP} = \\frac{4-1}{4+26-2} = \\frac{3}{28} = 0.107$$

95%可信区间:查Beta分布表或使用软件计算 $Beta(4, 26)$ 的0.025和0.975分位数,约为 $[0.038, 0.282]$。

例 5.2:设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\theta, 1)$,先验 $\\theta \\sim N(0, 1)$。求 $\\theta$ 的贝叶斯估计。

后验分布参数: $$\\mu_n = \\frac{0 + n\\bar{x}}{1 + n} = \\frac{n\\bar{x}}{n+1}$$ $$\\tau_n^2 = \\frac{1}{1+n}$$

贝叶斯估计(后验均值): $$\\hat{\\theta} = \\frac{n\\bar{x}}{n+1}$$

这是样本均值和先验均值的加权平均,当 $n \\to \\infty$ 时,$\\hat{\\theta} \\to \\bar{x}$。

5.8 习题

基础练习

1. 设 $X|\\theta \\sim B(n, \\theta)$,先验 $\\theta \\sim Beta(1, 1)$(即均匀分布)。观测到 $X = k$,求后验分布和贝叶斯估计。

2. 设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\theta, \\sigma^2)$,$\\sigma^2$ 已知,先验 $\\theta \\sim N(\\mu_0, \\tau_0^2)$。证明后验分布也是正态分布,并求后验均值和方差。

3. 设 $X_1, X_2, \\ldots, X_n$ 来自 $P(\\lambda)$,先验 $\\lambda \\sim Ga(\\alpha, \\beta)$。求 $\\lambda$ 的后验均值估计。

4. 解释为什么最大似然估计可以看作是使用均匀先验的MAP估计。

进阶练习

5. 设 $X|\\theta \\sim N(\\theta, 1)$,先验 $\\theta$ 服从柯西分布。证明后验分布仍然是合理的分布(虽然先验不是共轭先验)。

6. 设 $X_1, X_2, \\ldots, X_n$ 来自 $Exp(\\lambda)$。

 (a) 使用Jeffreys先验,求后验分布;
 (b) 求 $\\lambda$ 的贝叶斯估计。

7. 证明:在平方损失函数下,贝叶斯风险最小的估计是后验均值。

综合应用

8. 某医院记录了100名某种疾病患者的治疗效果,其中60人治愈。设治愈率为 $\\theta$,使用 $Beta(2, 2)$ 作为先验。

 (a) 求 $\\theta$ 的后验分布;
 (b) 求 $\\theta$ 的贝叶斯估计(后验均值);
 (c) 求 $\\theta$ 的95%可信区间。

9. 设某机器生产的零件尺寸服从 $N(\\theta, 4)$。历史数据显示 $\\theta$ 大致服从 $N(100, 1)$。现随机抽取10个零件,测得平均尺寸为102。

 (a) 求 $\\theta$ 的后验分布;
 (b) 求 $\\theta$ 的贝叶斯估计;
 (c) 比较贝叶斯估计和样本均值的均方误差。

10. 考虑正态-逆Gamma共轭先验:

  $$X_i|\\mu, \\sigma^2 \\sim N(\\mu, \\sigma^2)$$
  $$\\mu|\\sigma^2 \\sim N(\\mu_0, \\sigma^2/\\kappa_0)$$
  $$\\sigma^2 \\sim IG(\\nu_0/2, \\nu_0\\sigma_0^2/2)$$
  (a) 推导后验分布的形式;
  (b) 解释各超参数的意义;
  (c) 讨论当样本量增大时后验分布的变化。

本章小结

本章介绍了贝叶斯统计的基本方法:

贝叶斯方法的优势在于能够整合先验信息和样本信息,在小样本情况下尤其有效,且结果解释更加直观。