张叶安的小站

本页面只读。您可以查看源文件，但不能更改它。如果您觉得这是系统错误，请联系管理员。
====== 第五章 贝叶斯估计 ======

===== 5.1 贝叶斯统计的基本思想 =====

==== 5.1.1 频率学派与贝叶斯学派 ====

统计学中有两大主要学派：

**频率学派（经典统计）**：
  * 参数 $\\theta$ 是固定的未知常数
  * 概率是长期频率的极限
  * 统计推断基于样本信息

**贝叶斯学派**：
  * 参数 $\\theta$ 是随机变量，有概率分布
  * 概率表示主观信念程度
  * 统计推断结合先验信息和样本信息

==== 5.1.2 贝叶斯公式 ====

**贝叶斯定理**：设 $A_1, A_2, \\ldots, A_n$ 是样本空间的一个划分，$B$ 是任一事件，则：

$$P(A_i|B) = \\frac{P(B|A_i)P(A_i)}{\\sum_{j=1}^{n}P(B|A_j)P(A_j)}$$

在连续情形下，设 $\\theta$ 是参数，$x$ 是观测数据，则：

$$\\pi(\\theta|x) = \\frac{f(x|\\theta)\\pi(\\theta)}{\\int f(x|\\theta)\\pi(\\theta)d\\theta}$$

其中：
  * $\\pi(\\theta)$：**先验分布**（Prior Distribution），表示在观测数据前对参数的认知
  * $f(x|\\theta)$：**似然函数**（Likelihood），表示在给定参数下观测到数据的概率
  * $\\pi(\\theta|x)$：**后验分布**（Posterior Distribution），表示在观测数据后对参数的更新认知
  * $m(x) = \\int f(x|\\theta)\\pi(\\theta)d\\theta$：**边缘分布**（Marginal Distribution）

===== 5.2 先验分布的选取 =====

==== 5.2.1 先验分布的类型 ====

**(1) 无信息先验（Non-informative Prior）**：

当对参数没有任何先验知识时，采用无信息先验。

  * **均匀先验**：$\\pi(\\theta) \\propto 1$，表示所有值等可能
  * **Jeffreys先验**：$\\pi(\\theta) \\propto \\sqrt{I(\\theta)}$，其中 $I(\\theta)$ 是Fisher信息量

Jeffreys先验具有参数变换不变性。

**(2) 共轭先验（Conjugate Prior）**：

若先验分布和后验分布属于同一分布族，则称该先验为共轭先验。共轭先验使得计算简便。

**(3) 主观先验（Subjective Prior）**：

基于专家经验或历史信息确定的主观先验分布。

==== 5.2.2 先验分布的确定方法 ====

  * **经验贝叶斯**：利用历史数据估计先验分布
  * **分层贝叶斯**：先验分布的参数（超参数）也有先验
  * **专家判断**：基于领域专家的经验确定

===== 5.3 共轭先验分布 =====

==== 5.3.1 二项分布的共轭先验 ====

设 $X|\\theta \\sim B(n, \\theta)$，观测到 $X = k$。

**共轭先验**：Beta分布 $Beta(\\alpha, \\beta)$

$$\\pi(\\theta) = \\frac{\\Gamma(\\alpha + \\beta)}{\\Gamma(\\alpha)\\Gamma(\\beta)}\\theta^{\\alpha-1}(1-\\theta)^{\\beta-1}, \\quad 0 < \\theta < 1$$

**后验分布**：
$$\\pi(\\theta|k) \\propto \\theta^k(1-\\theta)^{n-k} \\cdot \\theta^{\\alpha-1}(1-\\theta)^{\\beta-1} = \\theta^{\\alpha+k-1}(1-\\theta)^{\\beta+n-k-1}$$

因此：
$$\\theta|k \\sim Beta(\\alpha + k, \\beta + n - k)$$

**解释**：先验相当于 $\\alpha + \\beta - 2$ 次试验中成功了 $\\alpha - 1$ 次。

==== 5.3.2 正态分布的共轭先验 ====

**(1) 方差已知，均值未知**：

设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\theta, \\sigma^2)$，$\\sigma^2$ 已知。

**共轭先验**：$\\theta \\sim N(\\mu_0, \\tau_0^2)$

**后验分布**：
$$\\theta|x \\sim N(\\mu_n, \\tau_n^2)$$

其中：
$$\\mu_n = \\frac{\\dfrac{\\mu_0}{\\tau_0^2} + \\dfrac{n\\bar{x}}{\\sigma^2}}{\\dfrac{1}{\\tau_0^2} + \\dfrac{n}{\\sigma^2}}$$

$$\\frac{1}{\\tau_n^2} = \\frac{1}{\\tau_0^2} + \\frac{n}{\\sigma^2}$$

**解释**：后验均值是先验均值和样本均值的加权平均，权重与精度（方差的倒数）成正比。

**(2) 均值已知，方差未知**：

**共轭先验**：逆Gamma分布 $IG(\\alpha, \\beta)$ 或 Gamma分布对精度 $\\tau = 1/\\sigma^2$。

**(3) 均值和方差都未知**：

**共轭先验**：正态-逆Gamma分布（Normal-Inverse-Gamma）或正态-Gamma分布对 $(\\mu, \\tau)$。

==== 5.3.3 泊松分布的共轭先验 ====

设 $X_1, X_2, \\ldots, X_n$ 来自 $P(\\lambda)$。

**共轭先验**：Gamma分布 $Ga(\\alpha, \\beta)$

$$\\pi(\\lambda) = \\frac{\\beta^\\alpha}{\\Gamma(\\alpha)}\\lambda^{\\alpha-1}e^{-\beta\\lambda}$$

**后验分布**：
$$\\lambda|x \\sim Ga\\left(\\alpha + \\sum_{i=1}^{n}x_i, \\beta + n\\right)$$

==== 5.3.4 指数分布的共轭先验 ====

设 $X_1, X_2, \\ldots, X_n$ 来自 $Exp(\\lambda)$。

**共轭先验**：Gamma分布 $Ga(\\alpha, \\beta)$

**后验分布**：
$$\\lambda|x \\sim Ga\\left(\\alpha + n, \\beta + \\sum_{i=1}^{n}x_i\\right)$$

===== 5.4 贝叶斯估计量 =====

==== 5.4.1 点估计 ====

从后验分布可以得到参数的点估计：

**(1) 后验均值估计**：
$$\\hat{\\theta}_{PM} = E(\\theta|x) = \\int \\theta \\pi(\\theta|x)d\\theta$$

**(2) 后验中位数估计**：
$$\\hat{\\theta}_{PMed} = Median(\\theta|x)$$

**(3) 后验众数估计（最大后验估计，MAP）**：
$$\\hat{\\theta}_{MAP} = \\arg\\max_{\\theta} \\pi(\\theta|x)$$

==== 5.4.2 最大后验估计（MAP） ====

MAP估计等价于最大化：
$$\\pi(\\theta|x) \\propto f(x|\\theta)\\pi(\\theta)$$

或最大化对数形式：
$$\ln f(x|\\theta) + \ln \\pi(\\theta)$$

当使用均匀先验时，MAP估计等价于最大似然估计。

==== 5.4.3 区间估计（可信区间） ====

**定义 5.1（可信区间）**：若 $P(\\theta_L \\leq \\theta \\leq \\theta_U|x) = 1 - \\alpha$，则称 $[\\theta_L, \\theta_U]$ 为 $\\theta$ 的**可信度为 $1-\\alpha$ 的可信区间**（Credible Interval）。

与频率学派的置信区间不同，对于贝叶斯可信区间，可以说"$\\theta$ 落入该区间的概率为 $1-\\alpha$"，因为 $\\theta$ 是随机变量。

===== 5.5 贝叶斯决策理论 =====

==== 5.5.1 损失函数 ====

**定义 5.2（损失函数）**：设 $\\theta$ 为真实参数，$a$ 为采取的行动（估计值），损失函数 $L(\\theta, a)$ 表示当真实参数为 $\\theta$ 而采取行动 $a$ 时所遭受的损失。

常用损失函数：
  * **平方损失**：$L(\\theta, a) = (\\theta - a)^2$
  * **绝对值损失**：$L(\\theta, a) = |\\theta - a|$
  * **0-1损失**：$L(\\theta, a) = \\begin{cases} 0, & |\\theta - a| \\leq \\varepsilon \\ 1, & |\\theta - a| > \\varepsilon \\end{cases}$

==== 5.5.2 风险函数与贝叶斯风险 ====

**定义 5.3（风险函数）**：
$$R(\\theta, \\delta) = E_\\theta[L(\\theta, \\delta(X))]$$

**定义 5.4（贝叶斯风险）**：
$$r(\\pi, \\delta) = E^\\pi[R(\\theta, \\delta)] = \\int R(\\theta, \\delta)\\pi(\\theta)d\\theta$$

==== 5.5.3 贝叶斯估计的性质 ====

**定理 5.1**：在平方损失函数下，贝叶斯估计为后验均值：
$$\\hat{\\theta} = E(\\theta|x)$$

**定理 5.2**：在绝对值损失函数下，贝叶斯估计为后验中位数。

**定理 5.3**：在0-1损失函数下，贝叶斯估计为后验众数（MAP估计）。

===== 5.6 层次贝叶斯模型 =====

==== 5.6.1 层次模型的概念 ====

在复杂问题中，先验分布可能包含未知参数（超参数），这些超参数又可以有先验分布，形成层次结构。

**例**：正态模型
$$X_i|\\theta \\sim N(\\theta, \\sigma^2)$$
$$\\theta|\\mu_0, \\tau_0^2 \\sim N(\\mu_0, \\tau_0^2)$$
$$\\mu_0 \\sim N(0, 100)$$

==== 5.6.2 经验贝叶斯方法 ====

经验贝叶斯方法利用数据来估计超参数，然后使用估计的超参数进行贝叶斯分析。

===== 5.7 例题详解 =====

**例 5.1**：设某产品的不合格率为 $\\theta$，先验分布为 $Beta(2, 8)$。现随机抽取20件产品，发现2件不合格。求 $\\theta$ 的贝叶斯估计。

**解**：

先验：$\\pi(\\theta) = Beta(2, 8)$

似然：$X|\\theta \\sim B(20, \\theta)$，观测到 $X = 2$

后验：
$$\\pi(\\theta|x=2) = Beta(2+2, 8+20-2) = Beta(4, 26)$$

后验均值估计：
$$\\hat{\\theta} = \\frac{4}{4+26} = \\frac{4}{30} = 0.133$$

后验众数估计：
$$\\hat{\\theta}_{MAP} = \\frac{4-1}{4+26-2} = \\frac{3}{28} = 0.107$$

95%可信区间：查Beta分布表或使用软件计算 $Beta(4, 26)$ 的0.025和0.975分位数，约为 $[0.038, 0.282]$。

**例 5.2**：设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\theta, 1)$，先验 $\\theta \\sim N(0, 1)$。求 $\\theta$ 的贝叶斯估计。

**解**：

后验分布参数：
$$\\mu_n = \\frac{0 + n\\bar{x}}{1 + n} = \\frac{n\\bar{x}}{n+1}$$
$$\\tau_n^2 = \\frac{1}{1+n}$$

贝叶斯估计（后验均值）：
$$\\hat{\\theta} = \\frac{n\\bar{x}}{n+1}$$

这是样本均值和先验均值的加权平均，当 $n \\to \\infty$ 时，$\\hat{\\theta} \\to \\bar{x}$。

===== 5.8 习题 =====

==== 基础练习 ====

1. 设 $X|\\theta \\sim B(n, \\theta)$，先验 $\\theta \\sim Beta(1, 1)$（即均匀分布）。观测到 $X = k$，求后验分布和贝叶斯估计。

2. 设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\theta, \\sigma^2)$，$\\sigma^2$ 已知，先验 $\\theta \\sim N(\\mu_0, \\tau_0^2)$。证明后验分布也是正态分布，并求后验均值和方差。

3. 设 $X_1, X_2, \\ldots, X_n$ 来自 $P(\\lambda)$，先验 $\\lambda \\sim Ga(\\alpha, \\beta)$。求 $\\lambda$ 的后验均值估计。

4. 解释为什么最大似然估计可以看作是使用均匀先验的MAP估计。

==== 进阶练习 ====

5. 设 $X|\\theta \\sim N(\\theta, 1)$，先验 $\\theta$ 服从柯西分布。证明后验分布仍然是合理的分布（虽然先验不是共轭先验）。

6. 设 $X_1, X_2, \\ldots, X_n$ 来自 $Exp(\\lambda)$。
   (a) 使用Jeffreys先验，求后验分布；
   (b) 求 $\\lambda$ 的贝叶斯估计。

7. 证明：在平方损失函数下，贝叶斯风险最小的估计是后验均值。

==== 综合应用 ====

8. 某医院记录了100名某种疾病患者的治疗效果，其中60人治愈。设治愈率为 $\\theta$，使用 $Beta(2, 2)$ 作为先验。
   (a) 求 $\\theta$ 的后验分布；
   (b) 求 $\\theta$ 的贝叶斯估计（后验均值）；
   (c) 求 $\\theta$ 的95%可信区间。

9. 设某机器生产的零件尺寸服从 $N(\\theta, 4)$。历史数据显示 $\\theta$ 大致服从 $N(100, 1)$。现随机抽取10个零件，测得平均尺寸为102。
   (a) 求 $\\theta$ 的后验分布；
   (b) 求 $\\theta$ 的贝叶斯估计；
   (c) 比较贝叶斯估计和样本均值的均方误差。

10. 考虑正态-逆Gamma共轭先验：
    $$X_i|\\mu, \\sigma^2 \\sim N(\\mu, \\sigma^2)$$
    $$\\mu|\\sigma^2 \\sim N(\\mu_0, \\sigma^2/\\kappa_0)$$
    $$\\sigma^2 \\sim IG(\\nu_0/2, \\nu_0\\sigma_0^2/2)$$
    (a) 推导后验分布的形式；
    (b) 解释各超参数的意义；
    (c) 讨论当样本量增大时后验分布的变化。

===== 本章小结 =====

本章介绍了贝叶斯统计的基本方法：

  * **贝叶斯公式**：先验 + 似然 = 后验
  * **先验分布的选取**：
    - 无信息先验（均匀、Jeffreys）
    - 共轭先验（便于计算）
    - 主观先验（基于经验）
  * **共轭先验分布**：
    - 二项-Beta
    - 正态-正态（均值）
    - 泊松-Gamma
    - 指数-Gamma
  * **贝叶斯估计**：后验均值、后验中位数、MAP估计
  * **贝叶斯决策**：基于损失函数的最优决策

贝叶斯方法的优势在于能够整合先验信息和样本信息，在小样本情况下尤其有效，且结果解释更加直观。