目录
第五章 贝叶斯估计
5.1 贝叶斯统计的基本思想
5.1.1 频率学派与贝叶斯学派
统计学中有两大主要学派:
频率学派(经典统计):
- 参数 $\\theta$ 是固定的未知常数
- 概率是长期频率的极限
- 统计推断基于样本信息
贝叶斯学派:
- 参数 $\\theta$ 是随机变量,有概率分布
- 概率表示主观信念程度
- 统计推断结合先验信息和样本信息
5.1.2 贝叶斯公式
贝叶斯定理:设 $A_1, A_2, \\ldots, A_n$ 是样本空间的一个划分,$B$ 是任一事件,则:
$$P(A_i|B) = \\frac{P(B|A_i)P(A_i)}{\\sum_{j=1}^{n}P(B|A_j)P(A_j)}$$
在连续情形下,设 $\\theta$ 是参数,$x$ 是观测数据,则:
$$\\pi(\\theta|x) = \\frac{f(x|\\theta)\\pi(\\theta)}{\\int f(x|\\theta)\\pi(\\theta)d\\theta}$$
其中:
- $\\pi(\\theta)$:先验分布(Prior Distribution),表示在观测数据前对参数的认知
- $f(x|\\theta)$:似然函数(Likelihood),表示在给定参数下观测到数据的概率
- $\\pi(\\theta|x)$:后验分布(Posterior Distribution),表示在观测数据后对参数的更新认知
- $m(x) = \\int f(x|\\theta)\\pi(\\theta)d\\theta$:边缘分布(Marginal Distribution)
5.2 先验分布的选取
5.2.1 先验分布的类型
(1) 无信息先验(Non-informative Prior):
当对参数没有任何先验知识时,采用无信息先验。
- 均匀先验:$\\pi(\\theta) \\propto 1$,表示所有值等可能
- Jeffreys先验:$\\pi(\\theta) \\propto \\sqrt{I(\\theta)}$,其中 $I(\\theta)$ 是Fisher信息量
Jeffreys先验具有参数变换不变性。
(2) 共轭先验(Conjugate Prior):
若先验分布和后验分布属于同一分布族,则称该先验为共轭先验。共轭先验使得计算简便。
(3) 主观先验(Subjective Prior):
基于专家经验或历史信息确定的主观先验分布。
5.2.2 先验分布的确定方法
- 经验贝叶斯:利用历史数据估计先验分布
- 分层贝叶斯:先验分布的参数(超参数)也有先验
- 专家判断:基于领域专家的经验确定
5.3 共轭先验分布
5.3.1 二项分布的共轭先验
设 $X|\\theta \\sim B(n, \\theta)$,观测到 $X = k$。
共轭先验:Beta分布 $Beta(\\alpha, \\beta)$
$$\\pi(\\theta) = \\frac{\\Gamma(\\alpha + \\beta)}{\\Gamma(\\alpha)\\Gamma(\\beta)}\\theta^{\\alpha-1}(1-\\theta)^{\\beta-1}, \\quad 0 < \\theta < 1$$
后验分布: $$\\pi(\\theta|k) \\propto \\theta^k(1-\\theta)^{n-k} \\cdot \\theta^{\\alpha-1}(1-\\theta)^{\\beta-1} = \\theta^{\\alpha+k-1}(1-\\theta)^{\\beta+n-k-1}$$
因此: $$\\theta|k \\sim Beta(\\alpha + k, \\beta + n - k)$$
解释:先验相当于 $\\alpha + \\beta - 2$ 次试验中成功了 $\\alpha - 1$ 次。
5.3.2 正态分布的共轭先验
(1) 方差已知,均值未知:
设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\theta, \\sigma^2)$,$\\sigma^2$ 已知。
共轭先验:$\\theta \\sim N(\\mu_0, \\tau_0^2)$
后验分布: $$\\theta|x \\sim N(\\mu_n, \\tau_n^2)$$
其中: $$\\mu_n = \\frac{\\dfrac{\\mu_0}{\\tau_0^2} + \\dfrac{n\\bar{x}}{\\sigma^2}}{\\dfrac{1}{\\tau_0^2} + \\dfrac{n}{\\sigma^2}}$$
$$\\frac{1}{\\tau_n^2} = \\frac{1}{\\tau_0^2} + \\frac{n}{\\sigma^2}$$
解释:后验均值是先验均值和样本均值的加权平均,权重与精度(方差的倒数)成正比。
(2) 均值已知,方差未知:
共轭先验:逆Gamma分布 $IG(\\alpha, \\beta)$ 或 Gamma分布对精度 $\\tau = 1/\\sigma^2$。
(3) 均值和方差都未知:
共轭先验:正态-逆Gamma分布(Normal-Inverse-Gamma)或正态-Gamma分布对 $(\\mu, \\tau)$。
5.3.3 泊松分布的共轭先验
设 $X_1, X_2, \\ldots, X_n$ 来自 $P(\\lambda)$。
共轭先验:Gamma分布 $Ga(\\alpha, \\beta)$
$$\\pi(\\lambda) = \\frac{\\beta^\\alpha}{\\Gamma(\\alpha)}\\lambda^{\\alpha-1}e^{-\beta\\lambda}$$
后验分布: $$\\lambda|x \\sim Ga\\left(\\alpha + \\sum_{i=1}^{n}x_i, \\beta + n\\right)$$
5.3.4 指数分布的共轭先验
设 $X_1, X_2, \\ldots, X_n$ 来自 $Exp(\\lambda)$。
共轭先验:Gamma分布 $Ga(\\alpha, \\beta)$
后验分布: $$\\lambda|x \\sim Ga\\left(\\alpha + n, \\beta + \\sum_{i=1}^{n}x_i\\right)$$
5.4 贝叶斯估计量
5.4.1 点估计
从后验分布可以得到参数的点估计:
(1) 后验均值估计: $$\\hat{\\theta}_{PM} = E(\\theta|x) = \\int \\theta \\pi(\\theta|x)d\\theta$$
(2) 后验中位数估计: $$\\hat{\\theta}_{PMed} = Median(\\theta|x)$$
(3) 后验众数估计(最大后验估计,MAP): $$\\hat{\\theta}_{MAP} = \\arg\\max_{\\theta} \\pi(\\theta|x)$$
5.4.2 最大后验估计(MAP)
MAP估计等价于最大化: $$\\pi(\\theta|x) \\propto f(x|\\theta)\\pi(\\theta)$$
或最大化对数形式: $$\ln f(x|\\theta) + \ln \\pi(\\theta)$$
当使用均匀先验时,MAP估计等价于最大似然估计。
5.4.3 区间估计(可信区间)
定义 5.1(可信区间):若 $P(\\theta_L \\leq \\theta \\leq \\theta_U|x) = 1 - \\alpha$,则称 $[\\theta_L, \\theta_U]$ 为 $\\theta$ 的可信度为 $1-\\alpha$ 的可信区间(Credible Interval)。
与频率学派的置信区间不同,对于贝叶斯可信区间,可以说“$\\theta$ 落入该区间的概率为 $1-\\alpha$”,因为 $\\theta$ 是随机变量。
5.5 贝叶斯决策理论
5.5.1 损失函数
定义 5.2(损失函数):设 $\\theta$ 为真实参数,$a$ 为采取的行动(估计值),损失函数 $L(\\theta, a)$ 表示当真实参数为 $\\theta$ 而采取行动 $a$ 时所遭受的损失。
常用损失函数:
- 平方损失:$L(\\theta, a) = (\\theta - a)^2$
- 绝对值损失:$L(\\theta, a) = |\\theta - a|$
- 0-1损失:$L(\\theta, a) = \\begin{cases} 0, & |\\theta - a| \\leq \\varepsilon
1, & |\\theta - a| > \\varepsilon \\end{cases}$
5.5.2 风险函数与贝叶斯风险
定义 5.3(风险函数): $$R(\\theta, \\delta) = E_\\theta[L(\\theta, \\delta(X))]$$
定义 5.4(贝叶斯风险): $$r(\\pi, \\delta) = E^\\pi[R(\\theta, \\delta)] = \\int R(\\theta, \\delta)\\pi(\\theta)d\\theta$$
5.5.3 贝叶斯估计的性质
定理 5.1:在平方损失函数下,贝叶斯估计为后验均值: $$\\hat{\\theta} = E(\\theta|x)$$
定理 5.2:在绝对值损失函数下,贝叶斯估计为后验中位数。
定理 5.3:在0-1损失函数下,贝叶斯估计为后验众数(MAP估计)。
5.6 层次贝叶斯模型
5.6.1 层次模型的概念
在复杂问题中,先验分布可能包含未知参数(超参数),这些超参数又可以有先验分布,形成层次结构。
例:正态模型 $$X_i|\\theta \\sim N(\\theta, \\sigma^2)$$ $$\\theta|\\mu_0, \\tau_0^2 \\sim N(\\mu_0, \\tau_0^2)$$ $$\\mu_0 \\sim N(0, 100)$$
5.6.2 经验贝叶斯方法
经验贝叶斯方法利用数据来估计超参数,然后使用估计的超参数进行贝叶斯分析。
5.7 例题详解
例 5.1:设某产品的不合格率为 $\\theta$,先验分布为 $Beta(2, 8)$。现随机抽取20件产品,发现2件不合格。求 $\\theta$ 的贝叶斯估计。
解:
先验:$\\pi(\\theta) = Beta(2, 8)$
似然:$X|\\theta \\sim B(20, \\theta)$,观测到 $X = 2$
后验: $$\\pi(\\theta|x=2) = Beta(2+2, 8+20-2) = Beta(4, 26)$$
后验均值估计: $$\\hat{\\theta} = \\frac{4}{4+26} = \\frac{4}{30} = 0.133$$
后验众数估计: $$\\hat{\\theta}_{MAP} = \\frac{4-1}{4+26-2} = \\frac{3}{28} = 0.107$$
95%可信区间:查Beta分布表或使用软件计算 $Beta(4, 26)$ 的0.025和0.975分位数,约为 $[0.038, 0.282]$。
例 5.2:设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\theta, 1)$,先验 $\\theta \\sim N(0, 1)$。求 $\\theta$ 的贝叶斯估计。
解:
后验分布参数: $$\\mu_n = \\frac{0 + n\\bar{x}}{1 + n} = \\frac{n\\bar{x}}{n+1}$$ $$\\tau_n^2 = \\frac{1}{1+n}$$
贝叶斯估计(后验均值): $$\\hat{\\theta} = \\frac{n\\bar{x}}{n+1}$$
这是样本均值和先验均值的加权平均,当 $n \\to \\infty$ 时,$\\hat{\\theta} \\to \\bar{x}$。
5.8 习题
基础练习
1. 设 $X|\\theta \\sim B(n, \\theta)$,先验 $\\theta \\sim Beta(1, 1)$(即均匀分布)。观测到 $X = k$,求后验分布和贝叶斯估计。
2. 设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\theta, \\sigma^2)$,$\\sigma^2$ 已知,先验 $\\theta \\sim N(\\mu_0, \\tau_0^2)$。证明后验分布也是正态分布,并求后验均值和方差。
3. 设 $X_1, X_2, \\ldots, X_n$ 来自 $P(\\lambda)$,先验 $\\lambda \\sim Ga(\\alpha, \\beta)$。求 $\\lambda$ 的后验均值估计。
4. 解释为什么最大似然估计可以看作是使用均匀先验的MAP估计。
进阶练习
5. 设 $X|\\theta \\sim N(\\theta, 1)$,先验 $\\theta$ 服从柯西分布。证明后验分布仍然是合理的分布(虽然先验不是共轭先验)。
6. 设 $X_1, X_2, \\ldots, X_n$ 来自 $Exp(\\lambda)$。
(a) 使用Jeffreys先验,求后验分布; (b) 求 $\\lambda$ 的贝叶斯估计。
7. 证明:在平方损失函数下,贝叶斯风险最小的估计是后验均值。
综合应用
8. 某医院记录了100名某种疾病患者的治疗效果,其中60人治愈。设治愈率为 $\\theta$,使用 $Beta(2, 2)$ 作为先验。
(a) 求 $\\theta$ 的后验分布; (b) 求 $\\theta$ 的贝叶斯估计(后验均值); (c) 求 $\\theta$ 的95%可信区间。
9. 设某机器生产的零件尺寸服从 $N(\\theta, 4)$。历史数据显示 $\\theta$ 大致服从 $N(100, 1)$。现随机抽取10个零件,测得平均尺寸为102。
(a) 求 $\\theta$ 的后验分布; (b) 求 $\\theta$ 的贝叶斯估计; (c) 比较贝叶斯估计和样本均值的均方误差。
10. 考虑正态-逆Gamma共轭先验:
$$X_i|\\mu, \\sigma^2 \\sim N(\\mu, \\sigma^2)$$ $$\\mu|\\sigma^2 \\sim N(\\mu_0, \\sigma^2/\\kappa_0)$$ $$\\sigma^2 \\sim IG(\\nu_0/2, \\nu_0\\sigma_0^2/2)$$ (a) 推导后验分布的形式; (b) 解释各超参数的意义; (c) 讨论当样本量增大时后验分布的变化。
本章小结
本章介绍了贝叶斯统计的基本方法:
- 贝叶斯公式:先验 + 似然 = 后验
- 先验分布的选取:
- 无信息先验(均匀、Jeffreys)
- 共轭先验(便于计算)
- 主观先验(基于经验)
- 共轭先验分布:
- 二项-Beta
- 正态-正态(均值)
- 泊松-Gamma
- 指数-Gamma
- 贝叶斯估计:后验均值、后验中位数、MAP估计
- 贝叶斯决策:基于损失函数的最优决策
贝叶斯方法的优势在于能够整合先验信息和样本信息,在小样本情况下尤其有效,且结果解释更加直观。
