假设检验是统计推断的另一重要内容。与参数估计不同,假设检验是对总体分布或参数提出某种假设,然后利用样本信息判断该假设是否成立。
例:某工厂生产的零件标准长度为10cm。现随机抽取一批零件,测得平均长度为10.2cm。问:该批零件的平均长度是否仍为10cm?
定义 6.1(统计假设):关于总体分布或总体参数的假设称为统计假设(Statistical Hypothesis)。
假设分为:
假设检验的一般步骤:
1. **提出假设**:明确原假设 $H_0$ 和备择假设 $H_1$ 2. **选择检验统计量**:构造一个不含未知参数的统计量 $T$,且当 $H_0$ 成立时,$T$ 的分布已知 3. **确定拒绝域**:对于给定的显著性水平 $\\alpha$,确定拒绝域 $W$ 4. **计算与决策**:根据样本计算检验统计量的值,若落入拒绝域则拒绝 $H_0$,否则不拒绝 $H_0$
(1) 简单假设 vs 复合假设:
(2) 双边检验 vs 单边检验:
由于样本的随机性,假设检验可能犯两种错误:
| 实际情况 决策 | 接受 $H_0$ | 拒绝 $H_0$ |
| — | — | — |
| $H_0$ 为真 | 正确 | 第一类错误 |
| $H_0$ 为假 | 第二类错误 | 正确 |
(1) 第一类错误(Type I Error):$H_0$ 为真时拒绝 $H_0$(“弃真”错误) $$\\alpha = P(\\text{拒绝 } H_0 | H_0 \\text{ 为真}) = P(X \\in W | H_0)$$
(2) 第二类错误(Type II Error):$H_0$ 为假时接受 $H_0$(“取伪”错误) $$\\beta = P(\\text{接受 } H_0 | H_1 \\text{ 为真}) = P(X \\notin W | H_1)$$
在样本容量 $n$ 固定时,$\\alpha$ 和 $\\beta$ 不能同时减小:
要同时减小两类错误,必须增加样本容量。
定义 6.2(显著性水平):给定一个很小的正数 $\\alpha$(通常取0.05、0.01或0.10),要求检验满足: $$P(\\text{拒绝 } H_0 | H_0 \\text{ 为真}) \\leq \\alpha$$
则称 $\\alpha$ 为显著性水平(Significance Level),称该检验为显著性水平 $\\alpha$ 的检验。
定义 6.3(功效函数):设 $W$ 是检验的拒绝域,称函数: $$\\beta(\\theta) = P_\\theta(X \\in W)$$ 为检验的功效函数(Power Function)或势函数。
功效函数表示当真实参数为 $\\theta$ 时,拒绝 $H_0$ 的概率。
一个好的检验应该:
定义 6.4(p值):p值是在原假设 $H_0$ 成立的条件下,得到当前样本结果或更极端结果的概率。
p值可以看作是拒绝 $H_0$ 的“最小显著性水平”。
使用p值的优点:
定义 6.5(UMP检验):对于检验问题 $H_0: \\theta \\in \\Theta_0$ vs $H_1: \\theta \\in \\Theta_1$,若检验的功效函数 $\\beta(\\theta)$ 满足:
则称该检验为一致最优势检验(Uniformly Most Powerful Test, UMP检验)。
对于简单假设检验问题 $H_0: \\theta = \\theta_0$ vs $H_1: \\theta = \\theta_1$,Neyman-Pearson引理给出了最优势检验的形式(详见第九章)。
例 6.1:设 $X_1, X_2, \\ldots, X_{25}$ 来自 $N(\\mu, 9)$,检验 $H_0: \\mu = 0$ vs $H_1: \\mu \\neq 0$,拒绝域为 $W = \\{|\\bar{X}| \\geq c\\}$。
(1) 求 $c$ 使得显著性水平为0.05; (2) 求当 $\\mu = 1$ 时,检验的功效。
解:
(1) 在 $H_0$ 下,$\\bar{X} \\sim N(0, 9/25) = N(0, 0.36)$,$\\bar{X}/0.6 \\sim N(0, 1)$。
$$P(|\\bar{X}| \\geq c | \\mu = 0) = 0.05$$
$$P\\left(\\left|\\frac{\\bar{X}}{0.6}\\right| \\geq \\frac{c}{0.6}\\right) = 0.05$$
查表得 $\\dfrac{c}{0.6} = 1.96$,所以 $c = 1.176$。
(2) 当 $\\mu = 1$ 时,$\\bar{X} \\sim N(1, 0.36)$。
功效 $= P(|\\bar{X}| \\geq 1.176 | \\mu = 1)$
$= P(\\bar{X} \\geq 1.176) + P(\\bar{X} \\leq -1.176)$
$= P(Z \\geq \\dfrac{1.176-1}{0.6}) + P(Z \\leq \\dfrac{-1.176-1}{0.6})$
$= P(Z \\geq 0.293) + P(Z \\leq -3.627) \\approx 0.385 + 0.0001 = 0.385$
1. 解释假设检验中两类错误的含义,并说明它们之间的关系。
2. 设检验的拒绝域为 $W$,写出功效函数 $\\beta(\\theta)$ 的定义,并说明 $\\beta(\\theta)$ 在 $H_0$ 和 $H_1$ 下的含义。
3. 什么是p值?如何根据p值做出决策?
4. 为什么当 $n$ 固定时,$\\alpha$ 和 $\\beta$ 不能同时任意小?
5. 设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\mu, \\sigma^2)$,$\\sigma^2$ 已知。考虑检验 $H_0: \\mu = \\mu_0$ vs $H_1: \\mu > \\mu_0$,拒绝域为 $W = \\{\\bar{X} > c\\}$。
(a) 求 $c$ 使得检验水平为 $\\alpha$; (b) 求功效函数 $\\beta(\\mu)$; (c) 当 $n = 25$,$\\sigma = 5$,$\\alpha = 0.05$,$\\mu_0 = 10$,$\\mu = 12$ 时,计算功效。
6. 证明:对于简单假设检验,不存在一个检验使得 $\\alpha = \\beta = 0$(除非样本提供完全信息)。
7. 某药物公司声称其新药的有效率为80%。为了验证这一说法,随机抽取100名患者试用该药。
(a) 建立适当的假设; (b) 设观察到75人有效,计算p值并做出结论($\\alpha = 0.05$); (c) 若要使检验的功效达到0.90(当真实有效率为70%时),至少需要多大的样本量?
8. 设 $X_1, X_2, \\ldots, X_n$ 来自 $Exp(\\lambda)$,考虑检验 $H_0: \\lambda = \\lambda_0$ vs $H_1: \\lambda \\neq \\lambda_0$。
(a) 构造适当的检验统计量; (b) 确定拒绝域; (c) 求功效函数的表达式。
本章介绍了假设检验的基本概念:
理解这些基本概念是掌握各种具体检验方法的基础。