第二章 常用统计分布
2.1 正态分布及其性质
2.1.1 正态分布的定义
定义 2.1(正态分布):若随机变量 $X$ 的概率密度函数为:
$$f(x) = \\frac{1}{\\sqrt{2\\pi}\\sigma}\\exp\\left\\{-\\frac{(x-\\mu)^2}{2\\sigma^2}\\right\\}, \\quad -\\infty < x < +\\infty$$
其中 $\\mu$ 为位置参数,$\\sigma > 0$ 为尺度参数,则称 $X$ 服从参数为 $\\mu$ 和 $\\sigma^2$ 的正态分布,记作 $X \\sim N(\\mu, \\sigma^2)$。
2.1.2 正态分布的基本性质
性质 2.1:若 $X \\sim N(\\mu, \\sigma^2)$,则:
性质 2.2(线性变换):若 $X \\sim N(\\mu, \\sigma^2)$,则对任意常数 $a \\neq 0$ 和 $b$,有:
$$Y = aX + b \\sim N(a\\mu + b, a^2\\sigma^2)$$
特别地,标准化变换 $Z = \\frac{X-\\mu}{\\sigma} \\sim N(0, 1)$。
性质 2.3(可加性):若 $X_1 \\sim N(\\mu_1, \\sigma_1^2)$,$X_2 \\sim N(\\mu_2, \\sigma_2^2)$,且 $X_1$ 与 $X_2$ 独立,则:
$$X_1 + X_2 \\sim N(\\mu_1 + \\mu_2, \\sigma_1^2 + \\sigma_2^2)$$
2.1.3 正态样本的分布
定理 2.1:设 $X_1, X_2, \\ldots, X_n$ 是来自正态总体 $N(\\mu, \\sigma^2)$ 的样本,则:
$\\bar{X} \\sim N\\left(\\mu, \\frac{\\sigma^2}{n}\\right)$
$\\frac{\\bar{X} - \\mu}{\\sigma/\\sqrt{n}} \\sim N(0, 1)$
证明:由于 $X_i \\sim N(\\mu, \\sigma^2)$ 且相互独立,由正态分布的可加性:
$$\\sum_{i=1}^{n}X_i \\sim N(n\\mu, n\\sigma^2)$$
因此:
$$\\bar{X} = \\frac{1}{n}\\sum_{i=1}^{n}X_i \\sim N\\left(\\mu, \\frac{\\sigma^2}{n}\\right)$$
2.2 卡方分布($\\chi^2$分布)
2.2.1 卡方分布的定义
定义 2.2(卡方分布):设 $X_1, X_2, \\ldots, X_n$ 相互独立,且都服从标准正态分布 $N(0, 1)$,则称随机变量:
$$\\chi^2 = X_1^2 + X_2^2 + \\cdots + X_n^2 = \\sum_{i=1}^{n}X_i^2$$
服从自由度为 $n$ 的卡方分布,记作 $\\chi^2 \\sim \\chi^2(n)$。
2.2.2 卡方分布的概率密度函数
定理 2.2:$\\chi^2(n)$ 分布的概率密度函数为:
$$f(x) = \\begin{cases} \\dfrac{1}{2^{n/2}\\Gamma(n/2)}x^{n/2-1}e^{-x/2}, & x > 0 \\[8pt] 0, & x \\leq 0 \\end{cases}$$
其中 $\\Gamma(\\cdot)$ 是伽马函数,定义为 $\\Gamma(s) = \\int_0^{+\\infty}t^{s-1}e^{-t}dt$($s > 0$)。
证明:首先,$Y = X_1^2$ 的概率密度函数为:
当 $y > 0$ 时,
$$f_Y(y) = \\frac{1}{\\sqrt{2\\pi y}}e^{-y/2}$$
这是自由度为1的卡方分布,即 $\\chi^2(1)$,也是伽马分布 $Ga(1/2, 1/2)$。
由于 $X_1^2, X_2^2, \\ldots, X_n^2$ 独立同分布,都服从 $\\chi^2(1)$,由伽马分布的可加性,$\\sum_{i=1}^{n}X_i^2$ 服从 $Ga(n/2, 1/2)$,即 $\\chi^2(n)$。
2.2.3 卡方分布的性质
性质 2.4(数字特征):若 $\\chi^2 \\sim \\chi^2(n)$,则:
$E(\\chi^2) = n$
$D(\\chi^2) = 2n$
证明:由于 $X_i^2 \\sim \\chi^2(1)$,且 $E(X_i^2) = D(X_i) + [E(X_i)]^2 = 1 + 0 = 1$,$D(X_i^2) = E(X_i^4) - [E(X_i^2)]^2 = 3 - 1 = 2$。
因此:
$$E(\\chi^2) = \\sum_{i=1}^{n}E(X_i^2) = n$$
$$D(\\chi^2) = \\sum_{i=1}^{n}D(X_i^2) = 2n$$
性质 2.5(可加性):若 $\\chi_1^2 \\sim \\chi^2(n_1)$,$\\chi_2^2 \\sim \\chi^2(n_2)$,且两者独立,则:
$$\\chi_1^2 + \\chi_2^2 \\sim \\chi^2(n_1 + n_2)$$
性质 2.6(与正态分布的关系):设 $X_1, X_2, \\ldots, X_n$ 是来自 $N(\\mu, \\sigma^2)$ 的样本,则:
$$\\frac{1}{\\sigma^2}\\sum_{i=1}^{n}(X_i - \\mu)^2 \\sim \\chi^2(n)$$
2.2.4 样本方差的分布
定理 2.3(重要定理):设 $X_1, X_2, \\ldots, X_n$ 是来自正态总体 $N(\\mu, \\sigma^2)$ 的样本,$\\bar{X}$ 和 $S^2$ 分别为样本均值和样本方差,则:
证明概要:构造正交矩阵 $A$,使得第一行为 $(1/\\sqrt{n}, 1/\\sqrt{n}, \\ldots, 1/\\sqrt{n})$。令 $Y = AX$,则 $Y_1 = \\sqrt{n}\\bar{X}$,且 $Y_2, \\ldots, Y_n$ 与 $Y_1$ 独立。
$$\\sum_{i=1}^{n}(X_i - \\bar{X})^2 = \\sum_{i=1}^{n}X_i^2 - n\\bar{X}^2 = \\sum_{i=1}^{n}Y_i^2 - Y_1^2 = \\sum_{i=2}^{n}Y_i^2$$
由于 $Y_i \\sim N(0, \\sigma^2)$ 且独立,所以 $\\sum_{i=2}^{n}Y_i^2/\\sigma^2 \\sim \\chi^2(n-1)$。
2.3 t分布
2.3.1 t分布的定义
定义 2.3(t分布):设 $X \\sim N(0, 1)$,$Y \\sim \\chi^2(n)$,且 $X$ 与 $Y$ 相互独立,则称随机变量:
$$T = \\frac{X}{\\sqrt{Y/n}}$$
服从自由度为 $n$ 的t分布(学生氏t分布),记作 $T \\sim t(n)$。
2.3.2 t分布的概率密度函数
定理 2.4:$t(n)$ 分布的概率密度函数为:
$$f(t) = \\frac{\\Gamma1)$。
4. 证明:若 $X_1, X_2, \\ldots, X_n$ 是来自 $N(\\mu, \\sigma^2)$ 的样本,则 $\\bar{X}$ 与 $S^2$ 相互独立当且仅当总体服从正态分布。
进阶练习
5. 设 $X_1, X_2, \\ldots, X_{n_1}$ 和 $Y_1, Y_2, \\ldots, Y_{n_2}$ 分别是来自 $N(\\mu_1, \\sigma^2)$ 和 $N(\\mu_2, \\sigma^2)$ 的独立样本,证明:
$$T = \\frac{(\\bar{X} - \\bar{Y}) - (\\mu_1 - \\mu_2)}{S_w\\sqrt{1/n_1 + 1/n_2}} \\sim t(n_1 + n_2 - 2)$$
其中 $S_w^2 = \\dfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}$。
6. 设 $X_1, X_2, \\ldots, X_n$ 是来自 $N(\\mu, \\sigma^2)$ 的样本,求统计量 $\\dfrac{\\bar{X} - \\mu}{S/\\sqrt{n}}$ 的矩母函数(当 $n$ 充分大时的渐近形式)。
7. 证明:$\\lim_{n\\to\\infty}t_\\alpha(n) = u_\\alpha$。
综合应用
8. 某工厂生产的零件长度服从正态分布 $N(\\mu, \\sigma^2)$。现随机抽取9个零件,测得样本均值 $\\bar{x} = 10.2$ cm,样本标准差 $s = 0.6$ cm。
(a) 求 $\\mu$ 的95%置信区间;
(b) 求 $\\sigma^2$ 的95%置信区间。
9. 设两个独立的正态总体 $X \\sim N(\\mu_1, \\sigma^2)$ 和 $Y \\sim N(\\mu_2, \\sigma^2)$,样本容量分别为 $n_1 = 10$ 和 $n_2 = 15$,样本方差分别为 $s_1^2 = 4.2$ 和 $s_2^2 = 3.8$。检验 $H_0: \\sigma_1^2 = \\sigma_2^2$ vs $H_1: \\sigma_1^2 \\neq \\sigma_2^2$($\\alpha = 0.05$)。
10. 设 $X_1, X_2, \\ldots, X_n$ 是来自 $N(0, 1)$ 的样本,定义 $\\bar{X}_k = \\dfrac{1}{k}\\sum_{i=1}^{k}X_i$($k = 1, 2, \\ldots, n$)。求:
(a) $\\bar{X}_n$ 与 $\\bar{X}_k$ 的相关系数;
(b) 当 $n \\to \\infty$ 时,$\\sqrt{n}\\bar{X}_n$ 的极限分布。
本章小结
本章介绍了数理统计中最重要的几种分布:
正态分布:$N(\\mu, \\sigma^2)$,是最重要的连续型分布,样本均值服从正态分布
卡方分布:$\\chi^2(n)$,$n$ 个独立标准正态随机变量的平方和,$(n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)$
t分布:$t(n)$,用于小样本的均值推断,$\\dfrac{\\bar{X}-\\mu}{S/\\sqrt{n}} \\sim t(n-1)$
F分布:$F(n_1, n_2)$,用于方差比较和方差分析,$S_1^2/S_2^2 \\sim F(n_1-1, n_2-1)$
这些分布及其抽样分布定理是参数估计和假设检验的理论基础,务必熟练掌握。