跳至内容
张叶安的小站
用户工具
登录
站点工具
搜索
工具
显示页面
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
数理统计:第四章_区间估计
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
====== 第四章 区间估计 ====== ===== 4.1 置信区间的基本概念 ===== ==== 4.1.1 区间估计的定义 ==== 点估计给出参数的一个具体数值,但无法说明这个估计值与参数真值的接近程度。区间估计则是给出一个区间,并给出该区间包含参数真值的可靠程度。 **定义 4.1(置信区间)**:设总体 $X$ 的分布函数为 $F(x; \\theta)$,$\\theta$ 是未知参数,$X_1, X_2, \\ldots, X_n$ 是来自总体 $X$ 的样本。若对于给定的 $\\alpha$($0 < \\alpha < 1$),存在两个统计量 $\\hat{\\theta}_L = \\hat{\\theta}_L(X_1, X_2, \\ldots, X_n)$ 和 $\\hat{\\theta}_U = \\hat{\\theta}_U(X_1, X_2, \\ldots, X_n)$,使得: $$P(\\hat{\\theta}_L \\leq \\theta \\leq \\hat{\\theta}_U) = 1 - \\alpha$$ 则称随机区间 $[\\hat{\\theta}_L, \\hat{\\theta}_U]$ 为参数 $\\theta$ 的**置信度为 $1-\\alpha$ 的置信区间**(Confidence Interval),$\\hat{\\theta}_L$ 和 $\\hat{\\theta}_U$ 分别称为**置信下限**和**置信上限**,$1-\\alpha$ 称为**置信水平**或**置信度**。 ==== 4.1.2 对置信区间的理解 ==== 对置信区间的重要理解: * 置信区间 $[\\hat{\\theta}_L, \\hat{\\theta}_U]$ 是随机的,而参数 $\\theta$ 是固定的(虽然未知) * $P(\\hat{\\theta}_L \\leq \\theta \\leq \\hat{\\theta}_U) = 1-\\alpha$ 表示在重复抽样中,大约有 $(1-\\alpha) \\times 100\\%$ 的区间会包含参数真值 $\\theta$ * 一旦有了具体的样本观测值,得到具体的区间 $[\\hat{\\theta}_L, \\hat{\\theta}_U]$,这个具体区间要么包含 $\\theta$,要么不包含 $\\theta$,不能说"$\\theta$ 落入该区间的概率为 $1-\\alpha$" ==== 4.1.3 求置信区间的一般步骤 ==== 求参数 $\\theta$ 的置信区间的一般步骤: 1. 构造一个包含参数 $\\theta$ 的统计量 $T = T(X_1, X_2, \\ldots, X_n; \\theta)$,且 $T$ 的分布已知(不依赖于 $\\theta$) 2. 对于给定的置信水平 $1-\\alpha$,确定常数 $a$ 和 $b$,使得: $$P(a \\leq T \\leq b) = 1 - \\alpha$$ 通常取 $P(T < a) = P(T > b) = \\alpha/2$(等尾置信区间) 3. 将不等式 $a \\leq T \\leq b$ 变形为 $\\hat{\\theta}_L \\leq \\theta \\leq \\hat{\\theta}_U$ 4. 区间 $[\\hat{\\theta}_L, \\hat{\\theta}_U]$ 即为 $\\theta$ 的置信度为 $1-\\alpha$ 的置信区间 ===== 4.2 枢轴量法 ===== ==== 4.2.1 枢轴量的定义 ==== **定义 4.2(枢轴量)**:设 $X_1, X_2, \\ldots, X_n$ 是来自总体 $X$ 的样本,$g(X_1, X_2, \\ldots, X_n; \\theta)$ 是样本和参数 $\\theta$ 的函数。若 $g$ 的分布不依赖于参数 $\\theta$,则称 $g$ 为**枢轴量**(Pivot)。 枢轴量法的核心思想是构造一个枢轴量,然后利用枢轴量的分布来建立置信区间。 ==== 4.2.2 枢轴量法的步骤 ==== 1. 寻找一个良好的点估计 $\\hat{\\theta}$ 2. 构造枢轴量 $G = G(\\hat{\\theta}, \\theta)$,其分布已知且与 $\\theta$ 无关 3. 对于置信水平 $1-\\alpha$,确定分位数 $c$ 和 $d$,使得 $P(c \\leq G \\leq d) = 1-\\alpha$ 4. 将不等式变形为 $P(\\hat{\\theta}_L \\leq \\theta \\leq \\hat{\\theta}_U) = 1-\\alpha$ ===== 4.3 正态总体均值的区间估计 ===== ==== 4.3.1 单个正态总体,方差已知 ==== 设 $X_1, X_2, \\ldots, X_n$ 是来自 $N(\\mu, \\sigma^2)$ 的样本,其中 $\\sigma^2$ 已知。 由第二章知:$\\bar{X} \\sim N(\\mu, \\sigma^2/n)$,因此: $$Z = \\frac{\\bar{X} - \\mu}{\\sigma/\\sqrt{n}} \\sim N(0, 1)$$ $Z$ 是枢轴量。对于置信水平 $1-\\alpha$: $$P\\left(-u_{\\alpha/2} \\leq \\frac{\\bar{X} - \\mu}{\\sigma/\\sqrt{n}} \\leq u_{\\alpha/2}\\right) = 1 - \\alpha$$ 变形得: $$P\\left(\\bar{X} - \\frac{\\sigma}{\\sqrt{n}}u_{\\alpha/2} \\leq \\mu \\leq \\bar{X} + \\frac{\\sigma}{\\sqrt{n}}u_{\\alpha/2}\\right) = 1 - \\alpha$$ 因此,$\\mu$ 的置信度为 $1-\\alpha$ 的置信区间为: $$\\left[\\bar{X} - \\frac{\\sigma}{\\sqrt{n}}u_{\\alpha/2}, \\bar{X} + \\frac{\\sigma}{\\sqrt{n}}u_{\\alpha/2}\\right]$$ 或写成 $\\bar{X} \\pm \\dfrac{\\sigma}{\\sqrt{n}}u_{\\alpha/2}$。 ==== 4.3.2 单个正态总体,方差未知 ==== 当 $\\sigma^2$ 未知时,用样本标准差 $S$ 代替 $\\sigma$。由第二章知: $$T = \\frac{\\bar{X} - \\mu}{S/\\sqrt{n}} \\sim t(n-1)$$ $T$ 是枢轴量。对于置信水平 $1-\\alpha$: $$P\\left(-t_{\\alpha/2}(n-1) \\leq \\frac{\\bar{X} - \\mu}{S/\\sqrt{n}} \\leq t_{\\alpha/2}(n-1)\\right) = 1 - \\alpha$$ 因此,$\\mu$ 的置信度为 $1-\\alpha$ 的置信区间为: $$\\left[\\bar{X} - \\frac{S}{\\sqrt{n}}t_{\\alpha/2}(n-1), \\bar{X} + \\frac{S}{\\sqrt{n}}t_{\\alpha/2}(n-1)\\right]$$ **例 4.1**:某工厂生产的零件长度服从正态分布。随机抽取16个零件,测得平均长度为 $\\bar{x} = 10.2$ cm,样本标准差 $s = 0.8$ cm。求零件平均长度的95%置信区间。 **解**:$n = 16$,$\\bar{x} = 10.2$,$s = 0.8$,$1-\\alpha = 0.95$,$\\alpha/2 = 0.025$ 查t分布表:$t_{0.025}(15) = 2.131$ 置信区间为: $$10.2 \\pm \\frac{0.8}{\\sqrt{16}} \\times 2.131 = 10.2 \\pm 0.426$$ 即 $[9.774, 10.626]$(cm)。 ==== 4.3.3 两个正态总体均值差的区间估计 ==== 设 $X_1, X_2, \\ldots, X_{n_1}$ 来自 $N(\\mu_1, \\sigma_1^2)$,$Y_1, Y_2, \\ldots, Y_{n_2}$ 来自 $N(\\mu_2, \\sigma_2^2)$,两样本独立。 **(1) 方差 $\\sigma_1^2$ 和 $\\sigma_2^2$ 已知**: 枢轴量为: $$Z = \\frac{(\\bar{X} - \\bar{Y}) - (\\mu_1 - \\mu_2)}{\\sqrt{\\dfrac{\\sigma_1^2}{n_1} + \\dfrac{\\sigma_2^2}{n_2}}} \\sim N(0, 1)$$ 置信区间为: $$(\\bar{X} - \\bar{Y}) \\pm u_{\\alpha/2}\\sqrt{\\frac{\\sigma_1^2}{n_1} + \\frac{\\sigma_2^2}{n_2}}$$ **(2) 方差相等但未知($\\sigma_1^2 = \\sigma_2^2 = \\sigma^2$)**: 枢轴量为: $$T = \\frac{(\\bar{X} - \\bar{Y}) - (\\mu_1 - \\mu_2)}{S_w\\sqrt{\\dfrac{1}{n_1} + \\dfrac{1}{n_2}}} \\sim t(n_1 + n_2 - 2)$$ 其中 $S_w^2 = \\dfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}$ 置信区间为: $$(\\bar{X} - \\bar{Y}) \\pm t_{\\alpha/2}(n_1 + n_2 - 2) \\cdot S_w\\sqrt{\\frac{1}{n_1} + \\frac{1}{n_2}}$$ ===== 4.4 正态总体方差的区间估计 ===== ==== 4.4.1 单个正态总体方差的区间估计 ==== 设 $X_1, X_2, \\ldots, X_n$ 来自 $N(\\mu, \\sigma^2)$,其中 $\\mu$ 未知。 由第二章知: $$\\chi^2 = \\frac{(n-1)S^2}{\\sigma^2} \\sim \\chi^2(n-1)$$ $\\chi^2$ 是枢轴量。对于置信水平 $1-\\alpha$: $$P\\left(\\chi^2_{1-\\alpha/2}(n-1) \\leq \\frac{(n-1)S^2}{\\sigma^2} \\leq \\chi^2_{\\alpha/2}(n-1)\\right) = 1 - \\alpha$$ 变形得: $$P\\left(\\frac{(n-1)S^2}{\\chi^2_{\\alpha/2}(n-1)} \\leq \\sigma^2 \\leq \\frac{(n-1)S^2}{\\chi^2_{1-\\alpha/2}(n-1)}\\right) = 1 - \\alpha$$ 因此,$\\sigma^2$ 的置信度为 $1-\\alpha$ 的置信区间为: $$\\left[\\frac{(n-1)S^2}{\\chi^2_{\\alpha/2}(n-1)}, \\frac{(n-1)S^2}{\\chi^2_{1-\\alpha/2}(n-1)}\\right]$$ **注意**:由于卡方分布不对称,置信区间也不关于 $S^2$ 对称。 ==== 4.4.2 两个正态总体方差比的区间估计 ==== 设两独立样本分别来自 $N(\\mu_1, \\sigma_1^2)$ 和 $N(\\mu_2, \\sigma_2^2)$。 由第二章知: $$F = \\frac{S_1^2/\\sigma_1^2}{S_2^2/\\sigma_2^2} = \\frac{S_1^2}{S_2^2} \\cdot \\frac{\\sigma_2^2}{\\sigma_1^2} \\sim F(n_1-1, n_2-1)$$ $F$ 是枢轴量。对于置信水平 $1-\\alpha$: $$P\\left(F_{1-\\alpha/2}(n_1-1, n_2-1) \\leq \\frac{S_1^2}{S_2^2} \\cdot \\frac{\\sigma_2^2}{\\sigma_1^2} \\leq F_{\\alpha/2}(n_1-1, n_2-1)\\right) = 1 - \\alpha$$ 因此,$\\sigma_1^2/\\sigma_2^2$ 的置信度为 $1-\\alpha$ 的置信区间为: $$\\left[\\frac{S_1^2}{S_2^2} \\cdot \\frac{1}{F_{\\alpha/2}(n_1-1, n_2-1)}, \\frac{S_1^2}{S_2^2} \\cdot \\frac{1}{F_{1-\\alpha/2}(n_1-1, n_2-1)}\\right]$$ 利用性质 $F_{1-\\alpha/2}(n_1-1, n_2-1) = \\dfrac{1}{F_{\\alpha/2}(n_2-1, n_1-1)}$,也可写成: $$\\left[\\frac{S_1^2}{S_2^2} \\cdot \\frac{1}{F_{\\alpha/2}(n_1-1, n_2-1)}, \\frac{S_1^2}{S_2^2} \\cdot F_{\\alpha/2}(n_2-1, n_1-1)\\right]$$ ===== 4.5 大样本区间估计 ===== ==== 4.5.1 一般总体均值的区间估计 ==== 对于非正态总体,当样本容量 $n$ 充分大时(通常 $n \\geq 30$),由中心极限定理: $$\\frac{\\bar{X} - \\mu}{\\sigma/\\sqrt{n}} \\approx N(0, 1)$$ 若 $\\sigma$ 已知,$\\mu$ 的近似置信区间为: $$\\bar{X} \\pm \\frac{\\sigma}{\\sqrt{n}}u_{\\alpha/2}$$ 若 $\\sigma$ 未知,用 $S$ 代替,近似置信区间为: $$\\bar{X} \\pm \\frac{S}{\\sqrt{n}}u_{\\alpha/2}$$ ==== 4.5.2 二项分布参数 $p$ 的区间估计 ==== 设 $X \\sim B(n, p)$,求 $p$ 的置信区间。 **(1) 大样本方法**:当 $n$ 充分大时,由棣莫弗-拉普拉斯中心极限定理: $$\\frac{X - np}{\\sqrt{np(1-p)}} \\approx N(0, 1)$$ 因此,$p$ 的近似置信区间为: $$\\hat{p} \\pm u_{\\alpha/2}\\sqrt{\\frac{\\hat{p}(1-\\hat{p})}{n}}$$ 其中 $\\hat{p} = X/n$。 **(2) Wilson区间**:更精确的置信区间可以通过解以下不等式得到: $$\\left|\\frac{\\hat{p} - p}{\\sqrt{p(1-p)/n}}\\right| \\leq u_{\\alpha/2}$$ ===== 4.6 单侧置信区间 ===== ==== 4.6.1 单侧置信区间的定义 ==== 在某些实际问题中,我们只关心参数的置信下限或上限。 **定义 4.3(单侧置信区间)**:设 $\\hat{\\theta}_L$ 和 $\\hat{\\theta}_U$ 是统计量,若: $$P(\\hat{\\theta}_L \\leq \\theta) = 1 - \\alpha$$ 则称 $[\\hat{\\theta}_L, +\\infty)$ 为 $\\theta$ 的置信度为 $1-\\alpha$ 的**单侧置信区间**,$\\hat{\\theta}_L$ 为**单侧置信下限**。 若: $$P(\\theta \\leq \\hat{\\theta}_U) = 1 - \\alpha$$ 则称 $(-\\infty, \\hat{\\theta}_U]$ 为 $\\theta$ 的置信度为 $1-\\alpha$ 的**单侧置信区间**,$\\hat{\\theta}_U$ 为**单侧置信上限**。 ==== 4.6.2 单侧置信区间的求法 ==== 以单个正态总体、方差未知为例: **单侧置信下限**: $$\\hat{\\mu}_L = \\bar{X} - \\frac{S}{\\sqrt{n}}t_{\\alpha}(n-1)$$ **单侧置信上限**: $$\\hat{\\mu}_U = \\bar{X} + \\frac{S}{\\sqrt{n}}t_{\\alpha}(n-1)$$ ===== 4.7 置信区间的评价标准 ===== ==== 4.7.1 置信区间的长度 ==== 对于相同的置信水平,置信区间越短越好,表示估计越精确。 对于正态总体均值 $\\mu$ 的置信区间: * 方差已知时,区间长度为 $L = \\dfrac{2\\sigma u_{\\alpha/2}}{\\sqrt{n}}$ * 区间长度与 $\\sqrt{n}$ 成反比,增大样本容量可以提高精度 ==== 4.7.2 置信区间的覆盖率 ==== 置信区间的主要评价标准是**实际覆盖率**是否接近名义置信水平 $1-\\alpha$。 ===== 4.8 习题 ===== ==== 基础练习 ==== 1. 从正态总体 $N(\\mu, 0.5^2)$ 中抽取样本容量为16的样本,样本均值 $\\bar{x} = 5.2$。求 $\\mu$ 的95%置信区间。 2. 设某种电子元件的寿命服从正态分布。随机抽取10个元件,测得平均寿命为1500小时,样本标准差为120小时。求平均寿命的95%置信区间。 3. 设两批电子器材的电阻服从正态分布,分别抽样6个,测得 $\\bar{x} = 0.141$,$s_1 = 0.0026$;$\\bar{y} = 0.139$,$s_2 = 0.0024$。假设方差相等,求两批器材平均电阻差 $\\mu_1 - \\mu_2$ 的95%置信区间。 4. 从正态总体中抽取样本容量为25的样本,$s^2 = 10$。求总体方差 $\\sigma^2$ 的95%置信区间。 ==== 进阶练习 ==== 5. 设 $X_1, X_2, \\ldots, X_n$ 是来自均匀分布 $U(0, \\theta)$ 的样本,求 $\\theta$ 的置信度为 $1-\\alpha$ 的置信区间。(提示:考虑 $T = \\max(X_1, \\ldots, X_n)/\\theta$) 6. 设 $X_1, X_2, \\ldots, X_n$ 是来自指数分布 $Exp(\\lambda)$ 的样本,求 $\\lambda$ 的置信区间。 7. 在某次选举前的民意调查中,随机调查了1000名选民,其中有520人支持候选人A。求支持率 $p$ 的95%置信区间。 ==== 综合应用 ==== 8. 某工厂生产一种零件,其长度服从正态分布。现从一批零件中随机抽取25件,测得平均长度为20.5 mm,样本标准差为0.8 mm。 (a) 求零件平均长度的95%置信区间; (b) 求零件长度标准差的95%置信区间; (c) 若要求平均长度的估计误差不超过0.3 mm,置信度为95%,问至少需要抽取多少件零件? 9. 为比较两种小麦品种的产量,选择18块条件相似的试验田,随机分成两组,每组9块,分别种植两种小麦。测得A品种平均亩产 $\\bar{x} = 520$ kg,$s_1 = 40$ kg;B品种平均亩产 $\\bar{y} = 480$ kg,$s_2 = 35$ kg。假设两品种产量都服从正态分布: (a) 假设方差相等,求两品种平均亩产差的95%置信区间; (b) 不求方差相等的假设,用Welch近似方法求置信区间。 10. 设 $X_1, X_2, \\ldots, X_n$ 是来自正态总体 $N(\\mu, \\sigma^2)$ 的样本,其中 $\\mu$ 已知。证明 $\\sigma^2$ 的置信度为 $1-\\alpha$ 的置信区间为: $$\\left[\\frac{\\sum(X_i-\\mu)^2}{\\chi^2_{\\alpha/2}(n)}, \\frac{\\sum(X_i-\\mu)^2}{\\chi^2_{1-\\alpha/2}(n)}\\right]$$ 并比较该区间与 $\\mu$ 未知时的区间的长度。 ===== 本章小结 ===== 本章介绍了区间估计的基本方法: * **置信区间的概念**:给出参数所在的区间和该区间的可靠程度 * **枢轴量法**:构造分布已知且不含参数的枢轴量来求置信区间 * **正态总体的区间估计**: - 均值:方差已知用Z,方差未知用t - 方差:用卡方分布 - 两总体:均值差用t或Z,方差比用F * **大样本区间估计**:利用中心极限定理得到近似置信区间 * **单侧置信区间**:只关心参数的上界或下界时的估计方法 区间估计相比点估计提供了更多关于估计不确定性的信息,是统计推断的重要工具。
数理统计/第四章_区间估计.txt
· 最后更改:
2026/02/03 19:45
由
127.0.0.1
页面工具
显示页面
过去修订
反向链接
回到顶部