跳至内容
张叶安的小站
用户工具
登录
站点工具
搜索
工具
显示页面
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
数理统计:第八章_非参数检验
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
====== 第八章 非参数检验 ====== ===== 8.1 非参数检验概述 ===== ==== 8.1.1 非参数检验的概念 ==== 前面介绍的检验方法大多假设总体服从正态分布,这类方法称为**参数检验**。当总体分布未知或不满足正态假设时,需要使用**非参数检验**(Nonparametric Test)或**分布自由检验**(Distribution-free Test)。 非参数检验的特点: * 不依赖于总体分布的具体形式 * 对异常值不敏感,稳健性好 * 适用于定类数据和定序数据 * 检验效能通常低于参数检验(当参数检验的假设满足时) ==== 8.1.2 非参数检验的适用情况 ==== * 总体分布未知 * 总体分布明显非正态 * 数据为定类或定序尺度 * 样本量很小,无法验证正态性 * 存在极端值或异常值 ===== 8.2 拟合优度检验 ===== ==== 8.2.1 $\\chi^2$拟合优度检验 ==== **目的**:检验观测数据是否来自某个特定的理论分布。 **基本思想**:将数据分组,比较各组的观测频数与理论频数的差异。 **检验步骤**: 1. 将数据分成 $k$ 个互不相交的组 2. 计算每组的观测频数 $O_i$($i = 1, 2, \\ldots, k$) 3. 计算每组的理论频数 $E_i = np_i$,其中 $p_i$ 是第 $i$ 组的理论概率 4. 计算检验统计量: $$\\chi^2 = \\sum_{i=1}^{k}\\frac{(O_i - E_i)^2}{E_i}$$ 5. 若 $H_0$ 成立,当 $n \\to \\infty$ 时,$\\chi^2 \\sim \\chi^2(k-r-1)$,其中 $r$ 是估计的参数个数 6. 拒绝域:$\\chi^2 \\geq \\chi^2_{\\alpha}(k-r-1)$ **使用条件**:一般要求 $E_i \\geq 5$(或至少 $E_i \\geq 1$ 且不超过20%的组 $E_i < 5$)。 **例 8.1**:掷一枚骰子60次,得到各点出现的次数为: | 点数 | 1 | 2 | 3 | 4 | 5 | 6 | |---|---|---|---|---|---|---| | 频数 | 8 | 12 | 9 | 11 | 7 | 13 | 检验该骰子是否均匀($\\alpha = 0.05$)。 **解**: $H_0$:骰子均匀(各点出现概率均为1/6) 理论频数:$E_i = 60 \\times 1/6 = 10$($i = 1, 2, \\ldots, 6$) $$\\chi^2 = \\frac{(8-10)^2}{10} + \\frac{(12-10)^2}{10} + \\cdots + \\frac{(13-10)^2}{10} = \\frac{4+4+1+1+9+9}{10} = 2.8$$ $\\chi^2_{0.05}(5) = 11.070$ 因为 $2.8 < 11.070$,不拒绝 $H_0$。 结论:没有证据表明骰子不均匀。 ==== 8.2.2 正态性检验 ==== 可用$\\chi^2$检验检验数据是否来自正态分布。 **步骤**: 1. 用样本估计 $\\mu$ 和 $\\sigma$ 2. 将数据分组 3. 计算各组的理论概率(基于正态分布) 4. 计算 $\\chi^2$ 统计量 5. 自由度为 $k - 2 - 1 = k - 3$(估计了2个参数) ==== 8.2.3 Kolmogorov-Smirnov检验 ==== K-S检验是比较经验分布函数与理论分布函数的差别。 **检验统计量**: $$D_n = \\sup_{x}|F_n(x) - F_0(x)|$$ 其中 $F_n(x)$ 是经验分布函数,$F_0(x)$ 是理论分布函数。 **拒绝域**:$D_n \\geq D_{n,\\alpha}$ K-S检验的优点: * 不需要分组 * 适用于小样本 * 可用于任何连续分布的检验 ===== 8.3 独立性检验(列联表分析) ===== ==== 8.3.1 列联表 ==== 列联表用于分析两个分类变量是否独立。 **$r \\times c$ 列联表**: | | $B_1$ | $B_2$ | $\\cdots$ | $B_c$ | 合计 | |---|---|---|---|---|---| | $A_1$ | $O_{11}$ | $O_{12}$ | $\\cdots$ | $O_{1c}$ | $O_{1\\cdot}$ | | $A_2$ | $O_{21}$ | $O_{22}$ | $\\cdots$ | $O_{2c}$ | $O_{2\\cdot}$ | | $\\vdots$ | $\\vdots$ | $\\vdots$ | $\\ddots$ | $\\vdots$ | $\\vdots$ | | $A_r$ | $O_{r1}$ | $O_{r2}$ | $\\cdots$ | $O_{rc}$ | $O_{r\\cdot}$ | | 合计 | $O_{\\cdot 1}$ | $O_{\\cdot 2}$ | $\\cdots$ | $O_{\\cdot c}$ | $n$ | ==== 8.3.2 $\\chi^2$独立性检验 ==== **假设**: * $H_0$:两个变量独立 * $H_1$:两个变量不独立 **理论频数**: $$E_{ij} = \\frac{O_{i\\cdot} \\cdot O_{\\cdot j}}{n}$$ **检验统计量**: $$\\chi^2 = \\sum_{i=1}^{r}\\sum_{j=1}^{c}\\frac{(O_{ij} - E_{ij})^2}{E_{ij}} \\sim \\chi^2((r-1)(c-1))$$ **拒绝域**:$\\chi^2 \\geq \\chi^2_{\\alpha}((r-1)(c-1))$ **例 8.2**:调查200人对某政策的看法,按性别分类: | | 支持 | 反对 | 中立 | 合计 | |---|---|---|---|---| | 男性 | 45 | 35 | 20 | 100 | | 女性 | 55 | 25 | 20 | 100 | | 合计 | 100 | 60 | 40 | 200 | 检验性别与态度是否独立($\\alpha = 0.05$)。 **解**: 理论频数: | | 支持 | 反对 | 中立 | |---|---|---|---| | 男性 | 50 | 30 | 20 | | 女性 | 50 | 30 | 20 | $$\\chi^2 = \\frac{(45-50)^2}{50} + \\frac{(35-30)^2}{30} + \\cdots + \\frac{(20-20)^2}{20} = 0.5 + 0.833 + 0 + 0.5 + 0.833 + 0 = 2.667$$ $\\chi^2_{0.05}(2) = 5.991$ 因为 $2.667 < 5.991$,不拒绝 $H_0$。 结论:性别与态度无显著关联。 ===== 8.4 符号检验 ===== ==== 8.4.1 符号检验的基本思想 ==== 符号检验是最简单的非参数检验,用于检验中位数或比较两个相关样本。 **检验中位数**:设 $H_0: m_e = m_0$ vs $H_1: m_e \\neq m_0$ **检验统计量**:计算大于 $m_0$ 的个数 $S^+$ 和小于 $m_0$ 的个数 $S^-$(去掉等于 $m_0$ 的)。 在 $H_0$ 下,$S^+ \\sim B(n, 0.5)$。 ==== 8.4.2 两样本符号检验 ==== 用于成对数据的比较,只看差值的符号。 **步骤**: 1. 计算每对数据的差值 $D_i = X_i - Y_i$ 2. 去掉 $D_i = 0$ 的配对 3. 计算正号的个数 $S^+$ 和负号的个数 $S^-$ 4. 取 $S = \\min(S^+, S^-)$ 作为检验统计量 5. 查符号检验表或用大样本近似 ===== 8.5 Wilcoxon符号秩检验 ===== ==== 8.5.1 符号秩检验的基本思想 ==== 符号检验只利用了差值的符号,Wilcoxon符号秩检验还利用了差值的大小信息(通过秩次)。 **检验步骤**: 1. 计算差值 $D_i = X_i - Y_i$,去掉 $D_i = 0$ 2. 按 $|D_i|$ 从小到大排序,给出秩次 3. 分别计算正差值的秩和 $W^+$ 和负差值的秩和 $W^-$ 4. 取 $W = \\min(W^+, W^-)$ 作为检验统计量 5. 查Wilcoxon符号秩检验表 **大样本近似**($n > 20$): $$Z = \\frac{W - n(n+1)/4}{\\sqrt{n(n+1)(2n+1)/24}} \\approx N(0, 1)$$ ===== 8.6 Mann-Whitney U检验 ===== ==== 8.6.1 U检验的基本思想 ==== Mann-Whitney U检验(也称Wilcoxon秩和检验)用于比较两个独立样本的位置参数。 **检验步骤**: 1. 将两样本合并,按大小排序,给出秩次 2. 计算第一组样本的秩和 $W_1$ 3. 计算U统计量: $$U_1 = n_1n_2 + \\frac{n_1(n_1+1)}{2} - W_1$$ $$U_2 = n_1n_2 + \\frac{n_2(n_2+1)}{2} - W_2 = n_1n_2 - U_1$$ 4. 取 $U = \\min(U_1, U_2)$ 作为检验统计量 **大样本近似**($n_1, n_2 > 10$): $$Z = \\frac{U - n_1n_2/2}{\\sqrt{n_1n_2(n_1+n_2+1)/12}} \\approx N(0, 1)$$ ===== 8.7 Kruskal-Wallis检验 ===== ==== 8.7.1 K-W检验的基本思想 ==== Kruskal-Wallis检验是单因素方差分析的非参数替代,用于比较多个独立样本。 **检验统计量**: $$H = \\frac{12}{N(N+1)}\\sum_{i=1}^{k}\\frac{R_i^2}{n_i} - 3(N+1)$$ 其中 $N = \\sum n_i$,$R_i$ 是第 $i$ 组的秩和。 在 $H_0$ 下,当样本量较大时,$H \\sim \\chi^2(k-1)$。 ===== 8.8 习题 ===== ==== 基础练习 ==== 1. 某工厂声称其产品合格率至少为95%。随机抽取200件产品,发现10件不合格。用符号检验的思想检验该说法($\\alpha = 0.05$)。 2. 掷一枚硬币100次,得到正面45次,反面55次。检验硬币是否均匀($\\alpha = 0.05$)。 3. 用Wilcoxon符号秩检验分析例7.5的数据,比较与成对t检验的结论。 ==== 进阶练习 ==== 4. 证明:在独立性检验中,若 $r = c = 2$($2 \\times 2$列联表),检验统计量可简化为: $$\\chi^2 = \\frac{n(O_{11}O_{22} - O_{12}O_{21})^2}{O_{1\\cdot}O_{2\\cdot}O_{\\cdot 1}O_{\\cdot 2}}$$ 5. 比较Kolmogorov-Smirnov检验和$\\chi^2$拟合优度检验的优缺点。 ==== 综合应用 ==== 6. 某医院记录了不同血型患者对某种药物的反应: | 血型 | 有效 | 无效 | 合计 | |---|---|---|---| | A型 | 45 | 15 | 60 | | B型 | 30 | 20 | 50 | | O型 | 55 | 25 | 80 | | AB型 | 20 | 10 | 30 | 检验血型与药效是否独立($\\alpha = 0.05$)。 7. 为比较三种教学方法的效果,将30名学生随机分成三组,每组10人,教学后的测试成绩如下: 方法A:78, 82, 75, 88, 90, 85, 79, 83, 87, 81 方法B:72, 75, 70, 78, 80, 76, 74, 77, 79, 73 方法C:85, 88, 82, 90, 92, 87, 86, 89, 91, 84 (a) 用Kruskal-Wallis检验比较三种方法; (b) 如果数据满足正态假设,用单因素方差分析比较结果。 ===== 本章小结 ===== 本章介绍了常用的非参数检验方法: * **拟合优度检验**:$\\chi^2$检验、K-S检验 * **独立性检验**:列联表的$\\chi^2$检验 * **单样本检验**:符号检验(中位数) * **两样本检验**: - 成对样本:Wilcoxon符号秩检验 - 独立样本:Mann-Whitney U检验 * **多样本检验**:Kruskal-Wallis检验 非参数检验适用范围广,稳健性好,是参数检验的重要补充。
数理统计/第八章_非参数检验.txt
· 最后更改:
2026/02/03 19:45
由
127.0.0.1
页面工具
显示页面
过去修订
反向链接
回到顶部