====== 第二章 随机变量及其分布 ====== ===== 2.1 随机变量的概念 ===== ==== 2.1.1 随机变量的引入 ==== 在第一章中,我们用随机事件描述随机现象,但这种方法有局限性: - 不易进行定量分析 - 难以使用数学工具深入研究 **随机变量**是将随机试验结果数量化的工具,使得我们可以用数学方法(微积分等)研究随机现象。 **例 2.1** - $E_1$:掷骰子,定义 $X$ = "出现的点数",则 $X \in \{1, 2, 3, 4, 5, 6\}$ - $E_2$:检测产品,定义 $X$ = "次品个数",则 $X \in \{0, 1, 2, \ldots, n\}$ - $E_3$:测量身高,定义 $X$ = "身高值",则 $X \in [0, 300]$(单位:cm) ==== 2.1.2 随机变量的定义 ==== **定义 2.1(随机变量)** 设随机试验的样本空间为 $\Omega$,若对每个样本点 $\omega \in \Omega$,都有唯一的实数 $X(\omega)$ 与之对应,则称实值函数 $X = X(\omega)$ 为定义在 $\Omega$ 上的**随机变量**。 **随机变量的特点:** 1. 随机性:试验前不知道取何值 2. 统计规律性:取值有确定的概率分布 **注:** 随机变量通常用大写字母 $X, Y, Z$ 表示,取值用小写字母 $x, y, z$ 表示。 ===== 2.2 离散型随机变量 ===== ==== 2.2.1 离散型随机变量的定义 ==== **定义 2.2(离散型随机变量)** 若随机变量 $X$ 的所有可能取值为**有限个**或**可列无限个**,则称 $X$ 为**离散型随机变量**。 **定义 2.3(分布律)** 设离散型随机变量 $X$ 的所有可能取值为 $x_k$($k = 1, 2, \ldots$),$X$ 取各个值的概率为 $$P(X = x_k) = p_k, \quad k = 1, 2, \ldots$$ 称上式为 $X$ 的**分布律**或**概率分布**。 **分布律的性质:** 1. $p_k \geq 0$(非负性) 2. $\sum_{k} p_k = 1$(规范性) 分布律常用表格表示: | $X$ | $x_1$ | $x_2$ | $\cdots$ | $x_k$ | $\cdots$ | |-----|-------|-------|----------|-------|----------| | $P$ | $p_1$ | $p_2$ | $\cdots$ | $p_k$ | $\cdots$ | ==== 2.2.2 常见离散型分布 ===== **1. 0-1 分布(两点分布)** 若随机变量 $X$ 只取 0 和 1 两个值,分布律为: $$P(X = 1) = p, \quad P(X = 0) = 1 - p \quad (0 < p < 1)$$ 记为 $X \sim B(1, p)$ 或 $X \sim (0-1)$。 **应用:** 一次伯努利试验(成功/失败)。 **2. 二项分布** 若随机变量 $X$ 的分布律为 $$P(X = k) = C_n^k p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n$$ 其中 $0 < p < 1$,则称 $X$ 服从参数为 $n, p$ 的**二项分布**,记为 $X \sim B(n, p)$。 **应用:** $n$ 重伯努利试验中成功的次数。 **例 2.2** 某射手命中率为 0.8,独立射击 10 次,求恰好命中 7 次的概率。 **解:** $X \sim B(10, 0.8)$ $$P(X = 7) = C_{10}^7 (0.8)^7 (0.2)^3 = 120 \times 0.2097 \times 0.008 \approx 0.201$$ **3. 泊松分布** 若随机变量 $X$ 的分布律为 $$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$$ 其中 $\lambda > 0$ 为常数,则称 $X$ 服从参数为 $\lambda$ 的**泊松分布**,记为 $X \sim P(\lambda)$ 或 $X \sim \pi(\lambda)$。 **验证规范性:** $$\sum_{k=0}^{\infty} \frac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \sum_{k=0}^{\infty} \frac{\lambda^k}{k!} = e^{-\lambda} \cdot e^{\lambda} = 1$$ **应用:** - 电话交换台接到的呼叫次数 - 放射性物质单位时间内检测到的粒子数 - 某路段单位时间内通过的车辆数 **定理 2.1(泊松定理)** 设 $\lambda > 0$ 是常数,$n$ 是任意正整数,$np_n = \lambda$,则对任意固定的非负整数 $k$: $$\lim_{n \to \infty} C_n^k p_n^k (1-p_n)^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!}$$ **意义:** 当 $n$ 很大,$p$ 很小时,$B(n, p) \approx P(\lambda)$,其中 $\lambda = np$。 **例 2.3** 某产品次品率为 0.01,抽取 500 件,求至少 2 件次品的概率。 **解:** $X \sim B(500, 0.01)$,$\lambda = 500 \times 0.01 = 5$ 近似有 $X \sim P(5)$: $$\begin{aligned} P(X \geq 2) &= 1 - P(X = 0) - P(X = 1) \\ &\approx 1 - e^{-5} - 5e^{-5} \\ &= 1 - 6e^{-5} \approx 0.9596 \end{aligned}$$ **4. 几何分布** 若随机变量 $X$ 的分布律为 $$P(X = k) = (1-p)^{k-1}p, \quad k = 1, 2, 3, \ldots$$ 其中 $0 < p < 1$,则称 $X$ 服从参数为 $p$ 的**几何分布**,记为 $X \sim G(p)$。 **应用:** 首次成功所需的试验次数。 **5. 超几何分布** 若随机变量 $X$ 的分布律为 $$P(X = k) = \frac{C_M^k C_{N-M}^{n-k}}{C_N^n}, \quad k = 0, 1, 2, \ldots, \min(n, M)$$ 则称 $X$ 服从参数为 $N, M, n$ 的**超几何分布**。 **应用:** 不放回抽样中某类个体的个数。 ===== 2.3 随机变量的分布函数 ===== ==== 2.3.1 分布函数的定义 ==== **定义 2.4(分布函数)** 设 $X$ 是随机变量,$x$ 是任意实数,函数 $$F(x) = P(X \leq x)$$ 称为 $X$ 的**分布函数**。 **分布函数的意义:** - 描述了随机变量 $X$ 的概率分布规律 - 对任意实数 $x_1 < x_2$:$P(x_1 < X \leq x_2) = F(x_2) - F(x_1)$ ==== 2.3.2 分布函数的性质 ==== **性质 1(有界性):** $0 \leq F(x) \leq 1$,且 $F(-\infty) = 0$,$F(+\infty) = 1$ **性质 2(单调性):** $F(x)$ 是单调不减函数,即若 $x_1 < x_2$,则 $F(x_1) \leq F(x_2)$ **性质 3(右连续性):** $F(x+0) = F(x)$,即 $\lim_{t \to x^+} F(t) = F(x)$ **性质 4:** 对任意 $x$,$P(X = x) = F(x) - F(x-0)$ **注:** - 离散型随机变量:$F(x)$ 是阶梯函数 - 连续型随机变量:$F(x)$ 是连续函数 **例 2.4** 设 $X$ 服从 0-1 分布,$P(X=1) = p$,$P(X=0) = 1-p$,求 $F(x)$。 **解:** $$F(x) = \begin{cases} 0, & x < 0 \\ 1-p, & 0 \leq x < 1 \\ 1, & x \geq 1 \end{cases}$$ ===== 2.4 连续型随机变量 ===== ==== 2.4.1 连续型随机变量的定义 ==== **定义 2.5(连续型随机变量)** 设随机变量 $X$ 的分布函数为 $F(x)$,若存在非负可积函数 $f(x)$,使得对任意实数 $x$: $$F(x) = \int_{-\infty}^{x} f(t)dt$$ 则称 $X$ 为**连续型随机变量**,$f(x)$ 称为 $X$ 的**概率密度函数**(简称**密度函数**)。 ==== 2.4.2 密度函数的性质 ==== **性质 1(非负性):** $f(x) \geq 0$ **性质 2(规范性):** $\int_{-\infty}^{+\infty} f(x)dx = 1$ **性质 3:** $P(x_1 < X \leq x_2) = F(x_2) - F(x_1) = \int_{x_1}^{x_2} f(x)dx$ **性质 4:** 若 $f(x)$ 在 $x$ 处连续,则 $F'(x) = f(x)$ **性质 5:** 对连续型随机变量,$P(X = x) = 0$(任意单点概率为零) **注:** $P(X = x) = 0$ 不意味着 $\{X = x\}$ 是不可能事件! ==== 2.4.3 常见连续型分布 ===== **1. 均匀分布** 若随机变量 $X$ 的密度函数为 $$f(x) = \begin{cases} \frac{1}{b-a}, & a < x < b \\ 0, & \text{其他} \end{cases}$$ 则称 $X$ 服从区间 $(a, b)$ 上的**均匀分布**,记为 $X \sim U(a, b)$。 **分布函数:** $$F(x) = \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \leq x < b \\ 1, & x \geq b \end{cases}$$ **应用:** 等可能取值的连续随机变量(如舍入误差、等车时间等)。 **2. 指数分布** 若随机变量 $X$ 的密度函数为 $$f(x) = \begin{cases} \lambda e^{-\lambda x}, & x > 0 \\ 0, & x \leq 0 \end{cases}$$ 其中 $\lambda > 0$ 为常数,则称 $X$ 服从参数为 $\lambda$ 的**指数分布**,记为 $X \sim E(\lambda)$。 **分布函数:** $$F(x) = \begin{cases} 1 - e^{-\lambda x}, & x > 0 \\ 0, & x \leq 0 \end{cases}$$ **无记忆性:** 对任意 $s, t > 0$: $$P(X > s + t | X > s) = P(X > t)$$ **应用:** - 电子元件的寿命 - 顾客的服务时间 - 等待时间 **例 2.5** 某元件寿命 $X \sim E(0.001)$(单位:小时),求: (1) 寿命超过 1000 小时的概率 (2) 已使用 500 小时,还能使用 1000 小时的概率 **解:** (1) $P(X > 1000) = e^{-0.001 \times 1000} = e^{-1} \approx 0.368$ (2) 由无记忆性:$P(X > 1500 | X > 500) = P(X > 1000) = e^{-1} \approx 0.368$ **3. 正态分布** 若随机变量 $X$ 的密度函数为 $$f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < +\infty$$ 其中 $\mu, \sigma$($\sigma > 0$)为常数,则称 $X$ 服从参数为 $\mu, \sigma^2$ 的**正态分布**,记为 $X \sim N(\mu, \sigma^2)$。 **密度函数的性质:** - 关于 $x = \mu$ 对称 - 在 $x = \mu$ 处取得最大值 $\frac{1}{\sqrt{2\pi}\sigma}$ - 拐点在 $x = \mu \pm \sigma$ 处 - $\lim_{x \to \pm\infty} f(x) = 0$ **标准正态分布:** 当 $\mu = 0$,$\sigma = 1$ 时,称为**标准正态分布**,记为 $X \sim N(0, 1)$。 其密度函数:$\varphi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}$ 其分布函数:$\Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt$ **标准正态分布的性质:** - $\Phi(-x) = 1 - \Phi(x)$(对称性) - $\Phi(0) = 0.5$ **一般正态分布的标准化:** 若 $X \sim N(\mu, \sigma^2)$,则 $Z = \frac{X - \mu}{\sigma} \sim N(0, 1)$ **3σ 原则:** $$P(|X - \mu| < \sigma) \approx 0.6826$$ $$P(|X - \mu| < 2\sigma) \approx 0.9544$$ $$P(|X - \mu| < 3\sigma) \approx 0.9974$$ **例 2.6** 设 $X \sim N(1, 4)$,求: (1) $P(X < 3)$ (2) $P(0 < X < 1.6)$ **解:** $\mu = 1$,$\sigma = 2$ (1) $P(X < 3) = P\left(\frac{X-1}{2} < 1\right) = \Phi(1) \approx 0.8413$ (2) $P(0 < X < 1.6) = \Phi\left(\frac{1.6-1}{2}\right) - \Phi\left(\frac{0-1}{2}\right) = \Phi(0.3) - \Phi(-0.5)$ $= \Phi(0.3) - (1 - \Phi(0.5)) \approx 0.6179 - (1 - 0.6915) = 0.3094$ ===== 2.5 随机变量函数的分布 ===== ==== 2.5.1 离散型随机变量函数的分布 ==== 设 $X$ 是离散型随机变量,$Y = g(X)$,则 $Y$ 也是离散型随机变量。 **求法:** 1. 列出 $X$ 的所有取值 $x_k$ 及概率 $P(X = x_k)$ 2. 计算 $y_k = g(x_k)$ 3. 合并相同值的概率 **例 2.7** 设 $X$ 的分布律为 | $X$ | -1 | 0 | 1 | 2 | |-----|----|---|---|---| | $P$ | 0.2 | 0.3 | 0.1 | 0.4 | 求 $Y = X^2$ 的分布律。 **解:** | $X$ | -1 | 0 | 1 | 2 | |-----|----|---|---|---| | $Y = X^2$ | 1 | 0 | 1 | 4 | $P(Y = 0) = P(X = 0) = 0.3$ $P(Y = 1) = P(X = -1) + P(X = 1) = 0.2 + 0.1 = 0.3$ $P(Y = 4) = P(X = 2) = 0.4$ ==== 2.5.2 连续型随机变量函数的分布 ==== **分布函数法:** 1. 求 $Y = g(X)$ 的分布函数 $F_Y(y) = P(Y \leq y) = P(g(X) \leq y)$ 2. 通过反解得到关于 $X$ 的概率 3. 对 $F_Y(y)$ 求导得密度函数 $f_Y(y)$ **例 2.8** 设 $X \sim N(0, 1)$,求 $Y = X^2$ 的密度函数。 **解:** 对 $y > 0$: $$\begin{aligned} F_Y(y) &= P(X^2 \leq y) = P(-\sqrt{y} \leq X \leq \sqrt{y}) \\ &= \Phi(\sqrt{y}) - \Phi(-\sqrt{y}) = 2\Phi(\sqrt{y}) - 1 \end{aligned}$$ $$f_Y(y) = F_Y'(y) = 2\varphi(\sqrt{y}) \cdot \frac{1}{2\sqrt{y}} = \frac{1}{\sqrt{2\pi y}} e^{-\frac{y}{2}}$$ 即 $Y$ 服从**自由度为 1 的 χ² 分布**。 **定理 2.2(单调函数情形)** 设 $X$ 是连续型随机变量,密度函数为 $f_X(x)$,$y = g(x)$ 是严格单调可导函数,则 $Y = g(X)$ 的密度函数为: $$f_Y(y) = f_X(h(y)) \cdot |h'(y)|$$ 其中 $x = h(y)$ 是 $y = g(x)$ 的反函数。 **例 2.9** 设 $X \sim N(\mu, \sigma^2)$,求 $Y = aX + b$($a \neq 0$)的分布。 **解:** $y = ax + b$ 的反函数为 $x = \frac{y-b}{a}$ $$f_Y(y) = f_X\left(\frac{y-b}{a}\right) \cdot \frac{1}{|a|} = \frac{1}{\sqrt{2\pi}|a|\sigma} \exp\left(-\frac{(y - (a\mu+b))^2}{2a^2\sigma^2}\right)$$ 故 $Y \sim N(a\mu + b, a^2\sigma^2)$。 ===== 2.6 典型例题 ===== **例题 2.1** 设随机变量 $X$ 的密度函数为 $$f(x) = \begin{cases} Ax, & 0 \leq x \leq 1 \\ A(2-x), & 1 < x \leq 2 \\ 0, & \text{其他} \end{cases}$$ (1) 求常数 $A$;(2) 求分布函数 $F(x)$;(3) 求 $P(0.5 < X < 1.5)$。 **解:** (1) 由规范性:$\int_0^1 Ax dx + \int_1^2 A(2-x) dx = 1$ $\frac{A}{2} + \frac{A}{2} = A = 1$,故 $A = 1$。 (2) 当 $0 \leq x < 1$:$F(x) = \int_0^x t dt = \frac{x^2}{2}$ 当 $1 \leq x < 2$:$F(x) = \frac{1}{2} + \int_1^x (2-t) dt = \frac{1}{2} + 2(x-1) - \frac{x^2-1}{2} = 2x - \frac{x^2}{2} - 1$ (3) $P(0.5 < X < 1.5) = F(1.5) - F(0.5) = (3 - 1.125 - 1) - 0.125 = 0.75$ **例题 2.2** 设 $X$ 服从参数为 $\lambda$ 的指数分布,证明:对任意 $s, t > 0$,$P(X > s + t | X > s) = P(X > t)$。 **证明:** $$P(X > x) = \int_x^{\infty} \lambda e^{-\lambda u} du = e^{-\lambda x}$$ $$P(X > s + t | X > s) = \frac{P(X > s + t)}{P(X > s)} = \frac{e^{-\lambda(s+t)}}{e^{-\lambda s}} = e^{-\lambda t} = P(X > t)$$ ===== 2.7 习题 ===== **基础题** 1. 设 $X$ 的分布律为 $P(X = k) = \frac{c}{k(k+1)}$($k = 1, 2, \ldots$),求常数 $c$ 和 $P(X \geq 3)$。 2. 设 $X \sim B(4, 0.5)$,求 $P(X \geq 1)$ 和 $P(1 \leq X < 3)$。 3. 设 $X \sim U(0, 1)$,求 $Y = -2\ln X$ 的密度函数。 **提高题** 4. 某商店每月销售的某商品数 $X \sim P(4)$,求: (a) 至少售出 2 件的概率 (b) 已知至少售出 1 件,求至少售出 2 件的概率 5. 设 $X \sim N(\mu, \sigma^2)$,求 $Y = e^X$ 的密度函数(对数正态分布)。 **挑战题** 6. 设 $X$ 的密度函数为 $f(x) = \frac{1}{2}e^{-|x|}$($-\infty < x < +\infty$),求 $X$ 的分布函数和 $P(-1 < X < 2)$。