第一章

常见公式:

$A - B = A - A \cdot B=A \cdot \overline {B}$

$P(A-B) = P(A) - P(AB)$

概率的有限可加性:若 $A$, $B$ 互斥 $( A \cdot B = \varnothing )$,则 $P(A \cup B) = P(A) + P(B)$

条件概率:$P(B|A) = \frac{P(AB)}{P(A)}$

全概率公式:$P(B)=P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + \cdots +P(A_n)P(B|A_n) = \underset{i=1}{\overset{n}{\sum}}P(A_i)P(B|A_i)$

贝叶斯公式:$P(A_j|B) = \frac{P(A_j B)}{P(B)} = \frac{P(A_j)P(B|A_j)}{ \underset{i=1}{\overset{n}{\sum}}P(A_i)P(B|A_i)}$

事件的独立性:

相互独立的事件满足:$P(B| A) = P(B|\overline{A}) = P(B)$

等价定义:$P(AB) = P(A)P(B)$,$P(\overline{A}B)=P(\overline{A})P(B)_{[1]}$,$P(B|A) + P(\overline{B}|\overline{A}) = 1$

$$
_{[1]}
\begin{cases}
P(\overline{A}B) = P(B) - P(AB)\
P(\overline{A})P(B) = (1-P(A))\cdot P(B) = P(B)-P(A)P(B)\
\end{cases}
\Longleftrightarrow P(AB) = P(A)P(B)
$$

三个事件的独立性:

\begin{aligned} \text{[1]} \quad & P(AB)=P(A)P(B) \\ \text{[2]} \quad & P(AC)=P(A)P(C) \\ \text{[3]} \quad & P(BC)=P(B)P(C) \\ \text{[4]} \quad & P(ABC)=P(A)P(B)P(C) \end{aligned}

概率模型:古典概型、几何概型、伯努利概型

二项概率公式三要素:n 次独立重复,两种结果($A,\overline{A}$),$P(A) = p(恒定)$

第二章

分布函数$F(x)$的几何意义:$F(x)$ 表示 $R.V. X$ 落在点 $x$ 的左半区间的概率,即 $P{X \le x}$。

某点处的概率:$P{X=a} = P{X \le a}-P{X < a} = F(a) - \lim\limits_{x \to a^-}P{X\le x} = F(a) - F(a-0)$

区间上的概率:$P{X \le a}= F(a),P{X < a} = \lim\limits_{x \to a^-}F(x) = F(a-0)$

分布函数的性质:非负性,有界性(规范性),单调不减性,右连续性(需要用海涅定理加以证明)

常见的离散型随机变量的分布:

(1)0-1 分布 $x \sim (0-1)$

$\cdots E(X) = p, \ D(X) = p(1-p)$

(2)二项分布 $x \sim B(n, p)$

$\cdots E(X) = np, \ D(X) = np(1-p)$

(3)泊松分布 $x \sim P(\lambda)$ $P{X=k}=\frac{\lambda^k e^{-\lambda}}{k!}$ $(k \in N^{+},\lambda > 0)$

$\cdots E(X) = \lambda, \ D(X) = \lambda$

泊松定理:当二项分布的 $n$ 足够大,$p$ 充分小时,近似于泊松分布,其中 $\lambda = np$

(4)超几何分布 $x \sim H(N, M, n)$ $P{X=k} = \frac{C_{M}^{k} C_{N-M}^{n-k}}{C_{N}^{n}}$ $(k = 0,1,2, \cdots , \min {M, n})$

(5)几何分布 $x \sim G(p)$ $P{X=k} = (1-p)^{k-1}p $ $(k \in N^+)$

设 $R.V.X$ 的分布函数为 $F(x)$,如果存在一个函数 $f(x) \ge 0$,使得 $F(x) = \int_{-\infty}^{x}f(t)dt$,则称 $X$ 为连续型 $R.V.$,$f(x)$ 为 $x$ 的概率密度函数,简称密度函数。

$[注]$ 某点处的概率为 0。

常见的连续型随机变量的分布:

(1)均匀分布 $x \sim U(a, b)$

$$
f(x)=
\begin{cases}
\frac{1}{b-a}, & a < x < b \
0, & \text{else}
\end{cases}
$$

$\cdots E(X) = \frac{a+b}{2}, \ D(X) = \frac{(b-a)^2}{12}$

(2)指数分布 $x \sim e(\lambda)$

$$
f(x) =
\begin{cases}
\lambda e^{-\lambda x}, & x > 0 \
0, & x \le 0
\end{cases}
$$

$$
F(x) =
\begin{cases}
1 - e^{-\lambda x}, & x > 0 \
0, & x \le 0
\end{cases}
$$

$\cdots E(X) = \frac{1}{\lambda}, \ D(X) = \frac{1}{\lambda^2}$

(无记忆性:$P{X > t_0 + T \space|\space X > t_0} = P{X > T}$)

(3)正态分布 $x \sim N(\mu, \sigma^2)$ $f(x)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}$ $\frac{x-\mu}{\sigma} \sim N(0, 1)$

标准正态分布:$x \sim N(0, 1)$ $\phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$

($\int_{-\infty}^{+\infty}e^{-\frac{x^2}{A}}dx = \sqrt{A\pi}$,$A>0$)

连续型随机变量函数的分布:

设 $R.V.X$ 的密度为 $f_{X}(x)$,函数 $Y = g(X)$,且 $y = g(x)$ 为单调函数,则$Y=g(X)$ 的密度为

$$
f_{Y}(y)=
\begin{cases}
f_X(h(y)) \cdot |h’(y)|, & \alpha < y < \beta \
0, & \text{else}
\end{cases}
$$

其中 $h(y)$ 为 $y=g(x)$ 的反函数。

第三章

设 $(X, Y)$ 的联合分布函数为 $F(x, y)$ ,若存在非负函数 $f(x, y) \ge 0$ 使得 $F(x, y) = \int_{-\infty}^{x}\int_{-\infty}^{y}f(u, v) dudv$ 成立,则称 $(X, Y)$ 为二维连续型 $R.V.$ $f(x, y)$ 称为 $(X, Y)$ 的联合密度函数。

若函数 $f(x, y)$ 在点 $(x, y)$ 处连续,则 $\frac{\partial^2F(x, y)}{\partial x \partial y} = f(x, y)$。

区域概率:$P{(X,Y)\in D} = \iint_D f(x, y) dxdy$。

常见的二维连续型分布:

(1)二维均匀分布:$(X, Y) \sim U(D)$

$$
f(x, y) =
\begin{cases}
\frac{1}{S_D}, & (x, y) \in D \
0, & \text{else}
\end{cases}
$$

(2)二维正态分布:$(X, Y) \sim N(\mu_1, \mu_2;\space \sigma^2, \sigma^2; \rho)$ $f(x, y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\cdot exp{-\frac{1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2} - 2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}]}$ $(\sigma_1>0, \sigma_2>0, -1\le \rho \le 1)$

边缘分布函数:$F_X(x) = P{X\le x}=\int_{-\infty}^{x} \int_{-\infty}^{+\infty}f(u, v) \space dudv$

边缘密度函数:$f_X(x) = \int_{-\infty}^{+\infty}f(x, y) \space dy$

$条件分布 = \frac{联合分布}{边缘分布}$

条件密度函数:设 $R.V. (X, Y)$ 的概率密度为 $f(x, y)$,固定 $Y = y$,当 $f_Y(y) \ne 0$,称 $f_{X|Y}(x|y) = \frac{f(x\cdot y)}{f_Y(y)}$ 为 $X$ 在 $Y=y$ 条件下的条件密度。

设 $(X, Y)$ 的联合分布函数为 $F(x, y)$ ,$F_X(x), F_Y(y)$ 分别为 $X$ 与 $Y$ 的边缘分布函数,若 $F(x, y) = F_X(x)F_Y(y)$,则 $R.V.$ $X$ 与 $Y$ 相互独立。

卷积公式求联合密度:

设 $(X, Y) \sim f(x, y)$,$X$ 与 $Y$ 相互独立,则 $Z=X+Y$ 的密度 $F_Z(z) = \int_{-\infty}^{+\infty}f_X(x) \cdot f_Y(z-x) \space dx$。

[推广]$\space$ $X\sim N(\mu_1, \sigma_1^2),Y \sim N(\mu_2, \sigma_2^2)$,X 与 Y 独立 $\longrightarrow$ $aX+bY \sim N(a\mu_1+b\mu_2, a^2\sigma_1^2+b^2\sigma_2^2)$。

[推广]$\space$ $Z = \max{X, Y}, \space F_Z(z) = P{Z \le z} = P{X \le z, Y \le z} = F_X(z) \cdot F_Y(z)$。

[推广]$\space$ $Z = \min{X, Y}, \space F_Z(z) = P{Z \le z} = 1 - P{X > z, Y > z} =1- {1- F_X(z)} \cdot {1-F_Y(z)}$。

第四章

连续型 $R.V.$ 的数学期望:设 $R.V. X$ 的密度函数为 $f_X(x)$,则称 $E(X) = \int_{-\infty}^{+\infty}x \cdot f_X(x) dx$ 为 $x$ 的数学期望。

若 $Y = g(X)$,$X \sim f_X(x)$,则 $E(g(X)) = \int_{-\infty}^{+\infty}g(x) \cdot f_X(x) dx$ 为 $Y=g(X)$ 的数学期望。

若 $Z=g(X, Y)$,且 $(X, Y) \sim f(x, y)$,则 $E(g(X, Y)) = \int_{-\infty}^{+\infty}\int_{\infty}^{+\infty} g(x, y) \cdot f(x, y) \space dxdy$ 为 $Z = g(X, Y)$ 的数学期望。

数学期望的性质:

\begin{aligned} \text{[1]} \quad & E(C) = C \quad (C \text{ is constant}) \\ \text{[2]} \quad & E(C \cdot X) = C E(X) \\ \text{[3]} \quad & E(X + Y) = E(X) + E(Y) \\ \text{[4]} \quad & \text{若 } X \text{ 与 } Y \text{ 独立,} E(XY) = E(X) \cdot E(Y) \end{aligned}

方差:$D(X) = E [(X-E(X))^2]$,$D(X) = E(X^2) - E^2(X)$

方差的性质:

\begin{aligned} \text{[1]} \quad & D(C) = 0 \quad (C \ is\ constant) \\ \text{[2]} \quad & D(C \cdot X) = C^2 D(X) \\ \text{[3]} \quad & D(X+Y) = D(X) + D(Y) + 2[E(XY) - E(X)E(Y)] \\ \quad & \cdots 若 X 与 Y 独立,D(X+Y)=D(X)+D(Y) \\ \text{[4]} \quad & 若 D(X)=0, 则 P\{X=E(X)\}=1 \end{aligned}

协方差:设 $(X, Y)$ 为二维 $R.V.$,称 $Cov(X, Y) = E[(X-E(X))][Y-E(Y)]$ 为 $X$ 与 $Y$ 的协方差。

$$
\begin{align}
&————————&\
&[1]\ Cov(X,Y) = E(XY) - E(X)E(Y)\
&\cdots 若\ X\ 与\ Y\ 独立,\ Cov(X, Y)= 0\
&\cdots Cov(X,X) = D(X), \ Cov(X, C)=0\
&[2]\ D(X+Y) = D(X) + D(Y) + 2Cov(X,Y)\
&[3]\ Cov(X,Y) = Cov(Y,X)\
&[4]\ Cov(aX, bY) = ab\ Cov(X,Y)\
&[5]\ Cov(X+Y, Z) = Cov(X, Z) + Cov(Y, Z)\
\end{align}
$$

相关系数:$\rho_{XY} = \frac{Cov(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$

$X$ 与 $Y$ 独立(无关) $\longrightarrow$ $X$ 与 $Y$ 不相关(没有线性关系)

第五章

切比雪夫不等式:$\forall \epsilon > 0, \ P{|X-E(X)| \ge \epsilon} \le \frac{D(X)}{\epsilon^2}$

切比雪夫大数定律:设 $X_1, X_2, \cdots, X_n, \cdots$ 是相互独立的 $R.V.$ 序列,且 $E(X_i), D(X_i)$ 均存在,$D(X_i) \le C$,$i \in N^+$。记 $\overline{X} = \frac{1}{n} \underset{i=1}{\overset{n}{\sum}}X_i$ ,则 $\forall{\epsilon} > 0$,有 $\lim\limits_{n\rightarrow \infty} P{|\overline{X} - E(\overline{X})| <\epsilon} = 1$ $\Longleftrightarrow$ $\overline{X} \ \overset{P}{\longrightarrow} E(\overline{X})$。

伯努利大数定律:设 $n_A$ 为 $n$ 次独立重复实验中事件 $A$ 发生的次数,$P(A) = \rho$,则 $\forall \epsilon > 0$,有 $\lim\limits_{n \rightarrow \infty} P{|\frac{n_A}{n}-\rho| <\epsilon} = 1$ $\Longleftrightarrow$ $\frac{n_A}{n} \overset{P}{\longrightarrow} \rho$。

辛钦大数定律:设 $X_1, X_2, \cdots, X_n, \cdots$ 是相互独立的 $R.V.$ 序列,且服从同一分布,$E(X_i)$ 存在,则 $\forall{\epsilon} > 0$,有 $\lim\limits_{n\rightarrow\infty} P{|\overline{X} - E(\overline{X})| < \epsilon} = 1$ $\Longleftrightarrow$ $\overline{X} \overset{P}{\longrightarrow} E(\overline(X))$。

独立同分布的中心极限定理(勒维——林德伯格中心极限定理):

设 $X_1, X_2, \cdots, X_n, \cdots$ 是相互独立的 $R.V.$ 序列,且服从同一分布,具有相同的数学期望与方差,记 $E(X_i) = \mu, D(X_i) = \sigma^2, i\in N^+$,则当 $n$ 充分大时,$ \underset{i=1}{\overset{n}{\sum}}x_i \sim N(n\mu, n\sigma^2)$。

(二项分布的中心极限定理(棣莫佛——拉普拉斯中心极限定理)是上述定理的特化,指 $R.V.$ 序列服从于 0-1 分布的情况)

第六章

总体,个体,样本,简单随机样本(可简称样本),样本容量,样本观测值(样本值)

样本分布函数(经验分布函数)

统计量(不含未知参数的样本函数):样本均值,样本方差(修正:$S^2=\frac{1}{n-1} \underset{i=1}{\overset{n}{\sum}} (X_i-\overline{X})^2$),样本标准差

样本 $k$ 阶原点矩:$A_k = \frac{1}{n} \underset{i=1}{\overset{n}{\sum}} X_i^k$。

样本 $k$ 阶中心距:$B_k = \frac{1}{n} \underset{i=1}{\overset{n}{\sum}}(X_i -\overline{X}) ^k$。

抽样分布:统计量 $g(x_1, x_2, \cdots, x_n)$ 的分布称为抽样分布。

(1)卡方分布($\chi^2$ 分布):

设 $X_1, X_2, \cdots, X_n$ 相互独立,且均服从 $N(0, 1)$,则有 $X = \underset{i=1}{\overset{n}{\sum}}X_i^2$ 服从自由度为 $n$ 的卡方分布,即 $X \sim \chi^2(n)$。

密度函数为

$$
f(y) =
\begin{cases}
\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}y^{\frac{n}{2}-1}e^{-\frac{y}{2}}, & y > 0 \
0, & y \le 0
\end{cases}
$$

其中 $\Gamma(\frac{n}{2}) = \int_0^{+\infty}x^{\frac{n}{2}-1}e^{-x} \ dx$。

$$
\begin{align}
&————————&\
&[1]\ X\sim\chi^2(n_1), Y\sim\chi^2(n_2), 独立 \Longrightarrow X+Y\sim\chi^2(n_1+n_2) \
&[2]\ X\sim\chi^2(n),E(X)=n, D(X)=2n\
\end{align}
$$

(2)$t$ 分布:

若 $X_1 \sim N(0, 1)$,$X_2 \sim \chi^2(n)$,独立,则 $X=\frac{X_1}{\sqrt{X_2/n}}$ 服从自由度为 $n$ 的 $t$ 分布,即 $X\sim t(n)$。

密度函数为 $h(t) = \frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{t^2}{n})^{-\frac{n+1}{2}}, t\in R$。

$$
\begin{align}
&————————&\
&[1]\ X\sim\chi^2(n_1), Y\sim\chi^2(n_2), 独立 \Longrightarrow X+Y\sim\chi^2(n_1+n_2) \
&[2]\ X\sim t(n),E(X)=0, D(X)=\frac{n}{n-2}\
&[3]\ n \rightarrow \infty, t(n) \rightarrow N(0, 1)
\end{align}
$$

(3)$F$ 分布:

若 $X_1 \sim \chi^2(n_1)$,$X_2 \sim \chi^2(n_2)$,独立,则 $X=\frac{X_1/n_1}{X_2/n_2}$ 服从自由度为 $(n1, n2)$ 的 $F$ 分布,即 $X\sim F(n_1, n_2)$。

$$
\begin{align}
&————————&\
&[1]\ X\sim F(n_1, n_2),\ 则\ \frac{1}{X} \sim F(n_2, n_1)\
\end{align}
$$

正态分布的样本均值与样本方差的分布:

设总体 $X\sim N(\mu, \sigma^2)$,$X_1, X_2, \cdots, X_n$ 为总体 $X$ 的一个样本,则:

$\overline{X} \sim N(\mu, \frac{\sigma^2}{\mu}), \ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1), \ \overline{X} \ 与\ S^2\ 独立$。

$\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1)$。

两个正态总体的样本均值与样本方差的分布:

$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1)$。

$\frac{(\overline{X}-\overline{Y}) - (\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1)$。

第七章

点估计:设总体 $X$ 的分布形式已知,但含有未知参数 $\theta$,用样本 $X_1, X_2, \cdots, X_n$ 构造统计量 $\hat{\theta}(X_1, X_2, \cdots, X_n)$ 来估计未知参数 $\theta$,称 $\hat{\theta}(X_1, X_2, \cdots, X_n)$ 为 $\theta$ 的点估计量, $\hat{\theta}(x_1, x_2, \cdots, x_n)$ 为点估计值。

矩估计:用样本矩代替总体矩解出即可

最大似然估计:使样本 $x_1, x_2, \cdots, x_n$ 出现的概率的最大的参数值 $\hat{\theta}$。

(似然函数 $L(\theta)$,求极值可以先取对数再求导)

无偏性:设 $x_1, x_2, \cdots, x_n$ 是来自总体 $X$ 的一个样本,$\hat{\theta} = \hat{\theta}(X_1, X_2, \cdots,X_n)$ 为未知参数 $\theta$ 的估计量。若 $E(\hat{\theta}) = \theta$,则称 $\hat{\theta}$ 为 $\theta$ 的无偏估计量;若 $\lim\limits_{n\rightarrow \infty} E(\hat{\theta}) = \theta$,则称 $\hat{\theta}$ 为 $\theta$ 的渐进无偏估计量。

有效性:设 $\hat{\theta}_1 = \hat{\theta}_1(X_1, X_2, \cdots,X_n)$,$\hat{\theta}_2 = \hat{\theta}_2(X_1, X_2, \cdots,X_n)$ 均为未知参数 $\theta$ 的无偏估计量,若 $D(\hat{\theta_1}) \le D(\hat{\theta_2})$,则称 $\hat{\theta_1}$ 比 $\hat{\theta_2}$ 更有效。

一致性(相合性):设 $\hat{\theta}_1 = \hat{\theta}1(X_1, X_2, \cdots,X_n)$ 为未知参数 $\theta$ 的估计量,若 $\forall{\epsilon} >0, \lim\limits{n\rightarrow\infty} P{|\hat{\theta_n}-\theta| < \epsilon} = 1$,即 $\hat{\theta} \overset{P}{\longrightarrow} \theta$,(也就是,$n \rightarrow \infty: \ E(\hat{\theta}) \rightarrow \theta, D(\hat{\theta}) \rightarrow \theta$)则称 $\hat{\theta}$ 为 $\theta$ 的一致估计。

区间估计,假设检验:略