《概率论与数理统计》学渣笔记

文章目录

1 随机事件和概率
- 1.1 古典概型求概率
- - 随机分配问题
  - 简单随机抽样问题
- 1.2 几何概型求概率
- 1.3 重要公式求概率
2 一维随机变量及其分布
- 2.1 随机变量及其分布函数的定义
- - 离散型随机变量及其概率分布（概率分布）
  - 连续型随机变量及其概率分布（分布函数）
- 2.2 离散型分布
- - 0-1分布 $\sim B(1,p)$
  - 二项分布 $X\sim B(n,p)$
  - 几何分布 $X\sim G(p)$
  - 超几何分布 $X\sim H(n,M,N)$
  - 泊松分布 $X\sim P(λ)$
  - 离散型→离散型
- 2.3 连续型分布
- - 均匀分布 $X\sim U(a,b)$
  - 指数分布 $X\sim E(λ)$
  - 正态分布 $X\sim N(μ,σ^2)$
  - 连续型→离散型
- 2.4 混合型分布
- - 连续型→连续型（或混合型）
3 多维随机变量及其分布
- 3.1 定义
- 3.2 求联合分布
- - 二维均匀分布与二维正态分布
- 3.3 求边缘分布
- 3.4 求条件分布
- 3.5 判独立
- 3.6 用分布
- 3.7（离散型，离散型）→离散型
- 3.8（连续型，连续型）→连续型
- - 分布函数法
  - 卷积公式法（建议用这个）
  - 最值函数的分布
- 3.10（离散型，连续型）→连续型【全集分解】
- 3.11 离散型→（离散型，离散型）
- 3.12 连续型→（离散型，离散型）
- 3.13 （离散型，离散型）→（离散型，离散型）
- 3.14 （连续型，连续型）→（离散型，离散型）
- 3.15 （离散型，连续型）→（离散型，离散型）
4 数字特征
- 4.1 数学期望
- 4.2 方差
- 4.3 亚当夏娃公式
- 4.4 常用分布的期望和方差
- 4.5 协方差
- 4.6 相关系数
- 4.7 独立性与不相关性的判定
- 4.8 切比雪夫不等式
5 大数定律与中心极限定理
- 5.1 切比雪夫大数定律（均值依概率收敛到期望）
- 5.2 伯努利大数定律（频率依概率收敛到概率）
- 5.3 辛钦大数定律（均值依概率收敛到期望）
- 5.4 中心极限定理（n足够大时，均收敛于正态分布）
6 统计量及其分布
- 6.1 统计量
- 6.2 标准正态分布分布的上α分位数
- 6.3 卡方分布 $X\sim \chi^2(n)$
- 6.4 t分布 $t\sim t(n)$
- 6.5 F分布 $F\sim F(n_1,n_2)$
- 6.6 正态总体下的常用结论
7 参数估计与假设检验
- 7.1 矩估计
- 7.2 最大似然估计（MLE）
- 7.3 常见分布的矩估计量和最大似然估计量
- 7.4 无偏性：求期望
- 7.5 有效性：比方差，方差越小越有效
- 7.6 一致性（相合性）：大数定律
- 7.7 区间估计
- 7.8 假设检验
- - 选择检验统计量
- 7.9 两类错误
- - 第一类错误：弃真（直接算落入拒绝域的概率）
  - 第二类错误：取伪（直接算落入收敛域的概率）

1 随机事件和概率

1.1 古典概型求概率

在古典概型中，样本空间中的每个基本事件发生的概率是相同的。如果样本空间中有 $n$ 个可能的基本事件，而感兴趣的事件 $A$ 包含其中的 $m$ 个基本事件，则事件 $A$ 发生的概率 $P (A)$ 可以表示为：

$\boldsymbol{P(A) = \frac{\text{事件 } A \text{ 包含的基本事件数}}{\text{样本空间Ω中的基本事件总数}} = \frac{m}{n}}$

求解步骤

确定样本空间：首先需要明确所有可能的结果，这些结果构成了样本空间 $Ω$ 。
确定感兴趣的事件：明确你要计算的事件 $A$ ，并找到包含在这个事件中的基本事件。
计算概率：使用上述公式 $\frac{m}{n}$ 来计算概率。

例子 1：投掷一枚公平的六面骰子

样本空间 $Ω = \{1, 2, 3, 4, 5, 6\}$ ，其中 $n = 6$ 。
事件 $A$ ：投掷结果是一个偶数。
包含的基本事件 $A = \{2, 4, 6\}$ ，其中 $m = 3$ 。
概率： $\frac{m}{n} = \frac{3}{6} = \frac{1}{2}$ 。

例子 2：从一副52张的扑克牌中抽取一张

样本空间 $Ω$ 包含所有52张牌，其中 $n = 52$ 。
事件 $A$ ：抽取到红心。
包含的基本事件 $A$ 是所有红心牌，有 $m = 13$ 张。
概率： $\frac{m}{n} = \frac{13}{52} = \frac{1}{4}$ 。

随机分配问题

$\boldsymbol{将n个球随机分配到N个盒子中}$

分配方式	不同分法的总数
每个盒子能装任意多个球	$N^n$
每个盒子最多只能容纳一个球	$A_N^n = \frac{N!}{(N-n)!}$

“某指定n个”：只有1种情况
“恰有n个”：有 $C_N^n$ 种情况

简单随机抽样问题

$\boldsymbol{从含有N个球个盒子中n次简单随机抽样}$

抽样方式	抽样法总数
先后有放回取n次	$N^n$
先后无放回取n次	$A_N^n = \frac{N!}{(N-n)!}$
任取n个	$C_N^n$

抓阄模型：“先后无放回取 $k$ 个球”与“任取 $k$ 个球”的概率相同。

1.2 几何概型求概率

$\boldsymbol{P(A)=\frac{A（子区域：长度，面积）}{Ω（几何区域：长度，面积）}}$

1.3 重要公式求概率

在这里插入图片描述

2 一维随机变量及其分布

2.1 随机变量及其分布函数的定义

在这里插入图片描述

离散型随机变量及其概率分布（概率分布）

在这里插入图片描述

连续型随机变量及其概率分布（分布函数）

在这里插入图片描述

2.2 离散型分布

0-1分布 $\sim B(1,p)$

在这里插入图片描述

二项分布 $X\sim B(n,p)$

在这里插入图片描述

几何分布 $X\sim G(p)$

$首中即停止（等待型分布），具有无记忆性$

在这里插入图片描述

超几何分布 $X\sim H(n,M,N)$

在这里插入图片描述

泊松分布 $X\sim P(λ)$

$用于描述稀有事件的概率$
在这里插入图片描述

离散型→离散型

在这里插入图片描述

2.3 连续型分布

在这里插入图片描述

均匀分布 $X\sim U(a,b)$

在这里插入图片描述

指数分布 $X\sim E(λ)$

在这里插入图片描述

正态分布 $X\sim N(μ,σ^2)$

在这里插入图片描述

正态分布，也叫高斯分布，是一种特定的概率分布。其曲线呈钟形，对称于均值。

正态分布的重要性源于以下几个原因：

自然现象的普遍性：很多自然和社会现象的测量结果近似服从正态分布，比如人的身高、考试成绩、误差分布等。原因是这些现象往往受到多种独立因素的共同影响，而根据中心极限定理，当这些影响因素足够多且相互独立时，其结果往往接近正态分布。
统计推断的基础：在统计学中，许多推断方法（如 $t$ 检验、 $z$ 检验、线性回归等）都基于数据服从正态分布的假设。正态分布的数学特性使得这些方法可以更有效地估计参数、检验假设。
中心极限定理的支持：无论数据原本的分布是什么样的，只要样本量足够大，样本均值的分布就会趋向于正态分布。这一理论使得我们可以在处理大样本时，使用正态分布来简化问题。
易于计算和理解：正态分布有简洁的数学表达式，且它的标准化（即转化为标准正态分布）使得很多复杂的计算变得简单、直观。

连续型→离散型

在这里插入图片描述

2.4 混合型分布

在这里插入图片描述

连续型→连续型（或混合型）

在这里插入图片描述

3 多维随机变量及其分布

3.1 定义

在这里插入图片描述

3.2 求联合分布

在这里插入图片描述

二维均匀分布与二维正态分布

在这里插入图片描述

3.3 求边缘分布

在这里插入图片描述

3.4 求条件分布

在这里插入图片描述

3.5 判独立

在这里插入图片描述

3.6 用分布

在这里插入图片描述

3.7（离散型，离散型）→离散型

在这里插入图片描述

3.8（连续型，连续型）→连续型

分布函数法

在这里插入图片描述

卷积公式法（建议用这个）

在这里插入图片描述

最值函数的分布

在这里插入图片描述

3.10（离散型，连续型）→连续型【全集分解】

在这里插入图片描述

3.11 离散型→（离散型，离散型）

在这里插入图片描述

3.12 连续型→（离散型，离散型）

在这里插入图片描述

3.13 （离散型，离散型）→（离散型，离散型）

在这里插入图片描述

3.14 （连续型，连续型）→（离散型，离散型）

在这里插入图片描述

3.15 （离散型，连续型）→（离散型，离散型）

在这里插入图片描述

4 数字特征

4.1 数学期望

在这里插入图片描述

4.2 方差

在这里插入图片描述

4.3 亚当夏娃公式

在这里插入图片描述

4.4 常用分布的期望和方差

分布	期望 $E (X)$	方差 $D (X)$
$0 - 1$ 分布 $\sim B(p)$	$p$	$p (1 - p)$
二项分布 $X\sim B(n,p)$	$n p$	$n p (1 - p)$
泊松分布 $X\sim p(λ)$	$λ$	$λ$
几何分布 $X\sim G(p)$	$\frac{1}{p}$	$\frac{1-p}{p^2}$
超几何分布（了解） $X\sim H(n,M,N)$	$\frac{nM}{N}$	$\cdot \frac{M}{N} \cdot \left(1 - \frac{M}{N}\right) \cdot \frac{N-n}{N-1}$
均匀分布 $X\sim U(a,b)$	$E(X)=\frac{a+b}{2}$ $E(X^2) = \frac{a^2 + ab + b^2}{3}$	$D(X)=\frac{(b-a)^2}{12}$ $\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2=\frac{(b-a)^2}{12}$ $D(X^2) = \frac{(b - a)^4}{80}$
指数分布 $X\sim E(λ)$	$E(X)=\frac{1}{λ}$ $E(X^4) = \frac{24}{\lambda^4}$	$D(X)=\frac{1}{λ^2}$ $D(X^2) = \frac{20}{\lambda^4}$
正态分布 $X\sim N(μ,σ^2)$	$E (X) = μ$ $\mu)^4] = 3\sigma^4$ $\overline{X})^4] = \frac{3(n-1)^2\sigma^4}{n^2}$	$D(X)=σ^2$ $D(X^2) = 2\sigma^4 + 4\mu^2\sigma^2$ $D(S^2)=\frac{2σ^4}{n-1}$
标准正态分布 $X\sim N(0,1)$	$E (X) = 0$ $E(X^4)=3$	$D (X) = 1$ $D(X^2)=2$
瑞利分布（了解） $\sim \text{R}(\sigma)$	$\sqrt{\frac{π}{2}}σ$	$(2-\frac{π}{2})σ^2$
卡方分布 $X\sim \chi^2(n)$	$E (X) = n$ $E(X^4) = n(n + 2)(n + 4)$	$D (X) = 2 n$ $D(X^2)=4n$
$t$ 分布 $t\sim t(n)$	$0$	$\frac{n}{n-2}$

4.5 协方差

在这里插入图片描述

4.6 相关系数

在这里插入图片描述

4.7 独立性与不相关性的判定

在这里插入图片描述

4.8 切比雪夫不等式

在这里插入图片描述

5 大数定律与中心极限定理

在这里插入图片描述

5.1 切比雪夫大数定律（均值依概率收敛到期望）

在这里插入图片描述

5.2 伯努利大数定律（频率依概率收敛到概率）

在这里插入图片描述

5.3 辛钦大数定律（均值依概率收敛到期望）

在这里插入图片描述

5.4 中心极限定理（n足够大时，均收敛于正态分布）

在这里插入图片描述

6 统计量及其分布

6.1 统计量

$统计量是不含未知参数的随机变量的函数$
在这里插入图片描述

在这里插入图片描述

6.2 标准正态分布分布的上α分位数

在这里插入图片描述

6.3 卡方分布 $X\sim \chi^2(n)$

$标准正态分布的平方$

在这里插入图片描述

6.4 t分布 $t\sim t(n)$

$标准正态分布的单打独斗$
在这里插入图片描述

在这里插入图片描述

6.5 F分布 $F\sim F(n_1,n_2)$

$卡方分布的单打独斗$
在这里插入图片描述

在这里插入图片描述

6.6 正态总体下的常用结论

在这里插入图片描述

7 参数估计与假设检验

7.1 矩估计

在这里插入图片描述

矩估计法的核心思想是使得样本的样本矩等于总体的理论矩，从而通过这个等式来解出模型的参数。所谓“矩”就是随机变量的不同阶的期望，比如一阶矩是期望值，二阶矩是方差等。

参数估计能揭示数据规律，指导实际应用。描述数据、预测未来、优化决策和风险评估是参数估计的主要用途。

描述数据特性：估计参数帮助我们理解数据的分布特性，比如正态分布的均值（数据中心）和方差（数据分散程度）。
预测与推断：通过估计参数，可以进行未来预测或假设检验。例如，使用时间序列模型的参数预测市场趋势。
建模与优化：许多模型依赖参数估计来优化决策，如线性回归中的回归系数，用于预测或分类。
风险管理与模拟：估计参数后可以进行数据模拟，帮助评估金融风险或仿真系统性能。
理论验证与模型选择：通过实际数据检验理论模型，参数估计帮助选择更适合的模型。

7.2 最大似然估计（MLE）

在这里插入图片描述

最大似然估计（MLE）是一种广泛使用的统计方法，通过寻找使观测数据出现概率最大的参数，来估计模型中的未知参数。这些估计值对统计模型来说至关重要，因为它们帮助我们了解数据的分布特征。在很多实际问题中，真实的分布参数通常是未知的。例如，你可能知道某个数据集来自正态分布，但不知道这个正态分布的具体均值（ $\mu$ ）和方差（ $\sigma^2$ ）是什么。MLE通过样本数据估计这些参数，从而得出对总体特征的最佳猜测。随着样本量的增加，MLE的估计值会趋近于真实参数，因为它在大样本情况下具有渐近无偏性和渐近有效性。

在实际应用中，这些参数估计值有广泛的用途：

模型预测: 在机器学习中，MLE的参数估计值用于构建预测模型。例如，在逻辑回归中，MLE得到的参数用来预测事件发生的概率。
风险评估: 在金融领域，MLE估计的参数帮助投资者评估和管理风险，比如估计资产回报率的波动性。
工程应用: 在质量控制中，MLE用于估计生产过程中产品的缺陷率，从而帮助改进生产流程。
医学研究: 在医学领域，研究人员通过MLE估计药物疗效的相关参数，从而确定最佳剂量或治疗方案。

总结而言，最大似然估计是一种强大而广泛应用的统计工具，无论是在学术研究还是实际应用中，都能为我们提供有价值的信息和决策支持。

7.3 常见分布的矩估计量和最大似然估计量

X服从的分布	矩估计量	似然估计量
$0 - 1 分布$	$\hat{p}=\overline{X}$	$\hat{p}=\overline{X}$
$B (n, p)$	$\hat{p}=\frac{\overline{X}}{n}$	$\hat{p}=\frac{\overline{X}}{n}$
$G (p)$	$\hat{p}=\frac{1}{\overline{X}}$	$\hat{p}=\frac{1}{\overline{X}}$
$P (λ)$	$\hat{λ}=\overline{X}$	$\hat{λ}=\overline{X}$
$U (a, b)$	$\hat{a}=\overline{X}-\sqrt{\frac{3}{n}\sum_{i=i}^n(X_i-\overline{X})}$ $\hat{b}=\overline{X}+\sqrt{\frac{3}{n}\sum_{i=i}^n(X_i-\overline{X})}$	$\hat{a}=min\{X_1,X_2,...,X_n\}$ $\hat{b}=max\{X_1,X_2,...,X_n\}$
$E (λ)$	$\hat{λ}=\frac{1}{\overline{X}}$	$\hat{λ}=\frac{1}{\overline{X}}$
$N(μ,σ^2)$	$\hat{μ}=\overline{X}$ $\hat{σ^2}=\frac{1}{n}\sum_{i=i}^n(X_i-\overline{X})$	$\hat{μ}=\overline{X}$ $\hat{σ^2}=\frac{1}{n}\sum_{i=i}^n(X_i-\overline{X})$