在二分类问题中,概率分布用于描述一个样本属于类别 y=1 的概率 P(y=1∣x) 和属于类别 y=0y = 0y=0 的概率 P(y=0∣x) ,通常满足:
P(y=1∣x)+P(y=0∣x)=1
这类问题的概率分布通常采用伯努利分布(Bernoulli Distribution)建模。
二分类的概率分布建模
-
伯努利分布模型
在二分类问题中,每个样本的标签 y 被建模为一个伯努利分布:其中:
- y∈{0,1} 表示类别标签
- 是属于类别 1 的概率
- 是属于类别 0 的概率
-
概率估计方法
- 假设 p 的值由某个模型 h(x) 决定。
- 通常通过一个可微分的函数(如逻辑函数)将输入 x 转换为概率值。
-
逻辑回归中的概率分布
在逻辑回归中,概率分布是通过 Sigmoid 函数定义的:其中:
- 是线性模型的输出
- σ(z) 是 Sigmoid 函数
二分类的对数似然函数
-
似然函数
对于一个二分类数据集 ,其条件概率的联合分布为:其中 。
-
对数似然函数
为了便于计算和优化,通常取对数得到对数似然函数:将 代入具体模型(如逻辑回归),可以优化模型参数 w、b 。
二分类中的常见分布类型
-
高斯分布(Gaussian Distribution)
如果输入特征 x 或数据点来自不同类别的分布,通常假设类别条件概率服从高斯分布:- 在判别式模型中(如 LDA 和 QDA),基于这些分布来推导分类边界。
-
伯努利分布(Bernoulli Distribution)
输出类别标签 y的概率分布符合伯努利分布,概率参数由模型预测给出。 -
二项分布(Binomial Distribution)
如果需要处理多个样本的总分类概率,可以用二项分布描述:
其中:
X 是成功次数的随机变量。
n 是独立试验的总次数。
k 是成功次数。
p 是每次试验成功的概率(即分类为某一类的概率,如 P(y=1∣x) 。
1−p 是每次试验失败的概率。
二项分布的期望与方差
-
期望(Expected Value):
-
方差(Variance):
这说明当 n 较大时,分布会趋于稳定,但当 p 接近 0 或 1 时,分布会非常偏斜。
二项分布与其他分布的关系
-
与伯努利分布的关系
伯努利分布是二项分布的特例,当 n=1 时: -
与正态分布的关系(中心极限定理)
当且 p 不变时,二项分布可以近似为正态分布:这是二项分布用于大样本估计的理论基础。
二分类概率分布的评价指标
-
AUC-ROC 曲线
- AUC (Area Under Curve) 衡量分类器对概率分布预测的能力。
- ROC 曲线表示不同阈值下的真阳性率(TPR)和假阳性率(FPR)。
-
Log Loss
对数似然损失衡量模型对概率分布的拟合效果: -
Brier Score
衡量预测概率的精度: