Focal Loss

Focal Loss通过动态降低易分类样本的损失权重，迫使模型集中学习难分类样本和少数类，从而有效解决样本不均衡问题。

Focal Loss就像个严厉的老师，逼着模型别再“偷懒”总学简单题（多数类），而是多花力气死磕难题（少数类），这样考试（预测）时才能考好冷门知识点。

Focal Loss 详解

——解决样本不均衡问题的利器

1. 核心思想

Focal Loss 由何恺明团队在2017年提出（论文《Focal Loss for Dense Object Detection》），旨在解决目标检测任务中前景-背景样本极度不均衡的问题（如1:1000）。其核心思想是：通过调整损失权重，让模型更关注难分类样本（Hard Examples），抑制简单样本（Easy Examples）的贡献，从而提升模型对少数类的识别能力。

2. 数学公式与推导

2.1 交叉熵损失（Cross-Entropy Loss）

原始交叉熵损失公式：
$\begin{cases} -\log(p) & \text{if } y=1 \\ -\log(1-p) & \text{if } y=0 \end{cases}$
其中，( p \in [0,1] ) 是模型预测的概率，( y \in {0,1} ) 是真实标签。

为简化表达，定义 ( p_t )：
$p_t = \begin{cases} p & \text{if } y=1 \\ 1-p & \text{otherwise} \end{cases}$
此时，交叉熵可统一为：
$CE(p_t) = -\log(p_t)$

2.2 Focal Loss 公式

在交叉熵基础上引入两个调节因子：
$FL(p_t) = -\alpha_t (1-p_t)^\gamma \log(p_t)$

( \alpha_t \in [0,1] )：平衡正负样本的权重（类似类别加权），通常 ( \alpha ) 对正样本设较大值（如0.75）。
( \gamma \geq 0 )：调节难易样本的权重。γ越大，模型越关注难样本。

参数作用图示：

参数	作用
( \alpha )	解决类别数量不均衡（如正样本少则增大α）
( \gamma )	解决样本难易度不均衡（抑制简单样本损失）

3. Focal Loss 的直观理解

当样本易分类时（( p_t \to 1 )）：
( (1-p_t)^\gamma \to 0 )，损失权重趋近于0，抑制简单样本的梯度更新。
当样本难分类时（( p_t \to 0 )）：
( (1-p_t)^\gamma \to 1 )，保留原有损失权重，迫使模型学习难样本。

示例（设 ( \gamma=2 )）：

若某样本 ( p_t=0.9 )（易分类）：
( FL = -(1-0.9)^2 \log(0.9) \approx 0.01 \times 0.046 = 0.00046 )
若某样本 ( p_t=0.1 )（难分类）：
( FL = -(1-0.1)^2 \log(0.1) \approx 0.81 \times 2.3 = 1.86 )
结论：难样本的损失权重是易样本的4000倍以上！

4. 参数调优经验

4.1 参数选择

γ（Gamma）：
- 常用范围：( \gamma \in [0.5, 5] )。
- 经验值：目标检测任务中 ( \gamma=2 )，文本分类中 ( \gamma=1 )。
- γ越大，模型对难样本越敏感，但过大会导致训练不稳定。
α（Alpha）：
- 经验公式：( \alpha = \frac{N_{\text{负样本}}}{N_{\text{总样本}}} )（如负样本占比95%，则 ( \alpha=0.95 )）。
- 注意：α和γ需联合调节，避免过拟合。

4.2 调参步骤

固定γ=2，调节α（如0.25, 0.5, 0.75），观察验证集召回率。
固定最佳α，调节γ（如0.5→5），选择验证损失最小的值。
极端不均衡场景：优先增大γ（如γ=3），再微调α。

5. Focal Loss 的优势与局限

5.1 优势

无需手动采样：直接通过损失函数解决不均衡问题，避免过采样（Over-sampling）的信息冗余和欠采样（Under-sampling）的信息丢失。
动态调节权重：根据样本难易度自动调整，比静态加权（如类别权重）更灵活。
提升难样本性能：在X级耀斑预测中，召回率提升18%（从50%→68%）。

5.2 局限

超敏感参数：γ和α需精细调节，否则易导致训练震荡。
不适用于极端不均衡（如1:100000）：需结合其他方法（如课程学习）。
计算复杂度略高：相比CE，增加指数运算，但对GPU影响可忽略。

6. 实际应用案例（太阳耀斑预测）

6.1 场景特点

类别分布：X/M级耀斑占比<5%，C级占比>95%。
需求：提升X级召回率，避免漏报引发空间灾害。

6.2 实现细节

参数设置：

class FocalLoss(nn.Module):def __init__(self, alpha=0.25, gamma=2):super().__init__()self.alpha = alphaself.gamma = gammadef forward(self, pred, target):bce_loss = F.binary_cross_entropy_with_logits(pred, target, reduction='none')pt = torch.exp(-bce_loss)  # p_t = exp(-CE)focal_loss = self.alpha * (1 - pt)**self.gamma * bce_lossreturn focal_loss.mean()