CatBoost 中对分类特征进行目标变量统计编码公式解析

公式 14-2 是 CatBoost 中对分类特征进行目标变量统计编码的一种改进版本，加入了平滑项，用于处理稀疏数据和类别样本不足的情况。下面是对公式的详细解释：

公式 14-2

$\hat{x}_k^i = \frac{\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}] Y_{\sigma_j} + a \cdot p}{\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}] + a}$

公式的意义

公式用于计算分类特征 $x_k$ 的目标变量统计值 $\hat{x}_k^i$ 。
统计值 $\hat{x}_k^i$ 是基于当前样本 $i$ 之前的训练样本数据计算得到的。
通过引入平滑参数 $a$ 和全局目标变量均值 $p$ ，公式能够避免统计值在样本数量较少时过于极端或不稳定。

公式中的符号含义

$\hat{x}_k^i$ ：
- 表示第 $i$ 个样本在分类特征 $k$ 上的目标变量统计值。
$x_{\sigma_j,k}$ 和 $x_{\sigma_i,k}$ ：
- $x_{\sigma_j,k}$ ：第 $j$ 个样本在分类特征 $k$ 上的取值。
- $x_{\sigma_i,k}$ ：第 $i$ 个样本在分类特征 $k$ 上的取值。
指示函数 $[x_{\sigma_j,k} = x_{\sigma_i,k}]$ ：
- 当 $x_{\sigma_j,k} = x_{\sigma_i,k}$ 时，其值为 1；否则为 0。
- 用于选择与当前样本 $i$ 的特征值 $x_{\sigma_i,k}$ 相同的样本。
$Y_{\sigma_j}$ ：
- 样本 $j$ 的目标变量值。
$a$ ：
- 平滑参数，控制全局均值 $p$ 对目标统计值的影响。
  - 如果 $a$ 较大，则统计值更依赖全局均值 $p$ ；
  - 如果 $a$ 较小，则统计值更依赖于当前类别的历史统计值。
$p$ ：
- 全局目标变量均值，即所有样本目标变量 $Y$ 的平均值：
  $\frac{\sum_{j=1}^n Y_j}{n}$
  $n$ 为总样本数。
$\sigma$ ：
- 表示样本的排列顺序，确保计算过程中只使用当前样本之前的数据。
分子：
- 包含两部分：
  - $\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}] Y_{\sigma_j}$ ：
    当前样本之前，与 $x_{\sigma_i,k}$ 特征值相同的样本目标值之和。
  - $\cdot p$ ：
    平滑项，表示全局目标均值对统计值的贡献。
分母：
- 同样包含两部分：
  - $\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}]$ ：
    当前样本之前，与 $x_{\sigma_i,k}$ 特征值相同的样本数量。
  - $a$ ：
    平滑因子，防止分母为零。

公式分解与逐步解释

1. 未引入平滑项时的目标统计值

目标统计值是当前类别目标变量的历史加权均值：
$\hat{x}_k^i = \frac{\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}] Y_{\sigma_j}}{\sum_{j=1}^{i-1} [x_{\sigma_j,k} = x_{\sigma_i,k}]}$

问题：当 $i - 1$ 中满足 $x_{\sigma_j,k} = x_{\sigma_i,k}$ 的样本数量较少时（稀疏类别或训练早期），分母较小，统计值可能过于极端。

2. 引入平滑项后的目标统计值

通过加入全局目标均值 $p$ 和权重因子 $a$ ，使得统计值更平滑、更鲁棒：

当样本数量较多时：
- 分母中的 $a$ 对总值的贡献较小，公式更依赖于当前类别的目标统计。
当样本数量较少时：
- 分母中的 $a$ 占比较大，公式更依赖于全局均值 $p$ 。

这有效缓解了稀疏类别问题。

计算步骤

定位与当前样本 $x_{\sigma_i,k}$ 特征值相同的历史样本：
- 遍历当前样本之前的所有样本 $\dots, i-1$ ，使用指示函数 $[x_{\sigma_j,k} = x_{\sigma_i,k}]$ 筛选出特征值相同的样本。
累加目标变量 $Y$ ：
- 对筛选出的样本目标变量 $Y_{\sigma_j}$ 求和，得到该类别的目标值总和。
加上平滑项：
- 将全局目标均值 $p$ 乘以平滑参数 $a$ ，作为额外的平滑贡献。
计算分母：
- 累加与当前样本 $x_{\sigma_i,k}$ 特征值相同的历史样本数量，再加上平滑参数 $a$ 。
计算目标统计值：
- 将分子除以分母，得到平滑后的目标统计值。

公式的作用

解决稀疏类别问题：
- 当类别 $x_{\sigma_i,k}$ 的样本数量较少时，统计值会更依赖于全局均值 $p$ ，从而避免过拟合。
避免数据泄漏：
- CatBoost 通过排序提升方法（Ordered Boosting），保证计算当前样本的目标统计值时，仅使用当前样本之前的历史数据，避免目标变量泄漏。
提高模型稳定性：
- 引入平滑项 $a$ 和全局均值 $p$ ，使得模型在稀疏数据或早期训练阶段更加稳定。

示例

假设有如下数据：

样本 $i$	分类特征 $x_i$	目标值 $Y_i$
1	A	1
2	B	0
3	A	1
4	A	0
5	B	1

全局目标均值：
$\frac{1 + 0 + 1 + 0 + 1}{5} = 0.6$

平滑因子：
$a = 2$

计算 $\hat{x}_k^3$ （第 3 行，类别 $A$ ）：

历史样本中 $x_{\sigma_j,k} = x_{\sigma_3,k} = A$ ：
- 第 1 行： $Y_1 = 1$ 。
- 所以，分子为：
  $\sum_{j=1}^{2} [x_{\sigma_j,k} = x_{\sigma_3,k}] Y_{\sigma_j} + a \cdot p = 1 + 2 \cdot 0.6 = 2.2$
- 分母为：
  $\sum_{j=1}^{2} [x_{\sigma_j,k} = x_{\sigma_3,k}] + a = 1 + 2 = 3$
目标统计值：
$\hat{x}_k^3 = \frac{2.2}{3} \approx 0.733$