深度学习中的正则化技术 - 作为约束的范数惩罚篇

序言

深度学习作为机器学习领域的前沿技术，其核心目标在于通过构建复杂的神经网络模型来学习和理解数据的内在规律。然而，随着模型复杂度的增加，过拟合问题日益凸显，即模型在训练数据上表现优异，但在未见过的数据上泛化能力较差。为了有效缓解这一问题，正则化技术应运而生，其中范数惩罚作为一种重要的约束手段，在深度学习中发挥着关键作用。

作为约束的范数惩罚

考虑通过参数范数正则化的代价函数： $\tilde{J}(\boldsymbol{\theta};\boldsymbol{X},\boldsymbol{y})=J(\boldsymbol{\theta};\boldsymbol{X},\boldsymbol{y})+\alpha\Omega(\boldsymbol{\theta})\quad\textbf{\footnotesize{---公式1}}$
回顾应用数学与机器学习基础 - 数值计算篇，我们可以构造一个广义 $\text{Lagrange}$ 函数来最小化受约束的函数，即在原始目标函数加上一系列惩罚项。
- 每个惩罚项是一个系数之间的乘积，称为 $\text{Karush-Kuhn-Tucker}$ （KKT）乘子，以及一个表示约束是否满足的函数。
- 如果我们想约束 $\Omega(\boldsymbol{\theta})$ 小于某个常数 $k$ ，我们可以构建广义 $\text{Lagrange}$ 函数：
  $\mathcal{L}(\boldsymbol{\theta},\alpha;\boldsymbol{X},\boldsymbol{y})=J(\boldsymbol{\theta};\boldsymbol{X},\boldsymbol{y})+\alpha(\Omega(\boldsymbol{\theta})-k)\quad\textbf{\footnotesize{---公式2}}$
- 这个约束问题的解由下式给出： $\boldsymbol{\theta}^\ast=\argmin\limits_{\boldsymbol{\theta}}\max\limits_{\alpha,\alpha>0}\mathcal{L}(\boldsymbol{\theta},\alpha)\quad\textbf{\footnotesize{---公式3}}$
- 如应用数学与机器学习基础 - 数值计算篇中描述，解决这个问题需要同时改变 $\boldsymbol{\theta}$ 和 $\alpha$ 。
- 在数值计算之线性最小二乘实例篇给出了一个带 $L^2$ 约束的线性回归实例。
- 许多不同的优化过程是可能的，有些可能会利用梯度下降而其他可能使用梯度为 $0$ 的解析解，
  - 但在所有程序中 $\alpha$ 在 $\Omega(\boldsymbol{\theta})>k$ 时必须增加
  - 在 $\Omega(\boldsymbol{\theta})<k$ 时必须减小。
  - 所有正的 $\alpha$ 鼓励 $\Omega(\boldsymbol{\theta})$ 收缩。
  - 最佳值 $\alpha^\ast$ 也将鼓励 $\Omega(\boldsymbol{\theta})$ 收缩，但不会如 $\Omega(\boldsymbol{\theta})$ 小于 $k$ 时那么强烈。
- 为了洞察约束的影响，我们可以固定 $\alpha^\ast$ ，把这个问题看成只是跟 $\boldsymbol{\theta}$ 有关的函数： $\boldsymbol{\theta}^\ast=\argmin\limits_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta},\alpha^\ast)=\argmin\limits_{\boldsymbol{\theta}} J(\boldsymbol{\theta};\boldsymbol{X},\boldsymbol{y})+\alpha^\ast\Omega(\boldsymbol{\theta})\quad\textbf{\footnotesize{---公式4}}$
- 这和最小化 $\tilde{J}$ 的正则化训练问题是完全一样的。因此，我们可以把参数范数惩罚看作对权重强加的约束。
  - 如果 $\Omega$ 是 $L^2$ 范数，那么权重就是被约束在一个 $L^2$ 球中。
  - 如果 $\Omega$ 是 $L^1$ 范数，那么权重被约束在一个 $L^1$ 范数限制的区域内。
  - 通常我们不知道权重衰减系数 $\alpha^\ast$ 约束的区域大小，因为 $\alpha^\ast$ 的值不直接告诉我们 $k$ 的值。原则上我们可以解得 $k$ ，但 $k$ 和 $\alpha^\ast$ 之间的关系取决于 $J$ 的形式。
  - 虽然我们不知道约束区域的确切大小，但我们可以通过增加或者减小 $\alpha$ 来大致扩大或收缩约束区域。
  - 较大的 $\alpha$ ，将导致一个较小的约束区域。
  - 较小的 $\alpha$ ，将导致一个较大的约束区域。
- 有时候，我们希望使用显式的限制，而不是惩罚。如基于梯度的优化方法所描述，我们能修改下降算法（如随机梯度下降算法），使其先计算 $J(\boldsymbol{\theta})$ 的下降步，然后将 $\boldsymbol{\theta}$ 投影到满足 $\Omega(\boldsymbol{\theta})<k$ 的最近点。如果我们知道什么样的 $k$ 是合适的，而不想花时间寻找对应于此 $k$ 处的 $\alpha$ 值，这会非常有用。
- 另一个使用显式约束和重投影而不是使用惩罚强加约束的原因是惩罚可能导致非凸优化过程而陷入局部极小（对应于小的 $\boldsymbol{\theta}$ ）。
- 当训练神经网络时，这通常表现为训练带有几个“死亡单元”的神经网络。
  - 这些单元不会对网络学到的函数的行为有太大贡献，因为进入或离开他们的权重都非常小。
  - 当使用权重范数的惩罚训练时，即使可能通过增加权重以显著减少 $J$ ，这些配置也可能是局部最优的。
  - 因为重投影实现的显式约束不鼓励权重接近原点，所以在这些情况下工作得更好。
  - 通过重投影实现的显式约束只在权重变大并试图离开限制区域时产生作用。
- 最后，因为重投影的显式约束还对优化过程增加了一定的稳定性，所以这是另一个好处。
  - 当使用较高的学习率时，很可能进入正反馈，即大的权重诱导大梯度，然后诱发权重的大更新。
  - 如果这些更新持续增加权重的大小， $\boldsymbol{\theta}$ 就会迅速增大，直到离原点很远而发生溢出。
  - 重投影的显式约束可以防止这种反馈环引起的权重无限制的持续增加。
  - Hinton et al. (2012b) 建议结合使用约束和高学习速率，这样能更快地探索参数空间，并保持一定的稳定性。
- Hinton et al. (2012b) 尤其推荐由Srebro and Shraibman (2005) 引入的策略：约束神经网络层的权重矩阵每列的范数，而不是限制整个权重矩阵的 $\text{Frobenius}$ 范数。
  - 分别限制每一列的范数可以防止某一隐藏单元有非常大的权重。
  - 如果我们将此约束转换成 $\text{Lagrange}$ 函数中的一个惩罚，这将与 L2 权重衰减类似但每个隐藏单元的权重都具有单独的KKT乘子。
  - 每个KKT乘子分别会被动态更新，以使每个隐藏单元服从约束。
  - 在实践中，列范数的限制总是通过重投影的显式约束实现。