L1,L2正则化解决过拟合问题
目录
过拟合的原因
正则化的目标
L1,L2正则化
L1正则化
L2正则化
从概率的角度来看
L1 正则化与拉普拉斯分布
L2 正则化与高斯分布
过拟合的原因
过拟合发生时,模型学习到了训练数据中的噪声或细节,表现为模型参数过于复杂(例如过大的权重值或过于灵活的假设),导致在测试数据上的表现较差
【模型复杂-----参数的个数和参数的大小范围决定的】
欠拟合 理想状态 过拟合
过拟合:曲线太过复杂,防止过拟合:让曲线变得平滑一下
正则化的目标
在机器学习中,正则化的目标是控制模型的复杂度,防止过拟合。
其常见形式是向损失函数添加一个约束项(正则项)
线性模型的损失函数
我们要对损失函数 求最小值
L1,L2正则化
L1 和 L2 正则化能够防止过拟合的原因在于它们通过在损失函数中加入惩罚项限制模型的复杂度,抑制参数的无限增大,从而提高模型的泛化能力。
L1正则化
在目标函数中加入模型参数的绝对值之和作为惩罚项
可以使部分参数缩小为零,从而实现特征选择(稀疏性)。
对高维数据集特别有用,因为它可以自动筛选出最相关的特征。
优点:
能产生稀疏解,模型更简单。
适用于特征多但有效特征较少的情况。
当特征之间高度相关时,选择的特征可能不稳定。
L2正则化
在目标函数中加入模型参数的平方和作为惩罚项
特点:
会减小参数的绝对值,但不会让其完全变为零。
参数被“均匀”缩小,模型复杂度降低,但不会稀疏。
优点:
对于多重共线性问题(特征相关性高),可以降低过拟合风险。
算法解唯一,稳定性更好。
缺点:
无法实现特征选择,不能自动去除不相关特征。
正则化项会对参数施加惩罚,强迫模型找到一个平衡点:既能拟合数据,又不能让参数无限增大。
对过大的参数值进行约束
过拟合往往伴随着模型参数变得极端(过大或过小)。
L2正则化会均匀地减小所有参数值,使模型对训练数据的敏感性降低,避免过度拟合噪声。
L1正则化会使某些参数值直接变为零,去掉不必要的特征,简化模型结构,从而降低过拟合的可能性。
一些问题:
既要保证w1w2的值小于1,又要保证Loss尽可能小
从概率的角度来看
从贝叶斯角度看,正则化等价于对参数 w引入了先验分布
优势:不仅可以解决过拟合问题,而且可以在参数缩减过程中,将一些重复或不重要的参数直接缩减为零(删除),有提取有用特征的作用。 劣势:计算过程复杂,毕竟L1范数不是连续可导的
这个我们已经很熟悉了
μ为数学期望(位置参数),b为振幅
L1 正则化与拉普拉斯分布
L1正则化相当于为w加入Laplace分布的先验
【先验分布是指我们在看到数据之前,对模型参数的信念或知识的数学表达。换句话说,先验分布代表了我们在获取观测数据之前,认为某些参数值的可能性有多大。】
稀疏性:
- 拉普拉斯分布在 w=0处有尖锐的峰值,对非零参数的惩罚较强。
- 这使得 L1 正则化倾向于让部分参数完全为 0,产生稀疏解。
L2 正则化与高斯分布
L2正则化相当于为w加入Gaussian分布的先验
在贝叶斯框架中,L2 正则化对应参数 w 服从高斯分布(正态分布):
、
高斯分布的概率密度在 w=0附近变化缓慢,对较大的 w惩罚更强。
L2 正则化不会将参数直接压缩为 0,而是让其趋近于零。
【在正则化中,“惩罚”指的是对模型参数(通常是权重 w)的大小施加限制】
从贝叶斯角度来看,正则化相当于对模型参数引入了先验分布,即对模型参数加了分布约束:
L1正则,模型参数服从拉普拉斯分布,只有很小的|w|,才能得到较大的概率,
L2正则,模型参数服从高斯分布对大的|w|,概率较低,而在接近0的时候,概率变换缓慢,最终解的w趋于0附近。
w更容易取到0;
假设w符合拉普拉斯分布时,可以获得L1正则化后的目标函数。而此时w更容易取到0附近。
w更容易取到0附近