【机器学习】均方误差（MSE：Mean Squared Error）

均方误差（Mean Squared Error, MSE）是衡量预测值与真实值之间差异的一种方法。在统计学和机器学习中，MSE 是一种常见的损失函数，用于评估模型的预测准确性。

均方误差的定义

假设有一组真实值 $y_1, y_2, \ldots, y_n$ 和模型预测的对应值 $\hat{y}_1, \hat{y}_2, \ldots, \hat{y}_n$ 。均方误差的定义如下：

$\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$

其中：

$y_i$ 是第 $i$ 个真实值。
$\hat{y}_i$ 是第 $i$ 个预测值。
$n$ 是数据点的总数。

公式解析

误差：每个预测值与真实值的差异称为误差，记为 $y_i - \hat{y}_i$ 。
平方：每个误差的平方 $(y_i - \hat{y}_i)^2$ 消除了正负误差的抵消作用，保证误差总量为正。
均值：将所有平方误差求和并取平均，以得到整体误差的平均值，这样可以反映出模型的整体预测误差。

特点

非负性：均方误差总是非负的，因为平方项总是非负。
敏感度：MSE 对于离群值（极大或极小误差）非常敏感，因为平方会放大较大误差的影响。

均方误差的应用

回归分析：在回归问题中，MSE 被用来衡量模型预测值与实际观测值之间的差异，常用于模型的训练和验证。
机器学习模型评估：MSE 是评估回归模型的一种常用指标，比如线性回归、决策树回归、神经网络等。

示例

假设有 3 个真实值 $y = [3, -0.5, 2]$ 和模型的预测值 $\hat{y} = [2.5, 0.0, 2]$ ，则均方误差为：

$\text{MSE} = \frac{1}{3} \left( (3 - 2.5)^2 + (-0.5 - 0.0)^2 + (2 - 2)^2 \right) = \frac{1}{3} (0.25 + 0.25 + 0) = 0.1667$

均方误差的优缺点

优点：简单且广泛使用，适合衡量模型误差。
缺点：对异常值非常敏感，可能不适合含有离群值的数据集。

Python 实现代码

以下代码用于计算 MSE 值：

import numpy as npdef mse(y_true, y_pred):return np.mean((y_pred - y_true) ** 2)# 示例
y_true = np.array([3, -0.5, 2, 7])
y_pred = np.array([2.5, 0.0, 2, 8])result = mse(y_true, y_pred)
print("MSE:", result)

MSE 图解示例

下面的图展示了真实值和预测值之间的差异及其平方误差，用于更直观地理解 MSE。

# Re-import necessary libraries due to session context reset
import numpy as np
import matplotlib.pyplot as plt# Generate some sample data points for MSE visualization
np.random.seed(0)
x = np.linspace(0, 10, 10)
y_true = 2 * x + 1                      # True relationship (e.g., ground truth values)
y_pred = y_true + np.random.normal(0, 3, 10) # Predicted values with random noise# Calculate MSE
mse_value = np.mean((y_true - y_pred) ** 2)# Plotting true vs predicted values with error lines
plt.figure(figsize=(10, 6))
plt.plot(x, y_true, label="True Values", color="blue", marker='o')
plt.plot(x, y_pred, label="Predicted Values", color="red", marker='x')# Add residual lines for MSE (error lines)
for i in range(len(x)):plt.plot([x[i], x[i]], [y_true[i], y_pred[i]], color='gray', linestyle='dotted')# Adding text and labels
plt.xlabel("x")
plt.ylabel("y")
plt.title(f"Illustration of Mean Squared Error (MSE)\nMSE = {mse_value:.2f}")
plt.legend()
plt.grid(True)
plt.show()

上图展示了均方误差（MSE）的计算过程：

蓝色圆点连线 表示真实值 $y$ 。
红色叉点连线 表示预测值 $\hat{y}$ 。
灰色虚线 表示每个预测值和真实值之间的误差，即残差（差异）。

这些残差的平方的平均值即为 MSE。本图示帮助理解预测值与真实值之间的差异以及如何计算它们的平方误差。

为什么要使用误差的平方而不直接使用误差的绝对值

使用误差的平方而不直接使用误差的绝对值主要有以下几个原因：

1. 数学性质

可导性：均方误差（MSE）是一个连续且可导的函数，这使得我们在优化算法（如梯度下降法）中能够轻松计算导数和进行更新。而绝对误差（Mean Absolute Error, MAE）在误差为零时不可导，这在某些优化算法中可能会造成困难。

2. 对离群值的敏感性

放大离群值影响：平方误差对较大的误差（离群值）非常敏感，因为它们的平方会显著增加总误差的值。这使得模型能够更好地识别并调整较大的预测错误。在某些应用中，尤其是对大误差特别关注的场景，使用平方误差可以帮助改善模型性能。

3. 简化计算

解析解和算法效率：使用平方误差可以使许多计算过程变得更简单。例如，在最小二乘法中，通过对平方误差进行最小化可以得到解析解，这在处理线性回归等问题时非常有用。

4. 标准正态分布假设

假设分布：在许多统计建模和机器学习的背景下，假设误差是正态分布的是常见的。使用平方误差的损失函数与这种正态分布假设一致，适合于基于最大似然估计的参数估计。

5. 平滑性

函数平滑：平方函数是平滑的，优化过程中的小变化不会导致函数值发生剧烈变化，这使得收敛过程更加稳定和可靠。

6. 对称性

误差符号的处理：平方误差可以消除正负误差的影响，而绝对误差只能给出误差的大小，不能处理多种情况的平衡。

示例对比

假设有三个真实值 $y = [2, 3, 5]$ 和对应的预测值 $\hat{y} = [2.5, 2, 4.5]$ ，我们来计算每个误差的绝对值和平方。

计算误差
- $y_1 - \hat{y}_1 = 2 - 2.5 = -0.5$
- $y_2 - \hat{y}_2 = 3 - 2 = 1$
- $y_3 - \hat{y}_3 = 5 - 4.5 = 0.5$
绝对误差
- $|y_1 - \hat{y}_1| = | -0.5 | = 0.5$
- $|y_2 - \hat{y}_2| = | 1 | = 1$
- $|y_3 - \hat{y}_3| = | 0.5 | = 0.5$
总绝对误差：
平方误差
- $(y_1 - \hat{y}_1)^2 = (-0.5)^2 = 0.25$
- $(y_2 - \hat{y}_2)^2 = (1)^2 = 1$
- $(y_3 - \hat{y}_3)^2 = (0.5)^2 = 0.25$
总平方误差：