数据分析：pandas.skew 复现

2025/4/19 5:33:17 来源：https://blog.csdn.net/qq_18668137/article/details/145495463 浏览: 次关键词：数据分析：pandas.skew 复现

最近由于使用 pandas 和 numpy做数据分析，以及需要把算法迁移到go上，发现了pandas 在处理一些统计项的时候，其中的参数的default 和numpy里面有问题，做个记录。

pandas.skew实现（rolling 同理）

import pandas as pd# 示例数据
data = pd.Series([1, 2, 3, 4, 5,6, 7, 8, 9, 10, 50])
skewness_pandas = data.skew()
print(f"Pandas Skewness: {skewness_pandas}")Pandas Skewness: 3.0536609583638397

拆公式直接实现（numpy）

import numpy as npdef calculate_skew_manual(series: pd.Series) -> float:"""手动计算时序数据的偏度（Skewness），完全匹配 pandas 的 skew 方法。"""data = series.dropna()  # 去除缺失值n = len(data)           # 样本量mean = np.mean(data)   # 计算均值std = np.std(data,ddof= 0)  # 使用样本标准差 (ddof=0)numerator = np.mean((data - mean) ** 3)  # 分子denominator = std ** 3  # 分母# 偏度校正因子correction_factor = np.sqrt(n * (n - 1)) / (n - 2)skewness = correction_factor * (numerator / denominator)return skewness# 示例数据
data = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 50])
skewness_manual = calculate_skew_manual(data)
print(f"Manual Skewness (matching pandas): {skewness_manual}")Manual Skewness (matching pandas): 3.05366095836384

该复现过程存在两个问题

（1）自由度

计算标准差/方差的时候需要设置自由度 ddof 参数，如上 np.std(data,ddof=0)

这里我最开始看了一下 dataframe 的 std 方法和 np.std方法。发现ddof 的default 如下：

data.std(axis=None,skipna=True,level=None,ddof=1,numeric_only=None,**kwargs,
)np.std(a,axis=None,dtype=None,out=None,ddof=0,keepdims=<no value>,*,where=<no value>,
)

然而 直接调用 dataframe 的 skew 方法，ddof default 为0

所以在使用numpy或者直接使用 data.std()的时候，把ddof 设置为0

（2）偏度校正因子

在样本量较小时，直接用样本数据计算的偏度可能会低估或高估总体的偏度。这是因为：