欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 教育 > 培训 > 机器学习中常用的数据预处理方法

机器学习中常用的数据预处理方法

2025/2/22 16:58:58 来源:https://blog.csdn.net/C7211BA/article/details/145517379  浏览:    关键词:机器学习中常用的数据预处理方法

1. 数据清洗

  • 方法:处理异常值、重复数据、噪声数据。
    • 异常值处理:通过统计方法(如 Z-Score、IQR)或可视化检测,选择删除、替换(均值/中位数)或保留。
    • 重复数据:直接删除重复样本。
  • 优点:提升数据质量,减少模型偏差。
  • 缺点:可能误删有用信息或引入人为偏差。
  • 场景:金融风控(异常交易检测)、传感器数据清洗。

2. 特征缩放

  • 归一化(Min-Max Scaling)

    • 将数据缩放到 [0, 1] 区间。
    • 优点:加速梯度下降,适合对尺度敏感的模型(如神经网络、KNN)。
    • 缺点:对异常值敏感。
  • 标准化(Z-Score)

    • 使数据均值为 0,方差为 1。
    • 优点:对异常值稳健,适合大多数模型(如 SVM、线性回归)。
    • 缺点:不保证固定数值范围。
  • 场景:归一化用于图像像素值处理;标准化用于非均匀分布特征(如年龄、收入)。


3. 分类变量编码

  • 独热编码(One-Hot Encoding)

    • 将类别转换为二进制向量(如 “猫” → [1,0,0])。
    • 优点:消除数值大小误导,适合无序类别。
    • 缺点:维度爆炸(高基数特征需配合降维)。
  • 标签编码(Label Encoding)

    • 将类别映射为整数(如 “红/黄/蓝” → 0/1/2)。
    • 优点:节省内存,适合树模型(如随机森林)。
    • 缺点:可能引入虚假顺序关系。
  • 场景:独热编码用于性别、颜色;标签编码用于有序类别(如学历等级)。


4. 缺失值处理

  • 删除缺失样本/特征

    • 优点:简单高效。
    • 缺点:丢失信息(缺失比例高时不可行)。
  • 填充

    • 均值/中位数(数值特征)、众数(分类特征)、插值(时间序列)。
    • 优点:保留数据完整性。
    • 缺点:可能引入偏差(如均值填充忽略特征分布)。
  • 模型预测填充

    • 用回归或分类模型预测缺失值。
    • 优点:更精准。
    • 缺点:计算复杂,可能过拟合。
  • 场景:医疗数据(缺失较多时用模型填充);电商数据(删除缺失少的特征)。


5. 特征工程

  • 特征选择

    • 过滤法(卡方检验、相关系数)、包装法(递归特征消除)、嵌入法(L1 正则化)。
    • 优点:降低过拟合风险,提升效率。
    • 缺点:可能丢弃有用特征。
  • 特征构造

    • 人工构造新特征(如日期→星期几,文本→词频)。
    • 优点:增强模型表达能力。
    • 缺点:依赖领域知识,耗时。
  • 场景:广告 CTR 预测(构造用户行为组合特征);图像识别(提取边缘特征)。


6. 降维

  • 主成分分析(PCA)

    • 线性投影到低维空间,保留最大方差。
    • 优点:减少计算量,缓解维度灾难。
    • 缺点:丢失非线性结构。
  • t-SNE

    • 非线性降维,保留局部相似性。
    • 优点:适合高维数据可视化。
    • 缺点:计算复杂,难以解释。
  • 场景:图像数据压缩(PCA);高维聚类可视化(t-SNE)。


7. 数据增强(深度学习)

  • 方法:图像(旋转、翻转、裁剪)、文本(同义词替换)、音频(加噪)。
  • 优点:提升泛化性,缓解过拟合。
  • 缺点:可能生成不合理的样本(如翻转后的错误文本)。
  • 场景:图像分类(CNN 训练)、小样本学习。

8. 数据划分

  • 训练集/验证集/测试集
    • 常用比例 60%/20%/20% 或 70%/30%。
  • 交叉验证
    • K-Fold 划分(如 5 折),减少划分偏差。
  • 优点:评估模型泛化能力。
  • 缺点:数据量少时交叉验证计算成本高。
  • 场景:小数据集(交叉验证);时序数据(需按时间顺序划分)。

9. 时间序列处理

  • 滑动窗口:将序列转换为监督学习格式。
  • 去趋势/季节性:差分、STL 分解。
  • 优点:捕捉时序依赖关系。
  • 缺点:处理不当可能破坏原始模式。
  • 场景:股票预测、销量预测。

10. 文本处理

  • 分词/去停用词:中英文分词,移除无意义词(如“的”)。
  • 向量化:TF-IDF(统计权重)、Word2Vec/GloVe(语义向量)。
  • 场景:情感分析(TF-IDF + SVM)、机器翻译(词嵌入 + RNN)。

总结

方法典型技术适用场景
数据清洗IQR、Z-Score异常检测、传感器数据
特征缩放归一化、标准化神经网络、距离类模型(KNN、SVM)
降维PCA、t-SNE高维数据可视化、特征压缩
数据增强图像翻转、文本替换小样本图像/文本任务
缺失值处理模型填充、多重插值医疗数据、用户行为分析

根据数据特点和模型需求选择合适方法:结构化数据侧重特征工程与缩放,非结构化数据(如图像/文本)依赖增强与向量化。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词