机器学习_特征工程

一、核心知识点：特征工程的核心概念与流程

1. 特征工程的定义与重要性

定义：通过数据预处理、特征构造、特征选择等方法，将原始数据转化为更适合机器学习模型输入的特征，提升模型性能。
重要性：
- “数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限”（经典论断）。
- 特征工程直接影响模型的泛化能力、计算效率和可解释性。

2. 特征工程的核心目标

目标	解释
维度无关性	消除特征量纲差异（如归一化）。
分布标准化	调整数据分布形态（如标准化）。
信息增益最大化	通过特征选择提取有效信息，去除冗余或噪声特征。
表征能力强化	通过特征衍生（如多项式特征、交互特征）提升模型表达能力。

3. 特征工程的常规步骤

数据理解：探索数据分布、类型、缺失值、异常值等。
数据预处理：清洗数据（缺失值填充、异常值处理）、标准化/归一化。
特征构造：通过业务逻辑或数学方法生成新特征（如多项式特征、时间特征）。
特征选择：筛选关键特征，减少维度和过拟合风险。
特征转换：编码分类变量、离散化连续变量、降维等。
迭代优化：根据模型反馈调整特征工程策略。

二、核心知识点详解

1. 数据预处理

归一化（Normalization）：
- 公式：X' = (X - X_min)/(X_max - X_min) → 将数据缩放到[0,1]区间。
- 适用场景：图像处理、距离敏感模型（KNN、SVM）、神经网络输入。
标准化（Standardization）：
- 公式：X' = (X - μ)/σ（μ为均值，σ为标准差） → 使数据符合标准正态分布。
- 适用场景：高斯分布数据、梯度下降加速（如线性回归、SVM）。
二值化（Binarization）：
- 原理：设定阈值，将数值型特征转换为0/1二进制。
- 示例：将“年龄>30岁”设为1，否则为0。
缺失值处理：
- 方法：删除、均值/中位数填充、插值法（如KNN填充）。

2. 特征构造（Feature Engineering）

特征衍生：
- 数学变换：对数变换（log(X)）、平方/立方（X²）。
- 交互特征：组合特征（如X1 * X2、X1/X2）。
- 业务逻辑：根据领域知识构造新特征（如“用户年龄/注册天数”表示活跃度）。
类别特征编码：
- One-Hot编码：将分类特征转换为二进制向量（如颜色：红→[1,0,0]，绿→[0,1,0]）。
- Label Encoding：将类别映射为连续整数（需谨慎，可能引入虚假顺序）。
- Target Encoding：用类别对应的标签均值替换（需防止过拟合）。

3. 特征选择（Feature Selection）

方法分类：
- 过滤法（Filter）：基于统计指标筛选特征（如卡方检验、互信息、方差分析）。
- 包装法（Wrapper）：通过模型迭代选择特征（如递归特征消除RFE）。
- 嵌入法（Embedded）：利用模型内置特征重要性（如Lasso的L1正则化、树模型的特征得分）。
常见工具：
- scikit-learn：SelectKBest、RFE、SelectFromModel。
- XGBoost/LightGBM：通过feature_importance_属性获取重要性。

4. 特征转换

离散化（Discretization）：
- 等宽分箱：将连续值分为固定区间（如年龄分0-20、20-40、40+）。
- 等频分箱：每个区间包含相同数量样本。
降维：
- 线性方法：PCA（主成分分析）。
- 非线性方法：t-SNE、UMAP（主要用于可视化）。

三、案例：鸢尾花分类任务的特征工程

1. 问题背景

任务：使用鸢尾花数据集（Iris）训练分类模型，预测鸢尾花的种类（Setosa、Versicolor、Virginica）。
数据特征：4个连续特征（萼片长度、萼片宽度、花瓣长度、花瓣宽度）。

2. 实施步骤

步骤1：数据理解

数据探索：

import pandas as pd
from sklearn.datasets import load_iris
import seaborn as snsiris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 查看统计信息
print(df.describe())
# 可视化特征分布
sns.pairplot(df, hue='target')

发现：花瓣长度与花瓣宽度对分类至关重要，但萼片宽度可能冗余。

步骤2：数据预处理

标准化：

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
scaled_features = scaler.fit_transform(df.drop('target', axis=1))
df_scaled = pd.DataFrame(scaled_features, columns=iris.feature_names)

步骤3：特征构造

构造交互特征：

df_scaled['petal_area'] = df_scaled['petal length (cm)'] * df_scaled['petal width (cm)']

步骤4：特征选择

基于特征重要性筛选：

from sklearn.ensemble import RandomForestClassifierX = df_scaled.drop('target', axis=1)
y = df['target']model = RandomForestClassifier()
model.fit(X, y)
print("特征重要性:", model.feature_importances_)# 选择重要性前2的特征
selected_features = X.columns[model.feature_importances_.argsort()[-2:]]

步骤5：模型训练与评估

训练模型：

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_scoreX_selected = X[selected_features]
X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.2)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("准确率:", accuracy_score(y_test, y_pred))

步骤6：迭代优化

尝试其他特征组合：如添加萼片与花瓣的比例特征（sepal_length/petal_length）。
调整预处理方法：尝试归一化代替标准化，观察模型表现变化。

四、特征工程的实施步骤总结

1. 分阶段实施流程

数据理解阶段：
- 使用EDA（探索性数据分析）工具（如Pandas、Seaborn）。
- 分析数据分布、缺失值、异常值。
数据预处理阶段：
- 处理缺失值、异常值。
- 标准化/归一化连续特征。
- 编码分类特征（如One-Hot）。
特征构造阶段：
- 根据业务逻辑生成新特征（如交互项、衍生指标）。
- 使用数学变换（如对数、多项式）。
特征选择阶段：
- 使用过滤法（如方差分析）、包装法（如RFE）或嵌入法（如Lasso）。
特征转换阶段：
- 离散化、降维（如PCA）。
模型验证与迭代：
- 通过交叉验证评估模型性能。
- 根据结果调整特征工程策略。

2. 注意事项

业务结合：特征构造需基于领域知识（如金融中的风险指标）。
防止过拟合：避免构造过多复杂特征。
可解释性：复杂特征可能降低模型解释性。

五、学习资源推荐

书籍：
- 《Feature Engineering for Machine Learning》（Alice Zheng & Amanda Casari）
- 《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》（Aurélien Géron）
工具与库：
- Scikit-learn：标准化、特征选择、降维。
- Feature-Tools：自动化特征工程（基于实体关系）。
- Pandas：数据清洗与基础特征构造。
实战案例：
- Kaggle竞赛（如泰坦尼克号生存预测、房价预测）。
- 参考知识库中的“柠檬汁摊主”案例。