决策树基础：定义与工作原理

2025/4/21 23:24:12 来源：https://blog.csdn.net/2401_85639015/article/details/140305852 浏览: 次关键词：决策树基础：定义与工作原理

决策树基础：定义与工作原理

1. 定义

什么是决策树？

决策树是一种监督学习算法，广泛应用于分类和回归问题。它通过一系列规则将数据分割成更小的子集，最终达到预测目标的目的。每个分割点被称为一个“节点”，最终的子集称为“叶子节点”。

决策树的组成部分：

根节点：树的起始点，包含所有数据。
内部节点：每个节点代表一个特征，并且根据特征的某个值将数据分割。
叶子节点：最终的分类结果或回归值。

2. 决策树的工作原理

构建过程

选择最佳特征：使用某种标准（如信息增益或基尼指数）选择最能区分数据的特征。
分割数据：根据选定的特征将数据分成两个或多个子集。
递归分割：对每个子集重复上述过程，直到达到停止条件（如树的深度达到限制或分割后的子集纯度高）。

停止条件

达到最大深度。
每个节点包含的样本数小于某个阈值。
分割后的子集纯度高。

代码示例

以下是一个使用Python和Scikit-Learn库实现决策树分类器的示例：

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
import matplotlib.pyplot as plt# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target# 分割数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 初始化决策树分类器
clf = DecisionTreeClassifier()# 训练模型
clf.fit(X_train, y_train)# 预测
y_pred = clf.predict(X_test)# 计算准确度
accuracy = np.mean(y_pred == y_test)
print(f'Accuracy: {accuracy:.2f}')# 可视化决策树
plt.figure(figsize=(20,10))
tree.plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()