机器学习+深度学习

文章目录

一、机器学习
- （一）机器学习概念
- （二）机器学习基本流程
- （三）机器学习应用场景
二、机器学习的常见工具与相关库
- （一）Python 机器学习库
- （二）数据处理库
- （三）可视化库
三、聚类算法思想与模型搭建过程
- （一）K - Means 聚类算法
- （二）DBSCAN 聚类算法
四、分类算法思想与模型搭建过程
- （一）逻辑回归
- （二）决策树
五、聚类与分类模型的评估方法的知识
- （一）聚类模型评估方法
- （二）分类模型评估方法
六、深度学习基本概念
- （一）深度学习定义
- （二）与传统机器学习的区别
- （三）深度学习常见模型

一、机器学习

（一）机器学习概念

定义

机器学习是人工智能的一个分支，机器学习算法构建模型，从数据中自动学习和改进，而无需进行明确的编程，通过对数据的分析来做出预测或决策。

分类：

监督学习（输入数据带标签，如分类、回归）；
无监督学习（输入数据无标签，如聚类、降维）；
强化学习（通过试错反馈优化决策，如游戏AI）。基本流程：数据收集 → 数据预处理 → 特征工程 → 模型训练 → 模型评估 → 部署优化。应用场景：推荐系统、图像识别、金融风控、自然语言处理（NLP）等。

与传统编程的对比

传统编程是基于明确的规则和逻辑来处理输入数据并产生输出，例如使用 if - else 语句来判断一个数是否为偶数。 机器学习是从数据中自动发现模式，对于同样的预测任务（如图像识别）
传统编程需要手动设计复杂的规则来识别图像中的物体，而机器学习算法可以通过学习大量的带标签图像（如猫和狗的图片）来自动识别新图像中的物体。

常见工具与库

Scikit-learn： 传统机器学习算法库（如SVM、决策树）；
TensorFlow/PyTorch： 深度学习框架（支持神经网络构建与训练）；
Pandas/NumPy： 数据处理与分析工具；
Matplotlib/Seaborn： 数据可视化工具。

（二）机器学习基本流程

数据收集

收集与问题相关的数据。 例如，在预测房价时，需要收集房屋面积、卧室数量、地理位置等数据。
数据来源可以是数据库、文件（如 CSV、Excel）、传感器等多种渠道。

数据预处理

数据清洗 ：处理缺失值、异常值和重复值。例如，对于房屋价格数据，如果某些房屋的面积数据缺失，可以采用均值、中位数或众数来填充；对于明显偏离正常范围的价格（如一个房屋价格为负数），将其视为异常值并进行纠正或删除。
特征工程 ：选择和转换数据特征。例如，将文本特征（如房屋类型）转化为数值特征（如使用独热编码），或者对数值特征进行归一化（将数据缩放到 [0, 1] 区间）或标准化（使数据具有零均值和单位方差）。
数据集划分 ：通常将数据集划分为训练集、验证集和测试集。训练集用于训练模型，验证集用于调整模型的超参数，测试集用于评估模型的最终性能。例如，可以将 70% 的数据作为训练集，15% 作为验证集，15% 作为测试集。

模型选择

根据问题类型选择合适的模型。常见的机器学习问题类型包括分类（如识别邮件是否为垃圾邮件）、回归（如预测房价）、聚类（如客户细分）等。
- 对于分类问题，可以选择逻辑回归、决策树、支持向量机等模型；
- 对于回归问题，可以选择线性回归、岭回归等；
- 对于聚类问题，可以选择 K - Means、DBSCAN 等。

模型训练

使用训练集对选定的模型进行训练。在这个过程中，模型通过优化算法（如梯度下降）来调整模型的参数，以最小化预测误差或最大化某种性能指标。例如，在训练线性回归模型时，通过调整权重和偏置，使得预测的房价与实际房价之间的误差最小。

模型评估与优化

模型评估 ：使用验证集和测试集对模型进行评估。
- 对于分类模型，可以使用准确率、召回率、F1 分数等指标；
- 对于回归模型，可以使用均方误差（MSE）、平均绝对误差（MAE）等指标。例如，对于一个垃圾邮件分类模型，准确率表示正确分类的邮件数量占总邮件数量的比例。
模型优化 ：根据评估结果调整模型的超参数（如决策树的深度、支持向量机的核函数参数等），或者尝试不同的模型结构以提高模型性能。例如，如果决策树模型在验证集上的准确率较低，可以尝试增加树的深度或者剪枝来优化模型。

（三）机器学习应用场景

图像识别

在安防领域，用于人脸识别（如门禁系统）、车牌识别等。通过机器学习算法学习大量的图像数据，可以准确地识别图像中的物体或人物。例如，使用卷积神经网络（CNN）来识别监控视频中的人脸，判断是否为授权人员。

自然语言处理

在智能客服系统中，用于语义理解、情感分析等。机器学习算法（如循环神经网络，RNN）可以分析用户输入的文本，理解其意图并生成相应的回答。例如，分析用户对产品评价的情感倾向（正面、负面或中性）。

推荐系统

电商平台利用机器学习算法根据用户的浏览历史、购买行为等数据，为用户推荐可能感兴趣的商品。协同过滤算法（如基于用户的协同过滤、基于物品的协同过滤）通过分析用户与物品之间的交互数据来挖掘用户的兴趣偏好。

二、机器学习的常见工具与相关库

（一）Python 机器学习库

scikit - learn

特点：是一个功能广泛的机器学习库，提供了简单高效的工具用于数据挖掘和数据分析。它涵盖了多种机器学习算法，包括分类（如支持向量机、随机森林）、回归（如岭回归、Lasso 回归）、聚类（如 K - Means、层次聚类）等。
应用场景 ：适用于中小型数据集的机器学习任务，如客户细分（聚类）、信用评分预测（分类）等。
代码示例（分类 - 逻辑回归）

     from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score# 加载数据iris = load_iris()X = iris.datay = iris.target# 划分数据集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建并训练模型model = LogisticRegression()model.fit(X_train, y_train)# 预测和评估y_pred = model.predict