欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 文化 > 机器学习+深度学习

机器学习+深度学习

2025/4/25 1:37:56 来源:https://blog.csdn.net/2301_81499791/article/details/147356622  浏览:    关键词:机器学习+深度学习

文章目录

  • 一、机器学习
    • (一)机器学习概念
    • (二)机器学习基本流程
    • (三)机器学习应用场景
  • 二、机器学习的常见工具与相关库
    • (一)Python 机器学习库
    • (二)数据处理库
    • (三)可视化库
  • 三、聚类算法思想与模型搭建过程
    • (一)K - Means 聚类算法
    • (二)DBSCAN 聚类算法
  • 四、分类算法思想与模型搭建过程
    • (一)逻辑回归
    • (二)决策树
  • 五、聚类与分类模型的评估方法的知识
    • (一)聚类模型评估方法
    • (二)分类模型评估方法
  • 六、深度学习基本概念
    • (一)深度学习定义
    • (二)与传统机器学习的区别
    • (三)深度学习常见模型

一、机器学习

(一)机器学习概念

  1. 定义
  • 机器学习是人工智能的一个分支,机器学习算法构建模型,从数据中自动学习和改进,而无需进行明确的编程,通过对数据的分析来做出预测或决策。
  1. 分类:
  • 监督学习(输入数据带标签,如分类、回归);
  • 无监督学习(输入数据无标签,如聚类、降维);
  • 强化学习(通过试错反馈优化决策,如游戏AI)。基本流程:数据收集 → 数据预处理 → 特征工程 → 模型训练 → 模型评估 → 部署优化。应用场景:推荐系统、图像识别、金融风控、自然语言处理(NLP)等。
  1. 与传统编程的对比
  • 传统编程是基于明确的规则和逻辑来处理输入数据并产生输出,例如使用 if - else 语句来判断一个数是否为偶数。 机器学习是从数据中自动发现模式,对于同样的预测任务(如图像识别)
  • 传统编程需要手动设计复杂的规则来识别图像中的物体,而机器学习算法可以通过学习大量的带标签图像(如猫和狗的图片)来自动识别新图像中的物体。
  1. 常见工具与库
  • Scikit-learn: 传统机器学习算法库(如SVM、决策树);
  • TensorFlow/PyTorch: 深度学习框架(支持神经网络构建与训练);
  • Pandas/NumPy: 数据处理与分析工具;
  • Matplotlib/Seaborn: 数据可视化工具。

(二)机器学习基本流程

  1. 数据收集
  • 收集与问题相关的数据。 例如,在预测房价时,需要收集房屋面积、卧室数量、地理位置等数据。
  • 数据来源可以是数据库、文件(如 CSV、Excel)、传感器等多种渠道。
  1. 数据预处理
  • 数据清洗 :处理缺失值、异常值和重复值。例如,对于房屋价格数据,如果某些房屋的面积数据缺失,可以采用均值、中位数或众数来填充;对于明显偏离正常范围的价格(如一个房屋价格为负数),将其视为异常值并进行纠正或删除。
  • 特征工程 :选择和转换数据特征。例如,将文本特征(如房屋类型)转化为数值特征(如使用独热编码),或者对数值特征进行归一化(将数据缩放到 [0, 1] 区间)或标准化(使数据具有零均值和单位方差)。
  • 数据集划分 :通常将数据集划分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调整模型的超参数,测试集用于评估模型的最终性能。例如,可以将 70% 的数据作为训练集,15% 作为验证集,15% 作为测试集。
  1. 模型选择
  • 根据问题类型选择合适的模型。常见的机器学习问题类型包括分类(如识别邮件是否为垃圾邮件)、回归(如预测房价)、聚类(如客户细分)等。
    • 对于分类问题,可以选择逻辑回归、决策树、支持向量机等模型;
    • 对于回归问题,可以选择线性回归、岭回归等;
    • 对于聚类问题,可以选择 K - Means、DBSCAN 等。
  1. 模型训练
  • 使用训练集对选定的模型进行训练。在这个过程中,模型通过优化算法(如梯度下降)来调整模型的参数,以最小化预测误差或最大化某种性能指标。例如,在训练线性回归模型时,通过调整权重和偏置,使得预测的房价与实际房价之间的误差最小。
  1. 模型评估与优化
  • 模型评估 :使用验证集和测试集对模型进行评估。
    • 对于分类模型,可以使用准确率、召回率、F1 分数等指标;
    • 对于回归模型,可以使用均方误差(MSE)、平均绝对误差(MAE)等指标。例如,对于一个垃圾邮件分类模型,准确率表示正确分类的邮件数量占总邮件数量的比例。
  • 模型优化 :根据评估结果调整模型的超参数(如决策树的深度、支持向量机的核函数参数等),或者尝试不同的模型结构以提高模型性能。例如,如果决策树模型在验证集上的准确率较低,可以尝试增加树的深度或者剪枝来优化模型。

(三)机器学习应用场景

  1. 图像识别
  • 在安防领域,用于人脸识别(如门禁系统)、车牌识别等。通过机器学习算法学习大量的图像数据,可以准确地识别图像中的物体或人物。例如,使用卷积神经网络(CNN)来识别监控视频中的人脸,判断是否为授权人员。
  1. 自然语言处理
  • 在智能客服系统中,用于语义理解、情感分析等。机器学习算法(如循环神经网络,RNN)可以分析用户输入的文本,理解其意图并生成相应的回答。例如,分析用户对产品评价的情感倾向(正面、负面或中性)。
  1. 推荐系统
  • 电商平台利用机器学习算法根据用户的浏览历史、购买行为等数据,为用户推荐可能感兴趣的商品。协同过滤算法(如基于用户的协同过滤、基于物品的协同过滤)通过分析用户与物品之间的交互数据来挖掘用户的兴趣偏好。

二、机器学习的常见工具与相关库

(一)Python 机器学习库

  1. scikit - learn
  • 特点 :是一个功能广泛的机器学习库,提供了简单高效的工具用于数据挖掘和数据分析。它涵盖了多种机器学习算法,包括分类(如支持向量机、随机森林)、回归(如岭回归、Lasso 回归)、聚类(如 K - Means、层次聚类)等。

  • 应用场景 :适用于中小型数据集的机器学习任务,如客户细分(聚类)、信用评分预测(分类)等。

  • 代码示例(分类 - 逻辑回归)

     from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score# 加载数据iris = load_iris()X = iris.datay = iris.target# 划分数据集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建并训练模型model = LogisticRegression()model.fit(X_train, y_train)# 预测和评估y_pred = model.predict

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词