欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 维修 > 深度神经网络模型压缩学习笔记一:模型压缩概述

深度神经网络模型压缩学习笔记一:模型压缩概述

2025/2/24 16:41:06 来源:https://blog.csdn.net/weixin_43679037/article/details/144060349  浏览:    关键词:深度神经网络模型压缩学习笔记一:模型压缩概述

文章目录

    • 一、模型压缩主要常用方法
      • 1)量化
        • (1)scale和Qint8的计算、对称性和非对称性量化
        • (2)静态量化和动态量化
        • (3)量化粒度选择和PTQ\QAT分类
        • (4)模型量化技术为什么会带来加速?
      • 2)稀疏(也叫做模型剪枝技术)
        • (1) 定义
        • (2)结构化稀疏和非结构化稀疏
      • 3)蒸馏
      • 4)NAS
      • 5)低秩分解
      • (6)总结

一、模型压缩主要常用方法

1)量化

(1)scale和Qint8的计算、对称性和非对称性量化

在这里插入图片描述

  • 对称性量化
    在这里插入图片描述

  • 非对称量化
    在这里插入图片描述

  • 线性和非线性量化比较
    在这里插入图片描述

(2)静态量化和动态量化

在这里插入图片描述

(3)量化粒度选择和PTQ\QAT分类

①权重weight是固定的,一般采用per-channel
②激活输入时在线变化的,一般采用Per-Tensor量化
③per-group量化往往在大模型中的4bit权重量化中应用

  • 量化方法可以分为两大类:
    ①后训练量化(离线量化):PTQ
    ②量化感知训练(在线量化):QAT
    在这里插入图片描述
    PTQ量化举例:TensorRT 选用不同calibration做int8量化
    在这里插入图片描述
(4)模型量化技术为什么会带来加速?

在这里插入图片描述

2)稀疏(也叫做模型剪枝技术)

(1) 定义

在这里插入图片描述
在这里插入图片描述

(2)结构化稀疏和非结构化稀疏

在这里插入图片描述

  • 额外的需求
    在这里插入图片描述

3)蒸馏

在这里插入图片描述

4)NAS

在这里插入图片描述

5)低秩分解

在这里插入图片描述

(6)总结

在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词