FP16/INT8 MNN 量化

Q：模型量化有一个操作叫PTQ，还有一个操作叫什么？

除了PTQ（Post-Training Quantization）之外，另一种常见的模型量化操作是QAT（Quantization-Aware Training）。

PTQ（Post-Training Quantization）：这是在模型训练完成后，对训练好的模型进行量化的过程。它通常不需要重新训练模型，但可能会导致精度的轻微下降。
QAT（Quantization-Aware Training）：这是在模型训练过程中引入量化模拟的过程。模型在训练时就考虑到量化的影响，因此可以在量化后保持较高的精度。QAT通常能提供比PTQ更好的精度表现。

Q：我该如何在微调的时候引入QAT？

在微调模型时引入QAT（Quantization-Aware Training）通常涉及以下步骤。这里以常见的深度学习框架如PyTorch为例：

1. 准备模型

确保你已经有一个预训练的模型，这个模型将用于QAT的微调。如果你还没有模型，可以从深度学习库中加载预训练模型。

2. 修改模型以支持QAT

在进行QAT之前，需要对模型进行一些修改，使其支持量化。具体步骤包括：

将模型的部分或全部层转换为可量化的层：这通常包括卷积层和全连接层。
插入伪量化节点（Fake Quantization Nodes）：这些节点会模拟量化的效果，使模型在训练过程中感知量化的影响。

在PyTorch中，你可以使用torch.quantization模块来实现这一点：

import torch
from torch.quantization import get_default_qat_qconfig, prepare_qat, convert# 加载预训练模型
model = ...  # 你的模型# 设置QAT配置
model.qconfig = get_default_qat_qconfig('fbgemm')  # 你可以选择不同的backend，如fbgemm, qnnpack等# 准备QAT
model = prepare_qat(model)# 现在模型已经准备好进行QAT微调

3. 进行QAT微调

现在你可以像平常一样训练模型，但此时模型会感知量化的影响。

# 继续训练（微调）
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
for epoch in range(num_epochs):for inputs, labels in dataloader:optimizer.zero_grad()outputs = model(inputs)loss = loss_function(outputs, labels)loss.backward()optimizer.step()

4. 转换为量化模型

微调结束后，你可以将模型转换为实际的量化模型。

# 转换为量化模型
quantized_model = convert(model)

5. 评估量化模型

最后，你需要评估量化模型的性能，检查它的精度是否符合要求。

# 评估量化模型
evaluate(quantized_model, test_dataloader)

通过这几个步骤，你可以在微调过程中引入QAT，使模型在量化后仍然保持较高的精度。不同的深度学习框架有不同的实现方式，但核心思想都是相似的。

Q：微调结束后，如何将模型转换为实际的量化模型？

在微调结束后，将模型转换为实际的量化模型的步骤依赖于你所使用的深度学习框架。以下是以PyTorch为例的具体操作步骤：

1. 准备量化后的模型

在微调结束后，你的模型已经经过了QAT训练，接下来你需要将其转换为真正的量化模型。PyTorch提供了convert函数来完成这一任务。

from torch.quantization import convert# 将QAT模型转换为量化模型
quantized_model = convert(model.eval())  # model.eval() 将模型置于评估模式

2. 保存量化模型

量化后的模型可以通过PyTorch的torch.save函数保存到磁盘。

torch.save(quantized_model.state_dict(), 'quantized_model.pth')

3. 加载量化模型

在使用量化模型时，你可以加载保存的状态字典并将其应用于同样的模型结构。

# 定义相同的模型结构
quantized_model = ...  # 定义原始模型结构# 将模型设置为量化模式
quantized_model.qconfig = torch.quantization.default_qconfig
quantized_model = torch.quantization.prepare(quantized_model)# 加载量化的状态字典
quantized_model.load_state_dict(torch.load('quantized_model.pth'))# 最终转换为量化模型
quantized_model = convert(quantized_model)

4. 评估量化模型

在部署量化模型之前，确保在测试集或验证集上进行评估，以确认模型的精度和性能。

quantized_model.eval()
with torch.no_grad():for inputs, labels in test_dataloader:outputs = quantized_model(inputs)# 计算准确度或其他评估指标

5. 部署量化模型

量化后的模型不仅会减少内存占用，还能在某些硬件平台上显著提升推理速度，特别是使用支持INT8推理的硬件。

通过这些步骤，你就可以将经过QAT微调的模型成功转换为量化模型并进行保存、加载和部署。

Q：你的意思是经过QAT训练之后，使用convert指令之后，再使用save，最后得到的就是已经量化后的pth模型文件？这个pth可以再转换为其他格式去推理？

是的，经过QAT训练之后，通过 convert 指令将模型转换为量化模型后，使用 torch.save 保存下来的 .pth 文件就是量化后的模型。这种量化模型的 .pth 文件可以被用作推理或转换为其他格式。

1. 保存量化后的模型

你可以通过以下方式保存量化后的模型：

quantized_model = convert(model.eval())  # 转换为量化模型
torch.save(quantized_model.state_dict(), 'quantized_model.pth')  # 保存量化后的模型

2. 加载量化后的模型

加载保存的量化模型时，你需要首先定义与原模型相同的结构，然后加载状态字典：

# 定义与原始模型相同的结构
model = ...  # 定义模型结构
model.qconfig = torch.quantization.get_default_qconfig('fbgemm')
model = torch.quantization.prepare(model)
model.load_state_dict(torch.load('quantized_model.pth'))# 转换为量化模型
quantized_model = convert(model)

3. 转换为其他推理格式

量化后的 .pth 文件可以被转换为其他推理框架所支持的格式，例如ONNX、OpenVINO、TensorRT等。转换过程通常遵循以下步骤：

转换为ONNX格式:

dummy_input = torch.randn(1, 3, 224, 224)  # 根据模型的输入维度定义
torch.onnx.export(quantized_model, dummy_input, "quantized_model.onnx")

转换为OpenVINO IR格式:

使用OpenVINO Model Optimizer工具转换ONNX文件：

mo --input_model quantized_model.onnx --data_type FP16 --output_dir ./output_dir

转换为TensorRT格式:

使用TensorRT的 trtexec 工具将ONNX模型转换为TensorRT的推理引擎格式：
```
trtexec --onnx=quantized_model.onnx --saveEngine=quantized_model.trt
```

这些转换工具会自动识别并处理模型中的量化操作，因此可以直接用于推理。

4. 推理过程中的注意事项

在将量化后的模型转换为其他格式进行推理时，确保目标平台支持INT8推理，因为量化模型通常是基于8位（INT8）精度进行优化的。这可以带来更好的推理性能和更低的内存占用，尤其是在支持量化推理的硬件上。

Q：那PTQ该怎么做？

Post-Training Quantization（PTQ）是在模型训练完成后，对预训练模型进行量化，而无需重新训练模型的过程。PTQ通常包括将模型的权重和激活函数量化为较低的精度（如INT8）。在PyTorch中，PTQ的实现过程如下：

1. 准备预训练模型

首先，加载一个已经训练好的浮点精度（FP32）的模型。

import torch# 加载预训练的FP32模型
model = ...  # 定义并加载你的模型
model.load_state_dict(torch.load('model_fp32.pth'))
model.eval()  # 设置模型为评估模式

2. 定义量化配置

为模型设置量化配置，这将指定模型在量化过程中如何处理各个层。

import torch.quantization# 为模型设置默认的量化配置
model.qconfig = torch.quantization.get_default_qconfig('fbgemm')

fbgemm 是用于x86平台的量化后端，qnnpack 则常用于移动设备。你可以根据目标平台选择合适的量化后端。

3. 准备量化

在正式量化模型之前，需要对模型进行准备。这包括插入伪量化节点和其他必要的操作。

# 准备模型进行PTQ
model_prepared = torch.quantization.prepare(model)

4. 校准模型（可选）

校准是PTQ中的一个重要步骤，通过使用一部分数据集在量化前运行模型，收集激活值的统计数据。这有助于更准确地量化模型。

# 使用校准数据集进行前向传播以收集统计数据
with torch.no_grad():for inputs, labels in calibration_dataloader:model_prepared(inputs)

5. 量化模型

在完成校准后，可以将模型转换为量化模型。

# 转换为量化模型
quantized_model = torch.quantization.convert(model_prepared)

6. 保存量化模型

将量化后的模型保存为 .pth 文件，以便后续加载和推理。

torch.save(quantized_model.state_dict(), 'quantized_model.pth')

7. 加载和推理量化模型

加载量化模型后，可以直接使用它进行推理。需要注意的是，推理时应在支持INT8推理的硬件上运行，以充分利用量化的优势。

# 定义模型结构并加载量化后的权