算法面试准备 - 手撕系列第七期 - MLP(利用FashionMNIST数据集)

算法面试准备 - 手撕系列第七期 - MLP(利用FashionMNIST数据集)
FashionMINIST 图像分类原理解析
- 1. 全连接的原理图
- 2. 背景介绍
- 3.引入相关库函数
- 4. 数据预处理
- 5. 模型设计
- 6. 初始化网络，损失函数与优化器
- 7. 训练与测试
- - 7.1 训练过程
  - 7.2 测试过程
- 8. 结论
参考

FashionMINIST 图像分类原理解析

本文将详细解析基于 PyTorch 实现的 FashionMNIST 图像分类的原理及代码结构，适用于初学者理解深度学习图像分类任务的完整流程。

1. 全连接的原理图

在这里插入图片描述

全连接的原理图

2. 背景介绍

FashionMNIST 数据集是一个用于替代经典 MNIST 数据集的基准数据集。它包含 10 类不同的服装图像，每张图像大小为 28x28 像素，灰度图像。

类别编号	类别名称
0	T 恤/上衣
1	裤子
2	套衫
3	连衣裙
4	外套
5	凉鞋
6	衬衫
7	运动鞋
8	包
9	短靴

3.引入相关库函数

# 该模块主要是为了实现FashionMinist图像分类。图像的大小为(28,28),类别为同样为10类
'''
# Part1引入相关的库函数
'''
import torch
from torch import nn
from torch.utils import dataimport torchvision
from torchvision import transforms

4. 数据预处理

图像分类任务的第一步是数据加载和预处理。在代码中，通过 torchvision.datasets.FashionMNIST 加载数据集，并对图像进行以下处理：

转换为张量：使用 transforms.ToTensor() 将图像转换为 PyTorch 张量格式，并将像素值归一化到 [0, 1]。
数据分割：划分为训练集和测试集，使用 DataLoader 封装成可迭代的数据加载器。

'''
# Part2 数据集的加载,和dataloader的初始化
'''transforms_action = [transforms.ToTensor()]
transforms_action = transforms.Compose(transforms_action)Minist_train = torchvision.datasets.FashionMNIST(root='Minist', train=True, transform=transforms_action, download=True)
Minist_test = torchvision.datasets.FashionMNIST(root='Minist', train=False, transform=transforms_action, download=True)train_dataloader = data.DataLoader(dataset=Minist_train, batch_size=15, shuffle=True)
test_dataloader = data.DataLoader(dataset=Minist_test, batch_size=15, shuffle=True)

5. 模型设计

本例中使用的是多层感知机（MLP）模型，它由以下组件构成：

输入层：将输入的 28x28 图像展开为一维向量（大小为 784）。
隐藏层：一层全连接层，输出大小为 128，激活函数使用 ReLU。
输出层：全连接层输出大小为 10，对应 10 个类别。

class MLP(nn.Module):def __init__(self, image_size, num_kind,latent=128):super(MLP, self).__init__()self.Linear1 = nn.Linear(image_size, latent, bias=False)self.relu1 = nn.ReLU()# 因为最后一层常用于一些其他操作，进行信息传递，一般就不添加非线性的激活函数了，一般都是不需要的。self.Linear2 = nn.Linear(latent, num_kind, bias=False)# 计算CrossEntropyLoss时候会自动计算softmax所以不需要。# self.softmax = nn.Softmax(dim=-1)def forward(self, x):  # (batch,1,28,28)x = x.reshape(x.size()[0], -1)x = self.Linear1(x)x = self.relu1(x)x = self.Linear2(x)# x = self.softmax(x)return x  # (batch,10)

6. 初始化网络，损失函数与优化器

分类任务中使用交叉熵损失（CrossEntropyLoss），其原理是衡量预测类别分布与真实类别分布之间的差异。

优化器选择随机梯度下降（SGD），其更新公式为：
$\theta_{t+1} = \theta_t - \eta \nabla L(\theta_t)$
其中：

$\theta_t$ 为当前参数
$\eta$ 为学习率
$\nabla L(\theta_t)$ 为损失函数的梯度

# 初始化网络
net = MLP(784, 10)
# 初始化loss
loss = nn.CrossEntropyLoss()
# 初始化优化器
optimizer = torch.optim.SGD(params=net.parameters(), lr=1e-3)

7. 训练与测试

7.1 训练过程

遍历每个批次的数据：
- 将图像输入模型，计算预测结果。
- 计算损失函数，反向传播计算梯度。
- 使用优化器更新模型参数。
- 清零梯度以避免累积。
每轮训练结束后保存模型状态。

'''
# Part4 循环训练计算损失
'''epochs = 10for epoch in range(epochs):for images, labels in train_dataloader:# 首先前向传播result = net(images)# 计算损失L = loss(result, labels)# 反向传播L.backward()# 参数更新optimizer.step()# 清除梯度optimizer.zero_grad()# 存储模型torch.save(net, 'checkpoint/module_epoch_{}.pth'.format(epoch))

7.2 测试过程

模型设置为评估模式，禁用梯度计算（torch.no_grad()）。
遍历测试集，计算平均测试损失。

# 每个epoch在测试集跑一遍进行计算平均损失total_loss = 0total_batches = 0with torch.no_grad():for images_test, labels_test in Minist_test:# 形状是Batchsize*hanglabels_hat = net(images_test)L_test = loss(labels_hat, labels_test)total_loss += L_test.item()total_batches += 1# 计算平均测试损失并记录avg_test_loss = total_loss / total_batchesprint(f'第 {epoch + 1} 轮训练完成，平均测试损失为：{avg_test_loss}')