欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 焦点 > 用 Python 从零开始创建神经网络(二十一):保存和加载模型及其参数

用 Python 从零开始创建神经网络(二十一):保存和加载模型及其参数

2025/1/14 8:40:22 来源:https://blog.csdn.net/xzs1210652636/article/details/145121186  浏览:    关键词:用 Python 从零开始创建神经网络(二十一):保存和加载模型及其参数

保存和加载模型及其参数

  • 引言
  • 获取参数
  • 设置参数
  • 保存参数
  • 加载参数
  • 保存模型
  • 加载模型

引言

获取参数

在某些情况下,我们可能需要仔细检查模型的参数,以查看是否存在失效或爆炸的神经元。为了获取这些参数,我们将遍历可训练的层,提取它们的参数并放入一个列表中。这里唯一的可训练层类型是Dense层。让我们为Layer_Dense类添加一个方法来获取参数:

# Dense layer
class Layer_Dense:...# Retrieve layer parametersdef get_parameters(self):return self.weights, self.biases

Model类中,我们将添加一个get_parameters方法,该方法将遍历模型的可训练层,运行它们的get_parameters方法,并将返回的权重和偏置添加到一个列表中:

# Model class
class Model:...# Retrieves and returns parameters of trainable layersdef get_parameters(self):# Create a list for parametersparameters = []# Iterable trainable layers and get their parametersfor layer in self.trainable_layers:parameters.append(layer.get_parameters())# Return a listreturn parameters

现在,在训练模型后,我们可以通过运行来获取参数:

parameters = model.get_parameters()

举个例子:

# Create dataset
X, y, X_test, y_test = create_data_mnist('fashion_mnist_images')# Shuffle the training dataset
keys = np.array(range(X.shape[0]))
np.random.shuffle(keys)
X = X[keys]
y = y[keys]# Scale and reshape samples
X = (X.reshape(X.shape[0], -1).astype(np.float32) - 127.5) / 127.5
X_test = (X_test.reshape(X_test.shape[0], -1).astype(np.float32) - 127.5) / 127.5# Instantiate the model
model = Model()# Add layers
model.add(Layer_Dense(X.shape[1], 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 10))
model.add(Activation_Softmax())# Set loss, optimizer and accuracy objects
model.set(loss=Loss_CategoricalCrossentropy(),optimizer=Optimizer_Adam(decay=1e-3),accuracy=Accuracy_Categorical())# Finalize the model
model.finalize()# Train the model
model.train(X, y, validation_data=(X_test, y_test), epochs=10, batch_size=128, print_every=100)# Retrieve and print parameters
parameters = model.get_parameters()
print(parameters)

它看起来会像这样(为了节省空间,我们对输出进行了截取):

>>>
...-0.18927288,  0.0336437 ],...,[ 0.02769264,  0.14146185, -0.13853191, ..., -0.13160856,-0.13367364,  0.22421911],[-0.2422033 , -0.36273137, -0.03640889, ..., -0.07910284,-0.10948356, -0.0334659 ],[-0.10650896, -0.01283493,  0.05585624, ...,  0.13493767,-0.12748371,  0.06437428]], dtype=float32), array([[-2.03783307e-02, -5.95034193e-03,  1.01475455e-02,3.62973587e-05, -1.01141036e-02, -1.75972488e-02,1.61381923e-02, -6.46391883e-03,  4.84018400e-02,9.68032982e-03]], dtype=float32))]

设置参数

如果我们有一个获取参数的方法,我们可能也会希望有一个设置参数的方法。我们将以类似于设置get_parameters方法的方式来实现,从Layer_Dense类开始:

# Dense layer
class Layer_Dense:...# Set weights and biases in a layer instancedef set_parameters(self, weights, biases):self.weights = weightsself.biases = biases

然后我们就可以更新模型类了:

# Model class
class Model:...# Updates the model with new parametersdef set_parameters(self, parameters):# Iterate over the parameters and layers# and update each layers with each set of the parametersfor parameter_set, layer in zip(parameters, self.trainable_layers):layer.set_parameters(*parameter_set)

我们在这里也遍历了可训练的层,但接下来的操作需要稍作解释。首先,zip()函数接收可迭代对象(如列表),并返回一个新的迭代器,其中包含所有传入参数的成对组合。换句话说(以我们的示例为例),zip()将一个参数列表和一个层列表组合在一起,返回一个迭代器,包含这两个列表的第0个元素的元组,然后是第1个元素的元组,再到第2个元素的元组,以此类推。通过这种方式,我们可以同时遍历参数和它们所属的层。

由于我们的参数是包含权重和偏置的元组,我们会使用一个解包表达式将它们分开,以便Layer_Dense方法可以将它们作为单独的参数接收。这种方法为我们提供了灵活性,使我们可以使用具有不同参数组数量的层。

目前的一个区别是,这允许我们拥有一个从未需要优化器的模型。如果我们不训练模型,而是将已训练的参数加载到模型中,那么我们不会优化任何内容。为了解决这一点,我们需要访问Model类的finalize方法,并进行以下更改:

# Model class
class Model:...# Finalize the modeldef finalize(self):...# Update loss object with trainable layersself.loss.remember_trainable_layers(self.trainable_layers)

改为(我们添加了一个if语句,只有在损失对象存在时,才将可训练层的列表设置为损失函数):

# Model class
class Model:...# Finalize the modeldef finalize(self):...# Update loss object with trainable layers# self.loss.remember_trainable_layers(self.trainable_layers)if self.loss is not None:self.loss.remember_trainable_layers(self.trainable_layers)

接下来,我们将修改Model类的set方法,使其允许仅传入指定的参数。我们将为参数分配默认值,并添加if语句,以便仅在参数存在时使用它们。为此,我们将进行以下更改:

# Model class
class Model:...# Set loss, optimizer and accuracydef set(self, *, loss, optimizer, accuracy):self.loss = lossself.optimizer = optimizerself.accuracy = accuracy

改为:

# Model class
class Model:...# Set loss, optimizer and accuracydef set(self, *, loss=None, optimizer=None, accuracy=None):if loss is not None:self.loss = lossif optimizer is not None:self.optimizer = optimizerif accuracy is not None:self.accuracy = accuracy

现在我们可以训练一个模型,获取其参数,创建一个新模型,并将从之前训练的模型中检索到的参数设置到新模型中:

>>>
(model training output removed)
validation, acc: 0.874, loss: 0.354
validation, acc: 0.874, loss: 0.354

保存参数

现在我们将进一步扩展,实际将参数保存到文件中。为此,我们将在Model类中添加一个save_parameters方法。我们将使用Python内置的pickle模块来序列化任何Python对象。序列化是将对象(可以是任何抽象形式)转换为二进制表示形式的过程,即一组可以保存到文件中的字节。这种序列化形式包含了以后重新创建对象所需的所有信息。pickle可以返回序列化对象的字节,也可以直接将其保存到文件中。我们将利用后者的功能,因此先导入pickle模块:

import pickle

然后,我们将在Model类中添加一个新方法。在使用pickle将参数保存到文件之前,我们需要通过以二进制写模式打开文件来创建文件句柄。然后将这个句柄和数据一起传递给pickle.dump()。为了创建文件,我们需要一个文件名来保存数据,我们会将其作为一个参数传入:

# Model class
class Model:...# Saves the parameters to a filedef save_parameters(self, path):# Open a file in the binary-write mode# and save parameters to itwith open(path, 'wb') as f:pickle.dump(self.get_parameters(), f)

使用这种方法,您可以通过运行来保存训练模型的参数:

model.save_parameters('fashion_mnist.parms')

加载参数

如果我们将模型参数保存到文件中,显然我们也希望有一种方法可以从该文件中加载它们。加载参数与保存参数非常相似,只是过程相反。我们会以二进制读取模式打开文件,并使用pickle从中读取数据,将参数反序列化回一个列表。然后调用之前创建的set_parameters方法,并将加载的参数传入:

# Model class
class Model:...# Loads the weights and updates a model instance with themdef load_parameters(self, path):# Open file in the binary-read mode,# load weights and update trainable layerswith open(path, 'rb') as f:self.set_parameters(pickle.load(f))

我们设置一个模型,加载参数文件(我们没有训练这个模型),然后测试模型以检查其是否正常工作:

我们需要使用model.save_parameters('fashion_mnist.parms')保存训练之后的参数再进行加载model.load_parameters('fashion_mnist.parms')

# Create dataset
X, y, X_test, y_test = create_data_mnist('fashion_mnist_images')# Shuffle the training dataset
keys = np.array(range(X.shape[0]))
np.random.shuffle(keys)
X = X[keys]
y = y[keys]# Scale and reshape samples
X = (X.reshape(X.shape[0], -1).astype(np.float32) - 127.5) / 127.5
X_test = (X_test.reshape(X_test.shape[0], -1).astype(np.float32) - 127.5) / 127.5# Instantiate the model
model = Model()# Add layers
model.add(Layer_Dense(X.shape[1], 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 10))
model.add(Activation_Softmax())# Set loss and accuracy objects
# We do not set optimizer object this time - there's no need to do it
# as we won't train the model
model.set(loss=Loss_CategoricalCrossentropy(),# optimizer=Optimizer_Adam(decay=1e-4),accuracy=Accuracy_Categorical())# Finalize the model
model.finalize()# # Train the model
# model.train(X, y, validation_data=(X_test, y_test), epochs=10, batch_size=128, print_every=100)# # Save the model
# model.save_parameters('fashion_mnist.parms')# Set model with parameters instead of training it
model.load_parameters('fashion_mnist.parms')# Evaluate the model
model.evaluate(X_test, y_test)
>>>
validation, acc: 0.884, loss: 0.352

虽然我们可以保存和加载模型参数值,但仍然需要定义模型。它必须与我们导入参数的模型配置完全相同。如果我们能够直接保存模型本身,会更方便。


保存模型

为什么一开始我们没有直接保存整个模型呢?保存权重和保存整个模型有不同的使用场景,各有优劣。通过保存的权重,你可以,例如,用这些权重初始化一个模型,这些权重是从类似数据训练得来的,然后训练这个模型以适应你的特定数据。这被称为迁移学习(transfer learning),本书不涉及这一内容。权重还可以用于可视化模型(例如,本书从第6章开始创建的一些动画)、识别失效的神经元、实现更复杂的模型(例如强化学习,将多个模型的权重合并到一个网络中)等。此外,仅包含权重的文件比整个模型小得多。从权重初始化的模型加载速度更快,占用内存更少,因为不会创建优化器和相关部分。

仅加载权重和偏置的一个缺点是,初始化的模型不包含优化器的状态。如果需要进一步训练模型,可以继续训练,但如果计划继续训练,加载完整模型更为理想。保存完整模型时,所有与模型相关的内容都会被保存,包括优化器的状态(这使我们能够轻松继续训练)以及模型的结构。

我们将在Model类中创建另一个方法,用于保存整个模型。首先,我们将复制一份模型,因为我们会在保存之前对其进行编辑,同时我们可能希望在训练过程中保存模型作为检查点。

我们导入copy模块来支持这一点:

import copy
# Model class
class Model:...# Saves the modeldef save(self, path):# Make a deep copy of current model instancemodel = copy.deepcopy(self)

copy模块提供了两种方法用于复制模型——copydeepcopy。虽然copy速度更快,但它只复制对象属性的第一层,这会导致复制的模型对象与原始模型共享某些引用。例如,我们的模型对象有一个包含层的列表——该列表是顶层属性,而层本身是次级属性——因此,对层对象的引用将被原始模型对象和复制的模型对象共享。由于copy方法的这些局限性,我们将使用deepcopy方法,它会递归地遍历所有对象并创建完整的副本。

接下来,我们将移除累积的损失和准确率。

# Model class
class Model:...# Saves the modeldef save(self, path):# Make a deep copy of current model instancemodel = copy.deepcopy(self)# Reset accumulated values in loss and accuracy objectsmodel.loss.new_pass()model.accuracy.new_pass()

然后删除输入层中的任何数据,并重置梯度(如果有的话):

# Model class
class Model:...# Saves the modeldef save(self, path):# Make a deep copy of current model instancemodel = copy.deepcopy(self)# Reset accumulated values in loss and accuracy objectsmodel.loss.new_pass()model.accuracy.new_pass()# Remove data from input layer# and gradients from the loss objectmodel.input_layer.__dict__.pop('output', None)model.loss.__dict__.pop('dinputs', None)

model.input_layermodel.loss都是类实例。它们是Model对象的属性,同时也是独立的对象。所有类都具有一个名为__dict__的双下划线属性(被称为“dunder”属性,因为它有双下划线)。它包含了类对象属性的名称和值。

我们可以在这些值上使用内置的pop方法,这意味着可以将它们从类对象的实例中移除。pop方法如果遇到我们传入的键(作为第一个参数)不存在的情况,会抛出一个错误,因为pop方法希望返回被移除键的值。为了防止这些错误,我们使用pop方法的第二个参数——这是键不存在时我们希望返回的默认值。我们将这个参数设置为None,因为我们不打算捕获被移除的值,并且默认值是什么实际上并不重要。

通过这种方式,我们不需要检查某个属性是否存在(比如当我们想用del语句删除它时,某些属性可能不存在)。

接下来,我们将遍历所有图层,删除它们的属性:

        # For each layer remove inputs, output and dinputs propertiesfor layer in model.layers:for property in ['inputs', 'output', 'dinputs', 'dweights', 'dbiases']:layer.__dict__.pop(property, None)

在清理这些内容后,我们可以保存模型对象。为此,我们需要以二进制写模式打开一个文件,并使用pickle.dump()方法,将模型对象和文件句柄作为参数传入:

        # Open a file in the binary-write mode and save the modelwith open(path, 'wb') as f:pickle.dump(model, f)

这就是完整的save方法:

# Model class
class Model:...# Saves the modeldef save(self, path):# Make a deep copy of current model instancemodel = copy.deepcopy(self)# Reset accumulated values in loss and accuracy objectsmodel.loss.new_pass()model.accuracy.new_pass()# Remove data from input layer# and gradients from the loss objectmodel.input_layer.__dict__.pop('output', None)model.loss.__dict__.pop('dinputs', None)# For each layer remove inputs, output and dinputs propertiesfor layer in model.layers:for property in ['inputs', 'output', 'dinputs', 'dweights', 'dbiases']:layer.__dict__.pop(property, None)# Open a file in the binary-write mode and save the modelwith open(path, 'wb') as f:pickle.dump(model, f)

这意味着我们可以训练一个模型,然后随时保存它:

model.save('fashion_mnist.model')

加载模型

加载模型最好在模型对象尚未存在之前进行。我们的意思是,可以通过调用Model类的方法来加载模型,而不是通过对象调用:

model = Model.load('fashion_mnist.model')

为实现这一点,我们将使用@staticmethod装饰器。这个装饰器可以与类方法一起使用,以便在未初始化的对象上运行这些方法,此时self并不存在(注意它在函数定义中缺失)。在我们的例子中,我们将使用它直接创建一个模型对象,而无需先实例化模型对象。

在此方法中,我们将使用传入的路径以二进制读取模式打开一个文件,并使用pickle来反序列化保存的模型:

# Model class
class Model:...# Loads and returns a model@staticmethoddef load(path):# Open file in the binary-read mode, load a modelwith open(path, 'rb') as f:model = pickle.load(f)# Return a modelreturn model

由于我们已经有一个保存的模型,现在让我们创建数据,然后加载模型以查看它是否正常工作:

# Create dataset
X, y, X_test, y_test = create_data_mnist('fashion_mnist_images')# Shuffle the training dataset
keys = np.array(range(X.shape[0]))
np.random.shuffle(keys)
X = X[keys]
y = y[keys]# Scale and reshape samples
X = (X.reshape(X.shape[0], -1).astype(np.float32) - 127.5) / 127.5
X_test = (X_test.reshape(X_test.shape[0], -1).astype(np.float32) - 127.5) / 127.5# Load the model
model = Model.load('fashion_mnist.model')# Evaluate the model
model.evaluate(X_test, y_test)
>>>
validation, acc: 0.884, loss: 0.352

保存完整的已训练模型是保存模型的一种常见方式。它保存了参数(权重和偏置)、所有模型对象的实例以及它们生成的数据。例如,这包括优化器的状态(如缓存、学习率衰减)、完整的模型结构等。

在这种情况下,加载模型只需调用一个方法,模型就可以直接使用,无论是继续训练还是用于预测。



本章的章节代码、更多资源和勘误表:https://nnfs.io/ch21

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com