LSTM概述

LSTM概述

2025/4/19 15:09:45 来源：https://blog.csdn.net/Rhett_Butler0922/article/details/147262302 浏览: 次关键词：LSTM概述

在深度学习中，普通的神经网络（如全连接网络或卷积神经网络）在处理序列数据时表现不佳，因为它们无法捕捉数据中的时间依赖关系。循环神经网络（RNN）被设计来处理序列数据，通过隐藏状态在时间步之间传递信息。然而，传统RNN存在两个主要问题：

LSTM由Hochreiter和Schmidhuber在1997年提出，旨在解决这些问题。它通过引入门控机制（Gates）和记忆单元（Cell State），能够选择性地记住或遗忘信息，从而有效建模长期和短期依赖。

LSTM的核心是通过一个记忆单元（Cell State）来保存长期信息，并通过门控机制（输入门、遗忘门、输出门）控制信息的流动。这些门决定：

这使得LSTM在处理长序列时表现优异，适合任务如机器翻译、文本生成和时间序列预测。

LSTM的基本单元由以下几个部分组成：

下面我们详细解析每个部分。

记忆单元是LSTM的核心，它像一条“传送带”，贯穿所有时间步，负责存储和传递长期信息。Cell State通过门控机制进行更新，确保模型能够记住关键信息（如句子的主语）并遗忘无关信息。

数学上，Cell State在时间步 $t$ 的更新公式为：
$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$
其中：

隐藏状态 $h_t$ 是LSTM的输出，包含当前时间步的短期信息。它由Cell State通过输出门进行调节：
$h_t = o_t \odot \tanh(C_t)$
其中：

隐藏状态 $h_t$ 通常被用作模型的输出，或传递到下一层网络。

LSTM通过三个门控机制控制信息的流动，每个门都使用sigmoid激活函数（输出范围为 $[0, 1]$ ），决定信息保留的比例。

遗忘门决定上一时间步的Cell State中有多少信息需要被遗忘。它的计算公式为：
$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$
其中：

相关资讯