【NLP】 12. 解决不同长度文本问题，RNN, LSTM，双重RNN，双向递归神经网络

RNN Recurrent Models

如何解决不同长度文本向量的问题？（长文本）

取均值，但是容易淡化文本的独特性，比如一正一负的均值就变成了0. 有些情况取均值毫无意义，我出门玩，几个词的均值意义模糊。我爱你，你爱我，均值一样但是含义不一样。
合并所有向量，但是是固定的一段长向量（N-dimension），如果只有一个词，则需要填充padding其他地方为0，如果是很多个词，则只能放弃后面的词，进行截断（Truncate）。会丢失信息。并且不同位置的词需要重新学习它的含义（代入了位置信息）。

RNN

为了解决这个问题，提出了RNN的概念 RNN-LSTM概述 <-跳转之前的博客。基于之前的概述，下面做一些补充。

在这里插入图片描述

python - Why is RNN no weigth between hidden and output? - Stack Overflow](https://i.sstatic.net/PcaGd.png)

h0 的初始化可以是全为0的矩阵，也可以是认为给定的权重矩阵
Wh 时间步长之间的权重是共享的，所以更新的时候会一起更新。 Wx（负责将输入
xt转换为隐藏状态的表示），Wy(负责将隐藏状态 ht映射到输出层（例如分类任务的 logits) 不共享
RNN 有多种形式的输出, 也可以直接多任务，预测每个词的词性，预测情感，有多少个输出就会更新多少次权重

The Unreasonable Effectiveness of Recurrent Neural Networks](https://karpathy.github.io/assets/rnn/diags.jpeg)

存在的问题：
- 1. 梯度爆炸Exploding gradients
    如果有一个非常陡的梯度，权重更新会跳到很远的地方，甚至溢出存储
解决方法： clipping the gradient.梯度裁剪，使用min(gradient, k)进行限制。
- 1. 梯度消失，gradient vanish
    RNN 通过反向传播算法（Backpropagation Through Time, BPTT）来更新权重，其中隐藏状态的梯度是多个时间步的乘积。如果每一步的梯度小于 1，就会指数级衰减，最终变得接近 0。
解决方法：不衰减的方法保存信息，使用LSTM
通过RNN 隐藏层可视化可以得到结论：颜色渐变说明 RNN 的隐藏状态随着时间步的变化而改变，有些单词在序列中起到了更重要的作用。【Andrej Karpathy 的论文《The Unreasonable Effectiveness of Recurrent Neural Networks》（2015）】

RNN 变型

1. 双重RNN，输出当作另一个RNN的输入

在这里插入图片描述

Recurrent Neural Network (RNN) and LSTM | Data Platform and Data Science](https://dwbi1.wordpress.com/wp-content/uploads/2021/08/fig-2-rnn-architecture.jpg?w=422)

2. 双向递归神经网络（Bidirectional RNN, BiRNN）

Forward-Backward RNN（前向-后向 RNN）是一种 双向递归神经网络（Bidirectional RNN, BiRNN） 的结构，它通过 同时考虑前后时间步的信息 来提升对序列数据的理解能力，特别适用于 自然语言处理（NLP） 和 语音识别（Speech Recognition） 等任务。

在这里插入图片描述

Bidirectional Recurrent Neural Network - GeeksforGeeks](https://media.geeksforgeeks.org/wp-content/uploads/20230302163012/Bidirectional-Recurrent-Neural-Network-2.png)