循环神经网络 - 机器学习任务之序列到类别模式

循环神经网络可以应用到很多不同类型的机器学习任务。根据这些任务的特点可以分为以下几种模式：序列到类别模式、同步的序列到序列模式、异步的序列到序列模式。

本文我们来学习序列到类别模式，这种模式主要用于序列数据的分类问题:输入为序列，输出为类别。比如在文本分类中，输入数据为单词的序列，输出为该文本的类别。

一、概述

假设一个样本𝒙1∶𝑇 =(𝒙1,⋯,𝒙𝑇)为一个长度为𝑇的序列，输出为一个类别 𝑦 ∈ {1, ⋯ , 𝐶}。我们可以将样本 𝒙 按不同时刻输入到循环神经网络中，并得到不同时刻的隐藏状态𝒉1,⋯,𝒉𝑇。

我们可以将𝒉𝑇 看作整个序列的最终表示(或特征)，并输入给分类器 𝑔(⋅) 进行分类，即

𝑦̂ = 𝑔(𝒉𝑇 ),

其中𝑔(⋅)可以是简单的线性分类器(比如Logistic回归)或复杂的分类器(比如多层前馈神经网络)。

关于Logistic回归，请参考：线性模型 - Logistic 回归_logistic回归模型-CSDN博客线性模型 - Logistic回归（参数学习&具体示例）_logistic回归模型-CSDN博客

除了将最后时刻的状态作为整个序列的表示之外，我们还可以对整个序列的所有状态进行平均，并用这个平均状态来作为整个序列的表示：

这里附一个序列到类别模式图，以直观的理解：

“序列到类别”模式是指循环神经网络（RNN）接受一个完整的输入序列，然后输出一个类别标签，而不是为每个时间步生成一个输出。这种模式适用于需要对整个序列进行整体理解和分类的任务，例如情感分析、文本分类、语音识别中的说话人识别等。

输入序列：
网络接受一个由多个时间步组成的输入序列，每个时间步可以是单词、字符、语音帧等。这些时间步共同构成了序列的上下文信息。
循环处理：
循环神经网络逐步处理序列中的每个元素，并不断更新一个内部状态（隐藏状态），这个状态在理论上捕捉了整个序列的关键信息。也就是说，随着序列的展开，隐藏状态逐渐“总结”了之前所有输入的信息。
输出分类：
当整个序列处理完毕后，网络会将最终的隐藏状态作为整个序列的表示，接着通过一个全连接层（可能还会经过 softmax 激活函数）将其映射到预定义的类别空间，从而输出一个类别标签。关于softmax，可以参考；线性模型 - Softmax 回归_softmax函数决策边界-CSDN博客

线性模型 - Softmax 回归（参数学习）_线性公式加softmax的参数更新-CSDN博客

任务描述：
假设我们要对电影评论进行情感分析，将评论分为“正面”或“负面”。评论由多个单词组成，整个评论构成一个序列。

模型架构：

输入层：
- 每个评论分解成一个单词序列，例如 “这部电影很精彩” 可以转化为单词向量序列 [v₁, v₂, v₃, v₄]。
嵌入层：
- 使用词嵌入将每个单词转换为固定维度的向量。
循环层：
- 使用一个 RNN（例如 LSTM 或 GRU）逐步处理嵌入序列。
- 每个时间步更新隐藏状态，最终得到整个评论的隐藏状态 h(T)。
输出层：
- 将最终隐藏状态 h(T) 通过一个全连接层映射到 2 个神经元上，并用 softmax 输出类别概率。
- 如果 softmax 输出的概率中，“正面”概率较高，则评论分类为正面；反之，则为负面。