ncrfp：一种基于深度学习的端到端非编码RNA家族预测新方法

摘要

本文提出了一种新颖的端到端方法" ncRFP "来完成基于深度学习的预测任务。ncRFP不是预测二级结构，而是通过从ncRNAs序列中自动提取特征来预测ncRNAs家族。与其他方法相比，ncRFP不仅简化了过程，而且提高了精度。

ncRFP的主要新颖之处在于它不同于传统的预测家族过程的方法，它直接基于ncRNAs序列来预测家族。以ncRNAs序列作为输入，ncRFP自动提取特征，并在深度学习模型的辅助下进行学习。

本文分别基于RNN、CNN和DNN建立了3个模型。经过模型对比，RNN的预测性能优于其他两种模型。因此，我们选择了包含Bi-LSTM，Attention Mechanism和全连接神经网络的RNN模型作为最终模型。

材料和方法

数据的收集与处理

本文使用的数据从Rfam数据库中收集。每个家族的所有序列随机分为10个部分。每个家族随机选择一部分组成测试集，其余部分组成训练集，使得所有ncRNAs序列可以形成10折交叉验证的训练集和测试集。本文选择了两种编码方式将ncRNAs序列转化为矩阵。第一种是将每个碱基转换成一个1*8的向量，另一种是将每个碱基转换成一个1*4的向量(独热编码)。

本文提出了一种新的截取/填充方法( IPM )，将各种ncRNA处理成固定长度，长度大于固定长度的ncRNA从开始截取到固定长度，长度小于固定长度的ncRNA在尾部用' N '填充到固定长度。

方法

ncRFP是由Bi-LSTM、注意力机制( attention mechanism，AM )和全连接网络组成的深度学习模型。Bi-LSTM和AM主要负责将不同的ncRNA编码成固定格式的数据，全连接网络则是对Bi-LSTM和AM的输出进行解码。图3展示了ncRFP的体系结构。可以发现，原始ncRNAs序列转换为矩阵后，作为Bi-LSTM和AM的输入。Bi-LSTM根据上下文将不同位置的每个碱基编码为固定大小的数据。AM主要方便模型关注不同ncRNA的导入位置，并将Bi-LSTM的输出编码成相同的格式大小。全连接网络主要承担将Bi-LSTM和AM的输出解码到对应的ncRNA家族的任务。

Bi-LSTM

ncRNAs是上下文敏感的文本数据，因此在预测其家族时需要记录每个碱基的上下文。由于双向RNN可以有效地记录每个基的过去和未来特征，因此我们选择它作为模型的第一部分，将每个基结合其上下文处理成相同格式的数据。普通RNN的记忆和存储能力有限，会随着序列长度的增加而失去学习信息的能力，陷入梯度消失。LSTM作为一种特殊的RNN，通过引入存储单元和门机制，解决了普通RNN中出现的梯度消失问题，使其在表示序列数据中元素的过去信息、未来信息和提取长距离依赖关系方面表现更好。LSTM记忆单元可实现如下：

其中 $\sigma$ 为logistic sigmoid函数，i、f、o、c分别为输入门、遗忘门、输出门和细胞向量，均与隐向量h在同一维度。同时，w表示权重矩阵，b表示偏置向量。因此，在ncRFP中选择了Bi-LSTM，其原理是相同的碱基连接两个方向相反的LSTM。前向LSTM可以记录过去的信息，后向LSTM可以记录未来的数据信息。Bi-LSTM在t时刻的隐状态 $H_{t}$ 包括前向隐状态 $\vec{h_{t}}$ 和后向隐状态 $h_{t}$ 。