摘要
本文提出了一种新颖的端到端方法" ncRFP "来完成基于深度学习的预测任务。ncRFP不是预测二级结构,而是通过从ncRNAs序列中自动提取特征来预测ncRNAs家族。与其他方法相比,ncRFP不仅简化了过程,而且提高了精度。
ncRFP的主要新颖之处在于它不同于传统的预测家族过程的方法,它直接基于ncRNAs序列来预测家族。以ncRNAs序列作为输入,ncRFP自动提取特征,并在深度学习模型的辅助下进行学习。
本文分别基于RNN、CNN和DNN建立了3个模型。经过模型对比,RNN的预测性能优于其他两种模型。因此,我们选择了包含Bi-LSTM,Attention Mechanism和全连接神经网络的RNN模型作为最终模型。
材料和方法
数据的收集与处理
本文使用的数据从Rfam数据库中收集。每个家族的所有序列随机分为10个部分。每个家族随机选择一部分组成测试集,其余部分组成训练集,使得所有ncRNAs序列可以形成10折交叉验证的训练集和测试集。本文选择了两种编码方式将ncRNAs序列转化为矩阵。第一种是将每个碱基转换成一个1*8的向量,另一种是将每个碱基转换成一个1*4的向量(独热编码)。
本文提出了一种新的截取/填充方法( IPM ),将各种ncRNA处理成固定长度,长度大于固定长度的ncRNA从开始截取到固定长度,长度小于固定长度的ncRNA在尾部用' N '填充到固定长度。
方法
ncRFP是由Bi-LSTM、注意力机制( attention mechanism,AM )和全连接网络组成的深度学习模型。Bi-LSTM和AM主要负责将不同的ncRNA编码成固定格式的数据,全连接网络则是对Bi-LSTM和AM的输出进行解码。图3展示了ncRFP的体系结构。可以发现,原始ncRNAs序列转换为矩阵后,作为Bi-LSTM和AM的输入。Bi-LSTM根据上下文将不同位置的每个碱基编码为固定大小的数据。AM主要方便模型关注不同ncRNA的导入位置,并将Bi-LSTM的输出编码成相同的格式大小。全连接网络主要承担将Bi-LSTM和AM的输出解码到对应的ncRNA家族的任务。

Bi-LSTM
ncRNAs是上下文敏感的文本数据,因此在预测其家族时需要记录每个碱基的上下文。由于双向RNN可以有效地记录每个基的过去和未来特征,因此我们选择它作为模型的第一部分,将每个基结合其上下文处理成相同格式的数据。普通RNN的记忆和存储能力有限,会随着序列长度的增加而失去学习信息的能力,陷入梯度消失。LSTM作为一种特殊的RNN,通过引入存储单元和门机制,解决了普通RNN中出现的梯度消失问题,使其在表示序列数据中元素的过去信息、未来信息和提取长距离依赖关系方面表现更好。LSTM记忆单元可实现如下:
其中为logistic sigmoid函数,i、f、o、c分别为输入门、遗忘门、输出门和细胞向量,均与隐向量h在同一维度。同时,w表示权重矩阵,b表示偏置向量。因此,在ncRFP中选择了Bi-LSTM,其原理是相同的碱基连接两个方向相反的LSTM。前向LSTM可以记录过去的信息,后向LSTM可以记录未来的数据信息。Bi-LSTM在t时刻的隐状态
包括前向隐状态
和后向隐状态
。
注意力机制
AM的核心思想是将注意力更多地分配到输入信息上,而较少地分配到其他信息上,从而巧妙合理地改变对外界信息的关注,忽略无关信息,放大合意信息。从而大大提高了聚焦注意区域信息的接收灵敏度和处理速度。选择AM作为ncRFP的第二部分,负责将ncRFP更多的注意力集中在一致的种子序列上。从而提高预测精度。
全连接网络
在Bi-LSTM和AM之后,毫无疑问需要将Bi-LSTM和AM的输出解码到每个ncRNA对应的家族中。本文提出了一种四层全连接神经网络来完成该任务。图2包含一个输入层,两个隐藏层和一个输出层的结构,其中ReLU作为激活函数。全连接神经网络可以实现如下:
式中:w为权重矩阵,b为偏置向量,x和y为任意两层之间的输入和输出。
ncRFP的参数
1 ) Bi - LSTM隐含层128个节点,输出层256个节点。全连接层节点数分别为128、64和13。
2 )所有权重矩阵均采用高斯分布(平均值为0 ,标准差为0.05)进行初始化。
3 )加入dropout层,通过减少参与计算的点数来防止过拟合。Bi - LSTM的Dropout参数为0.3,全连接神经网络的Dropout参数为0.4。