NLP相关python库

2025/2/12 11:57:43 来源：https://blog.csdn.net/qq_29876847/article/details/142784630 浏览: 次关键词：NLP相关python库

一、torchcrf（他不是神经网络模型）

自然语言处理（NLP）:

特征集合：特征集合是由一系列特征函数组成，每个特征函数用于提取观测序列中特定位置的信息。

观测序列：观测序列是CRF模型需要标注的数据序列。在自然语言处理中，这通常是一个句子，其中的每个词都是一个观测。

观测序列的对应标签序列，例如：

pip install pytorch-crf

from torchcrf import CRF

import torch
import torch.nn as nn
from torchcrf import CRF

一般是在__init__函数中，需要为函数传入一个参数num_tags.

一般放在函数尾部，作为最后一层输出层，使用

self.crf = CRF()

实例化对象。

args.num_labels：模型输出的标签种类数，也是CRF层的标签数量。

batch_first = True:决定了数据以什么样的格式输入给CRF层，如果是true，则数据输入形状应该是(batch_size, seq_length, input_size)，否则则是( seq_length, batch_size,input_size)

方法名	作用	参数	参数解释
`self.crf(）`	计算得到的损失值，这是一个标量,一般取它的负值。	`seq_out,labels`	`seq_out`: 标签的数量。`labels`: 真实标签，至少要拿这两个参数进行损失函数计算。
`forward`	前向传播，用于计算损失或进行解码。	`emissions`, `tags`, `mask`	`emissions`: 发射分数。`tags`: 真实标签（可选）。`mask`: 掩码，指示哪些位置的标签应该被计算。
`decode`	解码发射分数以预测标签序列。	`emissions`, `mask`	`emissions`: 发射分数。`mask`: 掩码。
`log_likelihood`	计算给定发射分数和真实标签的对数似然。	`emissions`, `tags`, `mask`	`emissions`: 发射分数。`tags`: 真实标签。`mask`: 掩码。
`reset_parameters`	重置CRF层的参数。	无	无