一、前言
不同于计算机视觉的百花齐放,不同网络适用不同情况,NLP则由Transformer一统天下。transformer是2017年提出的一种基于自注意力机制的神经网络架构,transformers库是hugging face社区创造的一个py库,通过该库可以实现统一的接口去下载调用社区中的模型,并进行微调等等操作。 (没梯子也可以手动下载)
二、流程
①分词
1、含义
神经网络只能处理数字,因此必须将文本转换为数值(如词表索引)。先利用分词器,将连续的文本拆分为离散的单元(Token),现在一般直接调用transformers库的分词器完成分词即可。
在自然语言处理(NLP)中,Token(标记/词元) 是文本处理的最小单位,可以理解为将一段文本“拆解”后的基本元素。它的具体含义取决于分词策略(Tokenization),以下是详细解释:
1. Token 的常见形式
- 单词:例如英文中按空格切分(
"hello"
,"world"
)。- 子词(Subword):将长词或罕见词拆分为更小的片段(如
"unhappiness" → "un" + "##happiness"
)。- 字符:单个字母或汉字(如
"A"
,"语"
)。- 标点/符号:例如
","
,"?"
。- 特殊标记:模型预定义的符号(如
[CLS]
,[SEP]
,<pad>
)。2. 为什么需要 Tokenization?
- 统一输入格式:将文本转换为模型可处理的数值(如
input_ids
)。- 解决未登录词(OOV):通过子词拆分处理词典外的词汇(例如
"ChatGPT" → "Chat" + "G" + "PT"
)。- 跨语言兼容:适用于无空格语言(如中文、日文)或黏着语(如土耳其语)。
3. 不同分词策略的 Token 示例
(1) 英文文本
- 原始句子:
"Don't hesitate to try!"
- 分词结果(不同策略):
- Word-based(按单词):
["Don't", "hesitate", "to", "try", "!"]
- Subword(BERT 风格):
["Don", "'", "t", "hesitate", "to", "try", "!"]
- Character-based(按字符):
["D", "o", "n", "'", "t", "h", "e", ...]
(2) 中文文本
- 原始句子:
"深度学习很有趣!"
- 分词结果(不同策略):
- 按词语:
["深度", "学习", "很", "有趣", "!"]
- 按子词(SentencePiece):
["深", "度", "学", "习", "很", "有", "趣", "!"]
- 按字符:
["深", "度", "学", "习", "很", "有", "趣", "!"]
4. Token 在模型中的使用
- 数值化映射:每个 Token 会被转换为词典中的索引(ID)。
例如:"hello" → 1234
,"!" → 99
。- 输入格式:文本最终转换为模型所需的
input_ids
,例如:
"Hello world!" → [101, 1234, 2137, 999, 102]
(BERT 风格)。5. 不同模型的分词器对比
模型/分词器 分词策略 Token 示例 BERT WordPiece ["hello", "##world", "!"]
GPT-3 Byte-Pair (BPE) ["hello", " world", "!"]
T5 SentencePiece ["▁Hello", "▁world", "!"]
中文BERT 按字切分 ["深", "度", "学", "习"]
6. 关键点总结
- Token 是文本的原子单位:拆解文本的方式取决于任务需求和语言特性。
- 子词分词是主流:平衡词典大小与未登录词问题(如
"ChatGPT"
拆为["Chat", "G", "PT"]
)。- Token 与模型强相关:BERT、GPT 等模型的分词器需配套使用。
如果你正在使用 Transformers 库,可以这样体验分词过程:
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") text = "Don't hesitate to try!" tokens = tokenizer.tokenize(text) # 输出:["don", "'", "t", "hesitate", "to", "try", "!"] input_ids = tokenizer.encode(text) # 输出:数值化的 Token ID 列
分词后的Token往往会将每个Token映射到唯一一个ID,因为计算机只能处理数值,无法直接理解字符、词语或句子,可以理解为有一个超级大的字典,足以容纳所有字符,每个Token都可以对应唯一ID,训练模型是通过Token的ID进行的。(在对一个句子分词和映射时,可能会加入一些分词符,所以打印映射结果可能会比分词后的字符数多)
2、分词器(Tokenizer)
(1)AutoTokenizer
前面说过,不同的模型可能会使用不同的分词策略,所以如果使用不同的模型,就需要加载不同的分词器以使用不同的分词策略,transformers提供了AutoTokenizer,可以自动实现判断其分词策略,只需要提供给它对应的模型名即可。
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")# 将模型名传入即可自动判断分词策略
text = "Don't hesitate to try!"
tokens = tokenizer.tokenize(text) # 分词结果:["don", "'", "t", "hesitate", "to", "try", "!"]
input_ids = tokenizer.encode(text) # 数值化的 Token ID 列表
(2)分词器相关参数
tokenizer.tokenize()
:轻量级工具,仅用于分词调试。tokenizer()
:一站式解决方案,生成模型所需的完整输入。
根据需求选择合适的方法:若直接调用模型,永远优先使用tokenizer()
;若需中间结果(如分析分词策略),再用tokenizer.tokenize()
。
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")# 将模型名传入即可自动判断分词策略
raw_inputs = ["Don't hesitate to try!","I love eat rice!"]
tokens = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors='pt')
input_ids = tokenizer.encode(raw_inputs)
print(tokens)
print(input_ids)
# out
{'input_ids': tensor([[ 101, 2123, 1005, 1056, 16390, 2000, 3046, 999, 102],
[ 101, 1045, 2293, 4521, 5785, 999, 102, 0, 0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1, 1, 0, 0]])}
[101, 2123, 1005, 1056, 16390, 2000, 3046, 999, 102, 1045, 2293, 4521, 5785, 999, 102]
- padding:填充,以拥有最长Token的那句话为基准,为其他不够长的进行填充,以使处理后的TokenID列表长度一致。
- truncation:截断,将输入文本控制在模型能接受的最大长度内,如Transformer 的注意力机制:计算复杂度随输入长度呈平方级增长(O(n²)),模型预训练时固定了最大长度(如 BERT 为 512 Tokens)
- attention_mask:用于告诉模型在处理输入时应该“关注”哪些位置,忽略哪些位置。它的核心作用是解决文本长度不一致和填充(Padding)带来的问题,因为在padding时会对较短Token的句子做填充,填充部分是无效输入,如果没有
attention_mask
,模型会误认为填充的0
是有效输入,导致计算错误。 -
return_tensors
(返回张量格式):指定返回数据的框架格式。常用值:"pt"
:返回 PyTorch 张量。"tf"
:返回 TensorFlow 张量。"np"
:返回 NumPy 数组。None
:返回列表(默认)。
3、模型的缓存与加载
from transformers import AutoModel, AutoTokenizer# 下载模型和分词器到 cache_dir/bert
model = AutoModel.from_pretrained("bert-base-uncased", cache_dir="./bert")
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
AutoModel用于找到并缓存或加载对应模型,cache_dir可指定缓存路径,默认会放在C盘的.cache/huggingface目录下。