16进制创建llm词表

2025/2/5 2:38:46 来源：https://blog.csdn.net/weixin_32759777/article/details/144226452 浏览: 次关键词：16进制创建llm词表

from collections import Counterimport numpy as npdef string_to_hex(s):# 将字符串编码为字节byte_data = s.encode('utf-8')# 将字节转换为十六进制字符串hex_string = byte_data.hex()return hex_stringdef hex_to_string(hex_str):# 将十六进制字符串转换为字节byte_data = bytes.fromhex(hex_str)# 将字节解码为字符串original_string = byte_data.decode('utf-8')return original_string# 示例
input_string = """好的
通过以上步骤，你可以直接在字节级别上使用 BPE 对给定的十六进制字符串进行处理。希望这个详细的解释对你有帮助！如果你有任何进一步的问题，请告诉我。"""
hex_output = string_to_hex(input_string)
print(hex_output)  # 输出: 48656c6c6f2c20576f726c6421counter = Counter(list(hex_output))
voc = list(hex_output)
# 生成词对
while len(set(voc)) < 64 or len(set(voc)) > 6400:voc_double = [i + j for i, j in zip(voc[:-1], voc[1:])]counter = Counter(voc_double)max_str = sorted(counter, key=lambda x: counter[x])[-1]# 合并词对voc_x = []flag = Falsefor i, j in zip(voc[:-1], voc[1:]):if flag:flag = Falsecontinueif i + j == max_str:if len(voc_x):voc_x.pop()voc_x.append(max_str)flag = Trueelse:voc_x.append(i)voc = np.array(voc_x).copy().tolist()

这段代码的主要目的是将一个字符串转换成其对应的十六进制表示，然后通过一种类似于字节对编码（Byte Pair Encoding, BPE）的方法来处理这个十六进制字符串。BPE是一种基于频率的数据压缩技术，它也被用于自然语言处理中的子词分割。

代码解析

string_to_hex 函数：
- 将给定的字符串 s 编码为 UTF-8 字节。
- 将这些字节转换为十六进制字符串。
hex_to_string 函数：
- 接收一个十六进制字符串 hex_str 并将其转换回原始的字节数据。
- 解码这些字节得到原始的字符串。
示例部分：
- 定义了一个输入字符串 input_string。
- 使用 string_to_hex 函数将该字符串转换为十六进制字符串 hex_output。
- 输出了十六进制字符串 hex_output。
创建词汇表：
- 使用 Counter 来统计每个字符出现的次数。
- 初始化词汇表 voc 为十六进制字符串的字符列表。
- 进入循环，直到词汇表的大小在64到6400之间。
- 在每次循环中，生成所有可能的相邻字符对，并统计它们的频率。
- 找出频率最高的字符对 max_str。
- 通过合并最高频率的字符对来更新词汇表 voc。

创建LLM词汇表的优势

减少稀疏性：通过使用BPE或类似的算法，可以有效地减少词汇表中的条目数量，从而降低模型需要学习的参数量。这有助于解决长尾词的问题，因为常见的子词组合会被更频繁地遇到。
提高泛化能力：BPE允许模型学习单词的组成结构，使得即使对于未见过的单词（只要它们由已知的子词构成），模型也能较好地处理。这提高了模型对新词和形态变化的适应能力。
平衡粒度：这种方法提供了一种介于字符级和词级之间的折衷方案，既保留了足够的信息以区分不同的单词，又避免了过大的词汇表带来的问题。
节省内存和计算资源：较小的词汇表意味着模型可以更快地训练，并且在推理时占用更少的内存。

需要注意的是，这里的实现是针对十六进制字符串的，而不是直接针对文本。如果目标是为自然语言处理构建词汇表，通常会直接应用BPE于文本数据上，而不是先将其转换为十六进制。此外，实际应用中，BPE的过程通常会更加复杂，包括多次迭代、更复杂的合并规则等。