欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 会展 > 16进制 创建llm词表

16进制 创建llm词表

2025/2/5 2:38:46 来源:https://blog.csdn.net/weixin_32759777/article/details/144226452  浏览:    关键词:16进制 创建llm词表
from collections import Counterimport numpy as npdef string_to_hex(s):# 将字符串编码为字节byte_data = s.encode('utf-8')# 将字节转换为十六进制字符串hex_string = byte_data.hex()return hex_stringdef hex_to_string(hex_str):# 将十六进制字符串转换为字节byte_data = bytes.fromhex(hex_str)# 将字节解码为字符串original_string = byte_data.decode('utf-8')return original_string# 示例
input_string = """好的
通过以上步骤,你可以直接在字节级别上使用 BPE 对给定的十六进制字符串进行处理。希望这个详细的解释对你有帮助!如果你有任何进一步的问题,请告诉我。"""
hex_output = string_to_hex(input_string)
print(hex_output)  # 输出: 48656c6c6f2c20576f726c6421counter = Counter(list(hex_output))
voc = list(hex_output)
# 生成词对
while len(set(voc)) < 64 or len(set(voc)) > 6400:voc_double = [i + j for i, j in zip(voc[:-1], voc[1:])]counter = Counter(voc_double)max_str = sorted(counter, key=lambda x: counter[x])[-1]# 合并词对voc_x = []flag = Falsefor i, j in zip(voc[:-1], voc[1:]):if flag:flag = Falsecontinueif i + j == max_str:if len(voc_x):voc_x.pop()voc_x.append(max_str)flag = Trueelse:voc_x.append(i)voc = np.array(voc_x).copy().tolist()

这段代码的主要目的是将一个字符串转换成其对应的十六进制表示,然后通过一种类似于字节对编码(Byte Pair Encoding, BPE)的方法来处理这个十六进制字符串。BPE是一种基于频率的数据压缩技术,它也被用于自然语言处理中的子词分割。

代码解析

  1. string_to_hex 函数:

    • 将给定的字符串 s 编码为 UTF-8 字节。
    • 将这些字节转换为十六进制字符串。
  2. hex_to_string 函数:

    • 接收一个十六进制字符串 hex_str 并将其转换回原始的字节数据。
    • 解码这些字节得到原始的字符串。
  3. 示例部分:

    • 定义了一个输入字符串 input_string
    • 使用 string_to_hex 函数将该字符串转换为十六进制字符串 hex_output
    • 输出了十六进制字符串 hex_output
  4. 创建词汇表

    • 使用 Counter 来统计每个字符出现的次数。
    • 初始化词汇表 voc 为十六进制字符串的字符列表。
    • 进入循环,直到词汇表的大小在64到6400之间。
    • 在每次循环中,生成所有可能的相邻字符对,并统计它们的频率。
    • 找出频率最高的字符对 max_str
    • 通过合并最高频率的字符对来更新词汇表 voc

创建LLM词汇表的优势

  1. 减少稀疏性:通过使用BPE或类似的算法,可以有效地减少词汇表中的条目数量,从而降低模型需要学习的参数量。这有助于解决长尾词的问题,因为常见的子词组合会被更频繁地遇到。

  2. 提高泛化能力:BPE允许模型学习单词的组成结构,使得即使对于未见过的单词(只要它们由已知的子词构成),模型也能较好地处理。这提高了模型对新词和形态变化的适应能力。

  3. 平衡粒度:这种方法提供了一种介于字符级和词级之间的折衷方案,既保留了足够的信息以区分不同的单词,又避免了过大的词汇表带来的问题。

  4. 节省内存和计算资源:较小的词汇表意味着模型可以更快地训练,并且在推理时占用更少的内存。

需要注意的是,这里的实现是针对十六进制字符串的,而不是直接针对文本。如果目标是为自然语言处理构建词汇表,通常会直接应用BPE于文本数据上,而不是先将其转换为十六进制。此外,实际应用中,BPE的过程通常会更加复杂,包括多次迭代、更复杂的合并规则等。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com