关于字符编码

2025/4/24 17:10:31 来源：https://blog.csdn.net/weixin_74305514/article/details/141142850 浏览: 次关键词：关于字符编码

字符和码值的对应关系是通过字符编码表来决定的

ASCII码

标准ASCII码使用7 位二进制数来表示所有的大写和小写字母，数字 0 到 9、标点符号，以及在美式英语中使用的特殊控制字符。一共可以表示128种字符。

Unicode字符集

Unicode是国际组织制定的旨在容纳全球所有字符的编码方案。
在Unicode中，字母、数字、汉字都是使用2个字节来表示的。
Unicode字符集对所有字符进行了编号，但是并没有指定这些编号的编码规则。

在Unicode中，汉字“中”的编号是：0x4e2d，“国”的编号是：0x56fd，对于“0x4e2d”，将其转换为对应的二进制数值为01001110 00101101，如果说把这样的数据直接存入计算机中，那么在我们从计算机中读取信息的时候，我们是没有办法知道一个字节是一个单独的字符还是和后面的字节联合组成一个字符，由此，便出现了Unicode字符集的实现方式，UTF-8是较为常用的一种。

UTF-8

UTF-8是Unicode字符集的一种编码实现方式，是一种可变长度的字符编码，也是目前使用最广泛的Unicode实现方式。

编码方式

		00-7F:				0xxxxxxx80-7FF:				110xxxxx 10xxxxxx800-FFFF:			1110xxxx 10xxxxxx 10xxxxxx10000-10FFFF: 		11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

解读：
如果Unicode的编码在是00-7F范围内的，那么就用一个字节来存储，第一位是0；

如果是在80-7FF范围内的，那么用两个字节来存储，第一个字节的前三位是110，另一个字节的前两位是10；

如果是在800-FFFF范围内的，那么用三个字节来存储，第一个字节的前四位是1110，剩下的字节的前两位是10；

如果是在10000-10FFFF范围内的，那么用四个字节来存储，第一个字节的前五位是11110，剩下的字节的前两位是10；

举个例子：
比如说汉字“中”的编码是0x4e2d，是在800-FFFF范围内的，那么就用三个字节来存储
0x4e2d转换为二进制就是01001110 00101101，将它填充到1110xxxx 10xxxxxx 10xxxxxx中，如下图
在这里插入图片描述
经过UTF-8编码得到的是11100100 10111000 10101101，转换为十六进制就是e4 b8 ad