python进阶100集(7)深入分析字符串乱码问题

boyanx4个月前 (08-16)技术教程14

字符串乱码问题一直是初学者比较头疼的事情，在之前的python基础专辑里面已经简单介绍过了，今天我们来深入分析一下python字符串乱码问题的原因，同样适用于其他编程语言！

首先了解以下几种编码：

ASCII：在计算机内部，所有信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态，因此8个二进制位可以组合出256种状态，这被称为字节（byte)。ASCII码一共规定了128个字符的编码，比如空格“SPACE”是32（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。它的范围基本只有英文字母、数字和一些特殊符号。

GB2312：GB2312是对ASCII码的中文扩展，在ASCII码中添加了中文部分。

GBK：GBK编码是对GB2312的扩展，同时兼容简体中文和繁体中文，GB2312是对ASCII码的中文扩展。GBK全称《汉字内码扩展规范》，使用双字节码，是用来编码汉字的。对于英文字母还是按照ASCII字符集。对于汉字使用两个字节。

Unicode：又称万国码，将世界上所有的语言和符号都纳入其中，每一种符号都给予独一无二的编码，防止乱码。

UTF-8：变长码，UTF-8是在互联网中使用最多的对Unicode的实现方式。UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。比如：对于英文或数字还是按照ASCII字符集使用1个字节，对于汉字使用三个字节

汉字乱码的原因：

解决方案：

标签: 字符串在线比对

返回列表

上一篇：delphi 字符串基本操作笔记（delphi字符串转数字）

下一篇：C语言模拟实现字符串操作函数（c语言模拟实现字符串操作函数是什么）

博阳资源网

python进阶100集(7)深入分析字符串乱码问题

首先了解以下几种编码：

汉字乱码的原因：

解决方案：

相关文章

python 模块 filecmp & difflib

告别性能瓶颈!Rust拼接字符串的高效方法大揭秘

C语言字符串操作（c语言字符串操作函数）

【SQL】常见SQL慢查询问题及解决方法

Go语言实战案例-模拟登录验证(用户名密码)

delphi 字符串基本操作笔记（delphi字符串转数字）

发表评论

滇ICP备2024046894号-21

python进阶100集(7)深入分析字符串乱码问题

首先了解以下几种编码：

汉字乱码的原因：

解决方案：

相关文章

发表评论 取消回复

发表评论