Python字符编码介绍

Encoding in python

Posted by Bryan on July 31, 2018

字符编码

字符的编码一直是一个令人头疼的问题,如果没有完全理解它,那么总有一天会踩进字符编码的坑里的。最近正好有空,梳理了编码相关的知识,来一篇博客,整理相关的细节。

ASCII

从计算机发明的时候起,字符的编码就是一个令人困扰的问题。众所周知,计算机只能存储二进制的数据,但是现实生活中的数据都不是二进制,比如我想在计算机中存储一个’hello world’的字符串,那么如何存储呢,肯定是为每个字符们约定一个对应的二进制数喽,这样计算机才能存储。当需要读取时,再利用二进制数找到对应的字符就可以实现字符的存储啦。

这个字符与二进制数的对应关系就是ASCII码表,当需要存储字符’h’时,计算机实际存储ASCII码表对应于’h’的01101000,当读取到01101000的二进制串时,也会查询ASCII码表,这样就知道存储的是’h’啦。ASCII码表对所有的字母,数字以及符号进行了编码,这样在使用英文语言的国家中,就可以存储所有的内容啦。ASICC码表的对应关系可以参考此网站

GB2312和GBK

使用ASCII码,英文字符存储的问题就已经解决了,但是中文的存储的问题依旧解决不了。因为中文主要不是由几个字母组成的,而是由成千上万个汉字组成的。在ASCII设计中,只使用1字节的数据就可以存储英文语系所有的基本内容了,但是中文的存储就没这么简单了。因此,中国人字节创造了一套中文的编码规则,利用2字节的二进制数表示一个特定的中文。首先创造了GB2312编码,收录了6763个汉字,后来又创造了GBK编码,收录27484个汉字。同时GBK编码还兼容ASCII编码,使用1字节表示英文,2字节表示中文。

Unicode

在Unicode没有出现之前,很多国家都有自己语言的编码规则,中国有自己的一套,日本有一套日本的,韩国对韩语也设计了一套编码规则,彼此互不相同。在这种背景下,国际联盟提出一套统一的编码表,可以将全世界所有语言都进行编码,这个统一的编码就是Unicode。Unicode采用2~4个字节存储一个字符,可以存储世界上所有语言中的字符。

UTF

Unicode虽然解决了不同语言编码不统一的问题,但是带来一个新的问题就是单个字符占用的空间太大了。比如一个普通的字母,原来采用ASCII编码时,只需要占用1字节的存储空间,现在却需要2字节,存储空间占用多了1倍。为了解决这个问题,UTF(Unicode Transformation Format)应运而生。

在Unicode需要进行传输或存储时,可以将Unicode编码转换为UTF编码,UTF采用1~4字节进行存储的编码方案,对于原来ASCII中的字符,只需要1字节就可以存储了,对于欧洲语系中的字符,采用2字节进行编码,对于东亚语系中的字符,采用3字节进行编码,其他则采用4字节进行编码。这样编码后,占用的空间就能得到缩减。

Python2字符编码

python2默认编码

在python2的代码中,经常会在代码的首行加上”#coding utf8”,这段注释存在的意义是什么呢

原因在于python2的默认编码方式是ASCII,而由于前面的理论,ASCII是不支持中文的,因此如果不加上前面的注释,当在代码中出现任意的中文字符时,就会报错。错误信息如下: “Non-ASCII character ‘\xe6’, but no encoding declared”

string

在python2中string类型看起来是可以直接操作中文等非ASCII的字符的,比如我们可以指定 s = “中文”,然后通过print s,也是可以正常工作的。但是我们查看字符串s的长度就会发现特别诡异的现象,事实上len(s)为6,为什么会出现这种情况呢?而且我们之前说中文存储时是可以采用不同方式编码的,这个字符串是怎么编码的呢?

事实上,python2中string类型事实上并不是字符串,真正精确的描述应该是字节串。string类型事实上就是存储了数据对应的二进制数据。这个可以通过直接输出s,可以看到显示的数据是’\xe4\xb8\xad\xe6\x96\x87’,这个是因为我们配置的中文的默认编码是utf-8,因此对于需要的存储的数据”中文”,string中事实上存储的是这两个汉字对应的的utf-8二进制编码。而中文在utf-8编码中占用3个字节,因此最终的len(s)就是6。从这里也印证了,string并不是字符串,只是存储的是二进制字节串。

那么string对应的数据都是采用什么样是编码方式呢?答案是可以采用任意的编码方式,string中的数据可能是utf-8编码的,也可能是gbk方式编码的。因为string真正关心的是字节,真正存储的是二进制串,因此任意的编码方式,最终都是可以对应于特定的二进制串的,都是可以采用string存储的。

unicode

python2中由于string类型是字节串,为了进行字符的存储,又增加了一种类型,叫unicode。他就是将数据采用unicode方式进行编码存储的。这个才是我们一般意义上理解的字符串。

encode和decode

在python2中,string是可以采用任意编码的字节串,而unicode是采用unicode编码的串,他们可能表示的都是同样的内容,但是对应的编码方式不同,因此最终存储的二进制串就不同了。而这两种类型事实上是可以互相转换的,因为对于特定的string类型,只要知道了编码方式,是可以知道表示的内容的,因此也是很容易就知道对应的unicode编码的。反过来,知道了unicode存储的串,是可以知道表示的内容的,如果想要进行特定类型的编码,也是很容易做到。

python2提供了decode方法,可以将string类型转换为unicode类型,即s.decode(encoding),即可转换为unicode类型

同样python2提供了encode方法,将unicode类型转换为string类型,即u.encode(encoding),即可转换为string类型

文件编码

根据我们前面介绍的理论,存储的文件真正存储的是二进制串,我们希望存储特定的内容,事实上,我们是将这些内容按照特定的方式进行编码,然后存储编码后对应的二进制串。在读取文件时,我们也需要知道编码的方式,然后按照之前的编码格式进行解码,即可将二进制串转换为特定的内容,从而供我们展示。生活中,我们时不时会遇到中文乱码的问题,这个问题出现的主要原因在于,读取文件时采用的解码方式和编码方式不一致,因此将二进制串解码成了错误的内容,从而出现了乱码。这种情况下,我们就应该尝试采用其他的解码方式进行文件读取,才能正确读取文件内容。