在 Python 尤其是 Python2 中,编码问题是困扰开发者尤其初学者的一大问题。什么 Unicode/UTF-8/str,又是 decode/encode 的,搞得人头都大了。其实不然,看似庞大难懂,但是可以非常精细地定制需求。
0.Python 中的编码
Python 中有两个常用的由 basestring 派生出来的表示字符串的类型:str, unicode。其中,str 类似于 C 中的字符数组或者 Java 中的 byte 数组,事实上你可以将它理解为一个存储二进制内容的容器,str 不存储编码信息,果对 str 类型的字符串迭代的话,则会按照其在内存中的字节序依次迭代,意味着如果这个字符串存储的是多字节字符(Unicode/GBK等),则会截断这个字符,演示如下: