首页 > 技术文章 > python2编码问题

ying-chease 2018-04-10 13:05 原文

https://www.cnblogs.com/litaozijin/p/6416133.html

https://www.cnblogs.com/fnng/p/5008884.html

一、python2的编码

在python中字符串只有两者形式:str和unicode。Python2.7中调用print打印var 变量时,操作系统会对var做一定的字符处理:如果var是str类型的变量,则直接将var变量交付给终端进行显示;如果var变量是unicode类型,则操作系统首先将var编码成str类型的对象(编码格式取决于stdout的编码格式),然后再交由终端进行显示。在终端显示时,如果str类型的变量的编码方式和终端设置的编码方式不一致,很可能会出现乱码问题。

str和unicode 相互转换: str 经过 decode() 处理变成unicode类型; unicode再经过encode()又变成str类型 

注意:python3字符串默认都是以unicode编码的,print打印时,变量只接受unicode类型,否则不能正常打印,这与python2不同。 

https://blog.csdn.net/yanghuan313/article/details/63262477

什么叫解码(decode)?

对应的,解码就是将字节序列按照编码规则(如UTF-8、GB18030)解释成unicode形式。

这里写图片描述

这里或许又会有疑问,编码解码都是十六进制,那中文字符咋显示的? 
这又要结合你的环境了。看完我上面推荐的文章,你就会明白,Unicode只是一种标准,而具体的编码才是实现方式。有了正确的Unicode编码,仅仅代表你有了正确的英文文献,想翻译成中文,还得再转换一次。而这一次转换,是你的环境帮你完成。举个例子,你打开一个文档,发现是乱码,多半是文本编辑器的解码方式有问题,换个解码规则就好了。

https://www.cnblogs.com/575dsj/p/7112767.html

 

 

二、Python2处理中文字符串技巧:  在对中文字符串处理时(split,str[i]等)用unicode编码,在print时或其它输出时显式指定指定编码。

#最终以unicode编码
def pai_load_sentences(samples, is_lower, is_zeros):
    sentences = []
    #count = 0
    for line in samples:
        line = line.decode('utf-8')
        print('line: ' + line.encode('utf8'))
        if not isf.line_format_check(line) :
            continue
        r_list = isf.pai_line_format(line)
        if len(r_list) == 0:
            continue
        sentence = isf.pai_load_sentences(r_list, is_lower, is_zeros)
        if len(sentence) > 0:
            sentences.append(sentence)
    #print('len(sentences)=', len(sentences))
    return sentences


#在py2中,如果使用正则匹配,注意模式串也要用unicode定义,如:
pattern_str = u"[^\u4e00-\u9fa5^,^。^?^!^;^!^?^.^@^#^a-z^A-Z^0-9]" #pattern串使用u标识定义成unicode类型
cop = re.compile(pattern_str)  # 匹配不是中文、大小写、数字、标点的其他字符
line = line.decode('utf-8')
text = cop.sub('', text)
print(line.encode('utf-8'))
 



 

三、Json编码

使用json.dumps()来将待中文的字典数据转换为json字符串时,有时会遇到中文乱码问题,这是因为json.dumps 序列化时默认使用的ascii编码,想输出真正的中文需要指定ensure_ascii=False:更深入分析,是应为dJSON object 不是单纯的unicode实现,而是包含了混合的unicode编码以及已经用utf-8编码之后的字符串。

json_str = json.dumps(dict, ensure_ascii=False)

参考:https://blog.csdn.net/weixin_40612082/article/details/90115045

推荐阅读