首页 > 解决方案 > 如何正确解析/解码这个字节内容以获得它在pyhon中的等效字符串?

问题描述

阅读一些数据,我遇到了一个孤立的案例(在我的上下文中),其中数据不具有预期的格式。

数据是从电子邮件(.msg文件)中读取的:

msg = extract_msg.Message(file)

print(msg.body.encode("utf-8"))
print(msg.body)

此脚本的输出如下:

b'Bonjour,\r \r \r Je vous invite \xc3\xa0 prendre connaissance des pi\xc3\xa8ces jointes relatives \xc3\xa0 votre dossier r\xc3\xa9f\xc3\xa9renc\xc3\xa9 ci-dessus.\r \r Je vous en souhaite une bonne lecture et reste \xc3\xa0 votre disposition pour tout renseignement compl\xc3\xa9mentaire.\r \r \r Cordialement,\r \r \r name\r othername'
 othername.partofnamehaite une bonne lecture et reste à votre disposition pour tout renseignement complémentaire.

如您所见,有几个十六进制字符以及许多回车符。此外,原始正文字符串与 utf-8 编码版本的输出完全不匹配。

最后,在第二行的开头,请注意它包含第二行结尾的(混乱的)部分。

我需要将第一行的内容作为字符串检索,并带有预期的重音,例如:

Bonjour,\r \r \r Je vous invite à prendre connaissance des piéces jointes relatives à votre dossier référencé ci-dessus.\r \r Je vous en souhaite une bonne lecture et reste à votre disposition pour tout renseignement complémentaire.\r \r \r Cordialement,\r \r \r name\r othername

我怎样才能做到这一点?

标签: python-3.xutf-8hex

解决方案


推荐阅读