python-3.x - 如何正确解析/解码这个字节内容以获得它在pyhon中的等效字符串?
问题描述
阅读一些数据,我遇到了一个孤立的案例(在我的上下文中),其中数据不具有预期的格式。
数据是从电子邮件(.msg
文件)中读取的:
msg = extract_msg.Message(file)
print(msg.body.encode("utf-8"))
print(msg.body)
此脚本的输出如下:
b'Bonjour,\r \r \r Je vous invite \xc3\xa0 prendre connaissance des pi\xc3\xa8ces jointes relatives \xc3\xa0 votre dossier r\xc3\xa9f\xc3\xa9renc\xc3\xa9 ci-dessus.\r \r Je vous en souhaite une bonne lecture et reste \xc3\xa0 votre disposition pour tout renseignement compl\xc3\xa9mentaire.\r \r \r Cordialement,\r \r \r name\r othername'
othername.partofnamehaite une bonne lecture et reste à votre disposition pour tout renseignement complémentaire.
如您所见,有几个十六进制字符以及许多回车符。此外,原始正文字符串与 utf-8 编码版本的输出完全不匹配。
最后,在第二行的开头,请注意它包含第二行结尾的(混乱的)部分。
我需要将第一行的内容作为字符串检索,并带有预期的重音,例如:
Bonjour,\r \r \r Je vous invite à prendre connaissance des piéces jointes relatives à votre dossier référencé ci-dessus.\r \r Je vous en souhaite une bonne lecture et reste à votre disposition pour tout renseignement complémentaire.\r \r \r Cordialement,\r \r \r name\r othername
我怎样才能做到这一点?
解决方案
推荐阅读
- angular - Angular Activatedroute 参数始终为空
- javascript - 在 javascript 中使用 new Date() 时出现错误的日期
- python - python中的手写文本行分割
- android - 有没有办法从 Android Profiler 导出数据?
- nlp - 在 Spacy 模式匹配中,我们如何获得有界 Kleene 算子?
- json - Fluentd解析空字符串或null
- java - 由于 Java @Transactional,无法更新数据库记录
- r - 更改条形图中的条形顺序
- python - 用随机数替换 NaN
- r - 对于 R 中的 Leaflet,您可以添加一个按钮来为每个地图图层添加和删除多边形吗?