首页 > 解决方案 > 在python中转换为纯文本

问题描述

我有一个数据"albums"框列"Album"(例如,除了我拥有的文本之外,似乎还有一些编码,例如代替文本中的撇号。"Album 2"utf-8"Précis""Pr\xc3\xa9cis."HTML"\'"

有没有一种简单的方法可以将所有内容转换为纯文本,而无需搜索和替换每个可能的 utf/unicode/html?

标签: pythonstringtextutf-8

解决方案


因为\xc3\xa9你需要组合encode()decode()raw_unicode_escape

print( "Pr\xc3\xa9cis.".encode('raw_unicode_escape').decode() )

文档:编解码器Python 特定编码


并为'您需要html.unescape

import html

print(html.unescape("'"))

文档:html


推荐阅读