首页 > 解决方案 > UTF-8 错误编码,找出错误编码的方式

问题描述

首先,我搜索了论坛和网络,发现了一些或多或少相关的主题,但并没有真正指向我的问题。

我知道我使用的字符串格式不正确,我发现两个站点指向发生了什么(双 utf 以某种方式与 iso-8859-1 结合)

http://www.i18nqa.com/debug/utf8-debug.html
https://gist.github.com/ImpactSeo/78561612047efa7591264b8276357a4b

使用这些列表进行反转相对容易,但我试图了解如何获取这些坏字符串

到目前为止我做了什么

我知道格式不正确的 Ä 代表 Ä,所以我以 Ä 开头

Ä utf8 编码\xc3\x84在我第二次使用 utf8 编码时作为字符串

\xc3\x83\xc2\x84

非常接近“所需”输出,但另一方面,格式错误的字符串看起来像

Ä is \xc3\x83\xe2\x80\x9e encoded in utf-8

谁能给我一个提示或告诉我如何到达那里?我尝试了不同的方式将 utf-8 与 iso-8859-1 结合,但没有输出匹配

标签: pythonpython-3.xutf-8character-encodingmojibake

解决方案


推荐阅读