首页 > 解决方案 > 是否有将 ISO 8859-1/windows-1252 编码字符转换为标准 ASCII 等价物的现成翻译字典?

问题描述

我有一堆文本文档(数千个),它们有各种未说明的编码。大多数是直接的 ascii,但有些是 windows-1252 或 ISO 8859。

我想将扩展字符集转换为一些合理的标准 ASCII 等价物,例如

{
   '\x93' : '"',        # Left smart quote
   '\x94' : '"',        # Right smart quote
   '\xbb' : '>>',       # Double greater than
   '\xbc' : '1/4',      # one quarter
   '\xbd' : '1/2',      # one half
   ...
}

与其自己构建整个字典,我想知道是否已经有人制作了一个明智的转换列表,我可以使用和更改自己?

标签: extended-ascii

解决方案


推荐阅读