extended-ascii - 是否有将 ISO 8859-1/windows-1252 编码字符转换为标准 ASCII 等价物的现成翻译字典?
问题描述
我有一堆文本文档(数千个),它们有各种未说明的编码。大多数是直接的 ascii,但有些是 windows-1252 或 ISO 8859。
我想将扩展字符集转换为一些合理的标准 ASCII 等价物,例如
{
'\x93' : '"', # Left smart quote
'\x94' : '"', # Right smart quote
'\xbb' : '>>', # Double greater than
'\xbc' : '1/4', # one quarter
'\xbd' : '1/2', # one half
...
}
与其自己构建整个字典,我想知道是否已经有人制作了一个明智的转换列表,我可以使用和更改自己?
解决方案
推荐阅读
- sql - 按查询索引 max + group
- c# - 如何在 iOS/Android 上创建文本框并处理 MonoGame 中的输入?
- javascript - 如何从 api 生成一组唯一对象?
- swift - 检查应用程序是否已在 OS X 上预安装或受保护
- c - 当这个程序在 Windows 上运行时,为什么会有回车?
- django - 如何在保存之前访问 django 模型表单中字段的先前值?
- reactjs - 分派操作后组件未更新-react-redux
- whatsapp - WhatsApp Business API 将图像作为第一条消息发送给客户
- javascript - 使用 reactjs 下载文件无法正常工作(使用 axios)
- google-app-engine - 在 GEE 中将 GPM 每小时数据汇总到每天