首页 > 解决方案 > cp1251和cp10007 python编码/解码俄罗斯符号的区别

问题描述

我制作了一个识别文本编码的程序。我有编码列表,对于每个编码,我用该编码打开文件并执行频率分析,然后比较频率并找到编码。我也需要识别 cp10007,如果我理解正确的话,cp10007 是 mac-cyrillic,但 cp1251 和 mac-cyrillic 有用于编码俄罗斯符号的字节。但是,如果我将 mac-cyrillic(cp10007) (如 cp1251)解码为 utf-8,我在几个符号中解码错误。如何找到 10007 和 cp1251 之间的差异?

标签: pythonencodingcharacter-encoding

解决方案


推荐阅读