python - cp1251和cp10007 python编码/解码俄罗斯符号的区别
问题描述
我制作了一个识别文本编码的程序。我有编码列表,对于每个编码,我用该编码打开文件并执行频率分析,然后比较频率并找到编码。我也需要识别 cp10007,如果我理解正确的话,cp10007 是 mac-cyrillic,但 cp1251 和 mac-cyrillic 有用于编码俄罗斯符号的字节。但是,如果我将 mac-cyrillic(cp10007) (如 cp1251)解码为 utf-8,我在几个符号中解码错误。如何找到 10007 和 cp1251 之间的差异?
解决方案
推荐阅读
- mysql - MySQL ORDER BY 不按字母顺序排序
- wordpress - 如何阻止 Wordpress 在保存后更改我的链接 href 属性
- django - 无法创建唯一索引,键重复 django postgres
- r - 如何有条件地合并/复制不同的行[R]
- google-colaboratory - 在 Google Colab 上训练模型时,我应该保持连接吗?
- r - fviz_mclust 中的轴定义
- cypress - Cypress - 如何在方法 CONTAINS 中按顺序获取第三个元素?
- javascript - 如何在 django 模板中设置两个 for 循环来发送和接收聊天?
- database - 如何查询两个具有相关数据的集合?
- python - networkx.readGml() 函数是否存储节点的宽度和高度?如果是这样,它们如何被访问?