python - 如何将具有混合 unicode 表示和 unicode 的文本文件转换为字节?
问题描述
我有一个文本文件,其中包含数据行(键值对):
"\x80\x80\x13_@\x80":"\xff\xff\x80Sometext\x56\"\x64\u0001(more bytes with unicode reprsentation and unicode and latin symbols)\xfdg\u0080moretext\x30中\x52\x23\x24P"
(也许 \U00000000 (不确定))
(它实际上是混合的,我很难理解如何将其转换为字节格式,因为我需要文件中的数据。
当我读取为字节时,我很难弄清楚如何处理它。如果我读为文本,它之前有两个 \ 。
(它是来自 golang/leveldb 的转储,我想将其拆分以提取 wav 数据)。
解决方案
如果它是一个字符串(或 py2 中的 unicode),你可以调用my_string.encode("utf8")
,因为我相信 unicode 中的所有字符都可以用 utf8 表示(带一点盐)......(注意并非所有字节都必须如此,如果你有奇怪的随机那里的二进制数据也可能无法很好地工作)
如果它已经以字节为单位,那就更难了......你真的需要知道适当的编码
推荐阅读
- assembly - 如何通过 PC BIOS 调用更改像素颜色?
- sql - (Group By) & (FOR XML PATH) & JOIN
- angular - 防止 Adal.js 重新加载页面 3 次。角 5
- npm - npm 运行脚本“找不到命令”
- system-verilog - 通过 TLM 端口将浮点数从 SystemVerilog 传输到 SystemC
- c# - C#图表系列如何连接屏幕上缺失的点?
- java - 调用一个类的方法而不是另一个类的方法时出现 JNI Unsatisfied Link Error
- php - 数据表:是否可以使用 Ajax 填充 2 列并为其他列使用不同的方式?
- excel - 在下载之前测试 URLDownloadToFile 文件大小以识别不存在的文件
- arrays - 通过重复第一行两次并将其堆叠到前面来扩展数组