首页 > 解决方案 > 如何将具有混合 unicode 表示和 unicode 的文本文件转换为字节?

问题描述

我有一个文本文件,其中包含数据行(键值对):

"\x80\x80\x13_@\x80":"\xff\xff\x80Sometext\x56\"\x64\u0001(more bytes with unicode reprsentation and unicode and latin symbols)\xfdg\u0080moretext\x30中\x52\x23\x24P" (也许 \U00000000 (不确定))

(它实际上是混合的,我很难理解如何将其转换为字节格式,因为我需要文件中的数据。

当我读取为字节时,我很难弄清楚如何处理它。如果我读为文本,它之前有两个 \ 。

(它是来自 golang/leveldb 的转储,我想将其拆分以提取 wav 数据)。

标签: pythonunicodebyte

解决方案


如果它是一个字符串(或 py2 中的 unicode),你可以调用my_string.encode("utf8"),因为我相信 unicode 中的所有字符都可以用 utf8 表示(带一点盐)......(注意并非所有字节都必须如此,如果你有奇怪的随机那里的二进制数据也可能无法很好地工作)

如果它已经以字节为单位,那就更难了......你真的需要知道适当的编码


推荐阅读