python - 为什么 \x00 没有被 repr 转换为 \0
问题描述
这是关于 Python 的 repr 的一个有趣的奇怪之处:
制表符\x09
表示为\t
。但是,此约定不适用于空终止符。
为什么\x00
表示为\x00
,而不是\0
?
示例代码:
# Some facts to make sure we are on the same page
>>> '\x31' == '1'
True
>>> '\x09' == '\t'
True
>>> '\x00' == '\0'
True
>>> x = '\x31'
>>> y = '\x09'
>>> z = '\x00'
>>> x
'1' # As Expected
>>> y
'\t' # Okay
>>> z
'\x00' # Inconsistent - why is this not \0
解决方案
简短的回答:因为这不是使用的特定转义。字符串表示仅使用单字符转义\\
, \n
, \r
, \t
, (加上\'
当"
和'
字符都存在时),因为对这些有明确的测试。
其余部分要么被视为可打印并按原样包含,要么使用更长的转义序列包含(取决于 Python 版本和字符串类型,\xhh
和\uhhhh
,\Uhhhhhhhh
始终使用适合该值的 3 个选项中最短的一个)。
此外,在生成repr()
输出时,对于由一个空字节后跟一个从to的数字组成的字符串(so 、or等),您不能只在输出中使用,而不必转义后面的数字。是单个八进制转义序列,与 的值不同,即两个字节。虽然强制输出始终使用三个八进制数字(例如)可能是一种解决方法,但坚持使用标准化、更简单的转义序列格式会更简单。向前扫描以查看下一个字符是否是八进制数字并切换输出样式只会产生令人困惑的输出(想象一下 SO 上的问题:和'1'
'7'
bytes([0x00, 0x49])
bytes([0x00, 0x4A])
\0
'\01'
'\x001'
'\0001'
'\x001'
'\0Ol'
? )
输出总是一致的。除了单引号(可能出现'
或\'
,取决于"
字符的存在),Python 将始终对给定的代码点使用相同的转义序列样式。
如果你想研究产生输出的代码,你可以在函数str.__repr__
中找到 Python 3的实现,它使用Objects/unicodeobject.c
unicode_repr()
/* Escape quotes and backslashes */
if ((ch == quote) || (ch == '\\')) {
PyUnicode_WRITE(okind, odata, o++, '\\');
PyUnicode_WRITE(okind, odata, o++, ch);
continue;
}
/* Map special whitespace to '\t', \n', '\r' */
if (ch == '\t') {
PyUnicode_WRITE(okind, odata, o++, '\\');
PyUnicode_WRITE(okind, odata, o++, 't');
}
else if (ch == '\n') {
PyUnicode_WRITE(okind, odata, o++, '\\');
PyUnicode_WRITE(okind, odata, o++, 'n');
}
else if (ch == '\r') {
PyUnicode_WRITE(okind, odata, o++, '\\');
PyUnicode_WRITE(okind, odata, o++, 'r');
}
对于单字符转义,然后是下面的额外检查更长的转义。对于 Python 2,一个类似但更短的PyString_Repr()
函数做了很多相同的事情。
推荐阅读
- asp.net-web-api2 - 如何在 windows 窗体中正确实例化 HttpClient
- python - 如何在python中修改字节
- angular - 如何设置 ngx-webcam 的输出大小?
- ios - Swift - C 函数未在 Swift 中显示
- excel - 如何使用宏自动翻译excel中的数据?
- android - 带有 dagger、JetPack 组件的 Android Kotlin MVVM
- python - 更新状态()上的 Tensorflow Keras 自定义指标错误
- azure-devops - 将多个状态映射到 Azure DevOps 中的列
- reactjs - 收到推送通知后后台位置并检查 Expo 应用程序
- javascript - Javascript在画布裁剪后调整对象坐标