python-3.x - 在 Python3 中重新创建 JS 按位整数处理
问题描述
我需要将哈希函数从 JavaScript 转换为 Python。
功能如下:
function getIndex(string) {
var length = 27;
string = string.toLowerCase();
var hash = 0;
for (var i = 0; i < string.length; i++) {
hash = string.charCodeAt(i) + (hash << 6) + (hash << 16) - hash;
}
var index = Math.abs(hash % length);
return index;
}
console.log(getIndex(window.prompt("Enter a string to hash")));
此功能是 Objectively Correct™。它本身就是完美。我无法改变它,我只需要重新创建它。无论它输出什么,我的 Python 脚本也必须输出。
但是 - 我有几个问题,我认为这与两种语言处理有符号整数的方式有关。
JS 位运算符将其操作数视为 32 位序列。然而,Python 没有位限制的概念,只是像一个绝对的疯子一样继续前进。我认为这是两种语言之间的一个相关区别。
我可以通过将 Python 中的长度限制hash
为 32 位hash & 0xFFFFFFFF
。
hash
如果它在上面0x7FFFFFFF
,我也可以否定hash = hash ^ 0xFFFFFFFF
(或者hash = ~hash
- 他们似乎都在做同样的事情)。我相信这模拟了负数。
我使用一个名为t
.
到目前为止,这是我的 Python 代码:
def nickColor(string):
length = 27
def t(x):
x = x & 0xFFFFFFFF
if x > 0x7FFFFFFF:
x = x ^ 0xFFFFFFFF
return x
string = string.lower()
hash = t(0)
for letter in string:
hash = t(hash)
hash = t(t(ord(letter)) + t(hash << 6) + t(hash << 16) - t(hash))
index = hash % length
return index
它似乎一直有效,直到哈希需要变为负数,此时两个脚本出现分歧。这通常发生在字符串中大约 4 个字母。
我假设我的问题在于在 Python 中重新创建 JS 负数。我该如何告别这个问题?
解决方案
这是一个有效的翻译:
def nickColor(string):
length = 27
def t(x):
x &= 0xFFFF_FFFF
if x > 0x7FFF_FFFF:
x -= 0x1_0000_0000
return float(x)
bytes = string.lower().encode('utf-16-le')
hash = 0.0
for i in range(0, len(bytes), 2):
char_code = bytes[i] + 256*bytes[i+1]
hash = char_code + t(int(hash) << 6) + t(int(hash) << 16) - hash
return int(hash % length if hash >= 0 else abs(hash % length - length))
关键是,只有移位 ( <<
) 被计算为 32 位整数运算,它们的结果在输入加法和减法之前被转换回双精度。我不熟悉两种语言中双精度浮点表示的规则,但可以肯定的是,在所有个人计算设备和 Web 服务器上,这两种语言都是相同的,即双精度 IEEE 754。对于非常长的字符串(数千个字符),哈希可能会丢失一些精度,这当然会影响最终结果,但在 JS 中和在 Python 中的方式相同(不是 Objectively Correct™ 函数的作者想要的,而是它就是这样儿的…)。最后一行纠正了不同的定义%
JavaScript和Python中用于负操作数的运算符。
此外(感谢 Mark Ransom 提醒我这一点),要完全模拟 JavaScript,还需要考虑其编码,即 UTF-16,但代理对被处理为由 2 个字符组成。对字符串进行编码,utf-16-le
确保每个 16 位“单词”中的第一个字节是最不重要的字节,此外,如果您使用tout court (谢谢 Martijn Pieters) ,您不会得到BOM 。utf-16
推荐阅读
- amazon-web-services - 如何在 aws-cli 中对“list-tasks”的结果进行排序?
- arrays - MongoDB $elemMatch 查找多个元素
- python - 更改熊猫中的列值应用另一个函数
- c++ - count_if 中外部值的比较
- terminal - Tmux 垂直拆分窗口并定义顶部窗格的高度
- python - 如何在我的系统上找到 MacPorts Python?
- dataweave - 骡子 4:Dataweave 2.0:java.lang.StackOverflowError。在连接期间并减少大于 10k 的记录大小
- amp-email - AMP 电子邮件图像自动加载?
- html - 如何使用 HTML、Django 中的选项正确呈现“if”条件
- c# - 获取相同 PID 的所有主窗口标题