首页 > 解决方案 > Unicode 组合字符的实际最大数量是多少?

问题描述

我正在寻找在现实自然文本中的非组合字符之后出现的最大数量的 unicode 组合字符。

我知道在 unicode 文本中,可以在文本的任何位置放置任意数量的组合。但是,我正在编写一个专门的应用程序,它必须在有限的资源下运行,并且由于这个和其他技术原因,在非组合字符之后显示任意数量的组合字符不是一种选择。但是,如果可能的话,我仍然希望正确显示自然语言,并且支持少量组合应该不是问题。

我的直觉是,自然语言在适当的字符后不需要超过两到三个组合,但我不确定,也找不到该数字的任何来源。

标签: unicode

解决方案


好的,由于缺乏更好的答案,这就是我所做的(如果需要,供将来参考):

我最终使用了一个类似于 SmallVec 的东西,分配前的阈值为 8 个字节,上限约为 50 个字节(以 UTF-8 存储的文本)。我认为这应该让每个人都开心,并且性能不会受到影响。

拿这些数字加点盐,它们是任意的,无论如何我可能会调整它们。


推荐阅读