unicode - Unicode 组合字符的实际最大数量是多少?
问题描述
我正在寻找在现实自然文本中的非组合字符之后出现的最大数量的 unicode 组合字符。
我知道在 unicode 文本中,可以在文本的任何位置放置任意数量的组合。但是,我正在编写一个专门的应用程序,它必须在有限的资源下运行,并且由于这个和其他技术原因,在非组合字符之后显示任意数量的组合字符不是一种选择。但是,如果可能的话,我仍然希望正确显示自然语言,并且支持少量组合应该不是问题。
我的直觉是,自然语言在适当的字符后不需要超过两到三个组合,但我不确定,也找不到该数字的任何来源。
解决方案
好的,由于缺乏更好的答案,这就是我所做的(如果需要,供将来参考):
我最终使用了一个类似于 SmallVec 的东西,分配前的阈值为 8 个字节,上限约为 50 个字节(以 UTF-8 存储的文本)。我认为这应该让每个人都开心,并且性能不会受到影响。
拿这些数字加点盐,它们是任意的,无论如何我可能会调整它们。
推荐阅读
- python - 如何在我的代码中并行化这个瓶颈?
- android - 如何将 INI 文件写入 App Document Directory?
- jquery - 使用 href 加载页面后打开弹出窗口
- sql - 识别插入的行值以运行存储过程
- firebase-hosting - Firebase 托管部署 - 无法读取未定义的属性“部署”
- javascript - 具有给定范围和参数的自定义函数 - Google Apps 脚本
- amazon-web-services - 向 Amazon QnA 机器人中的所有问题添加把手代码
- spring-boot - 锁定数据库中的一行并稍后释放它
- html - SharePoint AJAX/jQuery DataTable 卡住加载
- python - 在异步for循环中遍历列表