python - 如何计算字符串中的字母?
问题描述
假设我有一个 UTF-8 str
,例如
my_str = "नमस्ते" # ['न', 'म', 'स', '्', 'त', 'े']
我如何找到它包含多少个字母?len(my_str)
返回 6,即它包含多少个 Unicode 代码点。它实际上是 4 个字母长。
还有一个额外的问题:某些语言将二合字母定义为单个字母(例如“Dh”是现代阿尔巴尼亚字母表的第 6 个字母),我该如何处理这种边缘情况?
解决方案
您要分段文本。这由UAX #29在 Unicode 中管理。
4个字母长
该术语不正确/太窄,应该说“4 个字素簇长”。
使用uniseg
库:
from uniseg.graphemecluster import grapheme_clusters
for text in ('नमस्ते', 'Bo\u0304ris', 'Ꙝ̛͖͋҉ᄀᄀᄀ각ᆨᆨ'):
print(list(grapheme_clusters(text)))
#['न', 'म', 'स्', 'ते']
#['B', 'ō', 'r', 'i', 's']
#['Ꙝ̛͋', 'ᄀᄀᄀ각ᆨᆨ']
# treat digraph 'dh' as a customised grapheme cluster
def albanian_digraph_dh(s, breakables):
for i, breakable in enumerate(breakables):
if s.endswith('d', 0, i) and s.startswith('h', i):
yield 0
else:
yield breakable
# you can do all the digraphs like this
ALBANIAN_DIGRAPHS = {"Dh", "Gj", "Ll", "Nj", "Rr", "Sh", "Th", "Xh", "Zh"}
ALBANIAN_DIGRAPHS |= {digraph.lower() for digraph in ALBANIAN_DIGRAPHS}
def albanian_digraphs(s, breakables):
for i, breakable in enumerate(breakables):
yield 0 if s[i-1:i+1] in ALBANIAN_DIGRAPHS else breakable
# from https://sq.wiktionary.org/wiki/Speciale:PrefixIndex?prefix=dh
for text in ('dhallanik', 'dhelpëror', 'dhembshurisht', 'dhevështrues', 'dhimbshëm', 'dhjamosje', 'dhjetëballësh', 'dhjetëminutësh', 'dhogaç', 'dhogiç', 'dhomë-muze', 'dhuratë', 'dhëmbinxhi', 'dhëmbçoj', 'dhëmbëkatarosh'):
print(list(grapheme_clusters(text, albanian_digraphs)))
#['dh', 'a', 'll', 'a', 'n', 'i', 'k']
#['dh', 'e', 'l', 'p', 'ë', 'r', 'o', 'r']
#['dh', 'e', 'm', 'b', 'sh', 'u', 'r', 'i', 'sh', 't']
#['dh', 'e', 'v', 'ë', 'sh', 't', 'r', 'u', 'e', 's']
#['dh', 'i', 'm', 'b', 'sh', 'ë', 'm']
#['dh', 'j', 'a', 'm', 'o', 's', 'j', 'e']
#['dh', 'j', 'e', 't', 'ë', 'b', 'a', 'll', 'ë', 'sh']
#['dh', 'j', 'e', 't', 'ë', 'm', 'i', 'n', 'u', 't', 'ë', 'sh']
#['dh', 'o', 'g', 'a', 'ç']
#['dh', 'o', 'g', 'i', 'ç']
#['dh', 'o', 'm', 'ë', '-', 'm', 'u', 'z', 'e']
#['dh', 'u', 'r', 'a', 't', 'ë']
#['dh', 'ë', 'm', 'b', 'i', 'n', 'xh', 'i']
#['dh', 'ë', 'm', 'b', 'ç', 'o', 'j']
#['dh', 'ë', 'm', 'b', 'ë', 'k', 'a', 't', 'a', 'r', 'o', 'sh']
你可以安装它
pip install uniseg
推荐阅读
- asp.net-core - 如何获得声明 WSFederation cookie 身份验证?
- gcc - 使用 vorbis 库时如何编译 .c 文件。对 vorbis_info_init 的未定义引用
- javascript - 如何在 TABLE 中求和 TR
- java - 一个应用程序依赖于其他应用程序的结果,我们如何在 Java 中实现这一点?
- javascript - 如何在 3s 视频中的特定帧处执行 DOM 操作?
- python - 无法将项目添加到新的 DynamoDB 表
- android - 想在不同的类文件中调用其他活动
- java - 添加 Firebase Admin 6.12.2 后 Netty 无法处理请求
- kotlin - 使用 listOf 与 arrayListOf
- python - 尝试在远程主机中安装 git 时出现 AnsibleAuthenticationFailure