首页 > 解决方案 > 如何使用 Javascript 在泰米尔语 unicode 单词中获得正确的第一个字母?

问题描述

标签: javascriptregexunicodetamilxregexp

解决方案


我不知道泰米尔语脚本,但维基百科解释了该脚本中复合字母的概念。Tamil Unicode Block有 U+0B80 到 U+0BFF 范围内的字符,其中子范围 U+0BBE-U+0BCD 和 U+0BD7 是后缀,需要与前面的辅音组合以使其成为复合字母。

如果没有任何专门的库或更智能的正则表达式支持,您似乎可以使其与正则表达式一起工作,该正则表达式[\u0b80-\u0bff][\u0bbe-\u0bcd\u0bd7]?匹配泰米尔语范围内的字符,此外可能还有这些后缀代码之一。

let s = "this is Tamil: யாத்திராகமம்";

console.log("First Tamil character: ", s.match(/[\u0b80-\u0bff][\u0bbe-\u0bcd\u0bd7]?/u));


推荐阅读