首页 > 解决方案 > 使用 Python 删除阿拉伯语变音符号

问题描述

我想通过使用 Python 删除阿拉伯语变音符号来过滤我的文本

例如

文本: اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا 后填充: اللهم اغفر لنا ولوالدينا

我发现这可以使用 CAMeL 工具完成,但我不确定如何

标签: pythonarabic

解决方案


您可以像这样使用库pyArabic

import pyarabic.araby as araby

before_filter="اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا"
after_filter = araby.strip_diacritics(before_filter)

print(after_filter)
# will print : اللهم اغفر لنا ولوالدينا

您可以尝试不同的 stip 过滤器:

araby.strip_harakat(before_filter)  # 'اللّهمّ اغفر لنا ولوالدينا'
araby.strip_lastharaka(before_filter)  # 'اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا'
araby.strip_shadda(before_filter)  # 'اللَهمَ اغْفِرْ لنَا ولوالدِينَا'
araby.strip_small(before_filter)  # 'اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا'
araby.strip_tashkeel(before_filter)  # 'اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا'
araby.strip_tatweel(before_filter)  # 'اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا'

推荐阅读