首页 > 解决方案 > 我如何让python找到看起来类似于坏词的词,但不一定是英语中的正确词?

问题描述

我正在用 python 制作一个网络欺凌检测不和谐机器人,但遗憾的是,有些人可能会在传统英语中找到自己的方式并以不同的方式拼写一个坏词,比如带有 3 g 的 n 字或没有C。有些人可能会使用太多的坏词变体。我怎样才能让python找到它们?

我已经尝试过pyenchant,但它并没有做我想做的事情。如果我提出建议(“种族主义诽谤”),则“吸盘”在数组中。我似乎找不到任何有用的东西。

我是否必须分别考虑每种可能性并将所有可能性添加到一个字典中?(我希望不是。)

标签: pythonsecurity

解决方案


做繁重的工作不一定是 python 的工作,而是它的生态系统。您可能想研究自然语言理解算法并找到适合您特定需求的方法。这需要一些时间和进一步的专业知识才能弄清楚。

您可能想从 pytorch 开始,它对我的​​学习曲线帮助很大。他们关于文本的文档:https ://pytorch.org/text/stable/index.html

另外,我建议你看看 kaggle,有几个数据科学挑战会奖励它们来解决你想要解决的相同任务。 https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification

这些比赛通常有公开的入门笔记本,让您开始自己的实施。


推荐阅读