python - 我如何让python找到看起来类似于坏词的词,但不一定是英语中的正确词?
问题描述
我正在用 python 制作一个网络欺凌检测不和谐机器人,但遗憾的是,有些人可能会在传统英语中找到自己的方式并以不同的方式拼写一个坏词,比如带有 3 g 的 n 字或没有C。有些人可能会使用太多的坏词变体。我怎样才能让python找到它们?
我已经尝试过pyenchant
,但它并没有做我想做的事情。如果我提出建议(“种族主义诽谤”),则“吸盘”在数组中。我似乎找不到任何有用的东西。
我是否必须分别考虑每种可能性并将所有可能性添加到一个字典中?(我希望不是。)
解决方案
做繁重的工作不一定是 python 的工作,而是它的生态系统。您可能想研究自然语言理解算法并找到适合您特定需求的方法。这需要一些时间和进一步的专业知识才能弄清楚。
您可能想从 pytorch 开始,它对我的学习曲线帮助很大。他们关于文本的文档:https ://pytorch.org/text/stable/index.html
另外,我建议你看看 kaggle,有几个数据科学挑战会奖励它们来解决你想要解决的相同任务。 https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification
这些比赛通常有公开的入门笔记本,让您开始自己的实施。
推荐阅读
- mongodb - MongoDB Scala 客户端 - java.lang.NoSuchMethodError: com.mongodb.MongoClientSettings.getUuidRepresentation()Lorg/bson/UuidRepresentation;
- angular - 如何在角度谷歌地图(AGM)中设置自动缩放
- java - java点燃log4j问题
- google-sheets - 如何进行谷歌表格过滤?如何排序?
- python - Keras 模型准确率、损失、val_accuracy 和 val_loss 不变
- python - 如何解决for循环中增量条件下的索引错误?
- python - OptKeras (Keras Optuna Wrapper) - 在我自己的类中使用 optkeras,AttributeError: type object 'FrozenTrial' has no attribute '_field_types'
- flask - 重新初始化烧瓶扩展
- python - lmfit ODE 拟合误差:残差和数据之间的形状不同
- jq - 从 JSON 数组中选择版本字符串并使用 jq 将其加一