首页 > 解决方案 > 如何根据内容对与圣经相关的文本进行分类

问题描述

我有一个来自社交网络(FB、Twitter)评论的文本数据库。我的目标是根据内容对与圣经有密切关系的文本进行分类(例如,如果使用了引用或“圣经”词。这是一个二元分类问题,我需要帮助来弄清楚如何处理它(也许以某种方式将圣经用作字典)。谢谢!

标签: machine-learningtextnlpclassificationtext-classification

解决方案


您可以训练有监督的二元分类器(例如,基于 TF-IDF 计数器的逻辑回归,或 fasttext 分类器,或微调 BertForSequenceClassification)。

然后将此分类器应用于您的评论数据库,并找到一个合理的概率阈值,以仅保留分类器足够自信的评论。

作为训练的正例,您可以使用圣经本身的句子、与圣经相关的维基百科文章的句子等。作为负例,您可以使用从网络收集的任何句子语料库——例如莱比锡语料库之一。


推荐阅读