machine-learning - 如何根据内容对与圣经相关的文本进行分类
问题描述
我有一个来自社交网络(FB、Twitter)评论的文本数据库。我的目标是根据内容对与圣经有密切关系的文本进行分类(例如,如果使用了引用或“圣经”词。这是一个二元分类问题,我需要帮助来弄清楚如何处理它(也许以某种方式将圣经用作字典)。谢谢!
解决方案
您可以训练有监督的二元分类器(例如,基于 TF-IDF 计数器的逻辑回归,或 fasttext 分类器,或微调 BertForSequenceClassification)。
然后将此分类器应用于您的评论数据库,并找到一个合理的概率阈值,以仅保留分类器足够自信的评论。
作为训练的正例,您可以使用圣经本身的句子、与圣经相关的维基百科文章的句子等。作为负例,您可以使用从网络收集的任何句子语料库——例如莱比锡语料库之一。
推荐阅读
- dictionary - 如何更新地图中的结构属性
- python - Python 列表有列吗?
- python - 为什么python中的csv只写最后一行?
- php - php 7 调用未定义函数 bcpowmod()
- javascript - 十进制格式验证
- java - 知道如何解决这个问题吗?线程“WindowsNativeRunloopThread”中的异常 java.lang.NoSuchMethodError
- python-3.x - 从excel表制作python字典
- c# - Button_Clicked 事件操作特定元素(纯 C# (Page.cs))
- android - Android 未经检查的分配
- forms - 您如何访问 Gravity Form 字段预提交?