首页 > 解决方案 > 使用朴素贝叶斯进行文本分类

问题描述

我正在学习 NLP 并注意到基于朴素贝叶斯的 TextBlob 分类(textblob 是在 NLTK 之上构建的)https://textblob.readthedocs.io/en/dev/classifiers.html在训练数据是句子列表时工作正常并且确实当训练数据是单个单词(每个单词和分配的分类)时,根本不起作用。

为什么?

标签: pythonnlpnltktext-classificationtextblob

解决方案


因为您在训练数据中没有单个单词。

通常应该选择具有相同分布的训练和评估/测试数据。偏差或偏差通常是有问题的。在极少数情况下,您可以训练模型做一件事并用它做其他事情。

在您的情况下,该模型可能会将权重分布在句子中的单词上。因此,当您选择一个单词时,您只会得到所代表权重的一小部分。

要让它发挥作用,您应该在训练数据中添加单个单词示例。


推荐阅读