python - 朴素贝叶斯多项式模型
问题描述
对于电影评论数据集,我正在创建一个朴素贝叶斯多项式模型。现在在训练数据集中,每种类型都有评论。因此,与其为电影评论数据集创建一个通用模型——忽略类型特征,我如何训练一个模型,该模型除了与评论中出现的单词相关联的 tf-idf 之外,还考虑了类型特征。我需要为每种类型创建一个模型,还是可以将其合并到一个模型中?
Training Dataset Sample:
genre, review, classification
Romantic, The movie was really emotional and touched my heart!, Positive
Action, It was a thrilling movie, Positive
....
Test Data Set:
Genre, review
Action, The movie sucked bigtime. The action sequences didnt fit into the plot very well
解决方案
从文档中,The multinomial distribution normally requires integer feature counts
. 作为输入提供的分类变量,特别是如果它们被编码为整数,可能不会对模型的预测能力产生积极影响。如上所述,您可以考虑使用神经网络,或者完全删除流派列。如果在拟合模型后仅对文本特征显示出足够的预测能力,则甚至可能不需要添加分类变量作为输入。
我尝试此任务的方法是将虚拟分类值与文本特征堆叠在一起,并将堆叠的数组与目标标签一起提供给SGD模型。然后,您将执行GridSearch以获得最佳的超参数选择。
推荐阅读
- c - Conflicting types error in the function declaration of a division with floating point function
- swift - How can I change the date format in Swift5 (ISO8601)?
- r - 如何在迭代添加一个时基于组添加行?
- asp.net-mvc - 如何在 ASP.NET MVC 中从视图中调用 ViewComponents?
- java - Spring Security:身份验证导致 HTTP 405“方法不允许”
- javascript - 如何将从表单收到的信息发送到将存储它们的按钮链接,并在点击时显示它们?
- reactjs - 返回 Promise 的函数的 redux-saga yield 或 call() 导致其他 saga 无需等待即可运行
- javascript - 为事件中心输出绑定设置 partitionKey
- python - 熊猫滚动标准开发行为
- json - 不显示价值